Estimateur et Estimation - Université de...

Preview:

Citation preview

PACES - APEMK UE 4

Evaluation des méthodes d’analyses appliquées aux sciences de la vie et de la santé

Estimateur et Estimation

Prof Franck Bonnetain Unité de méthodologie & de qualité de vie

en cancérologie (EA3181) CHRU Besançon

Plan du cours

I - Echantillon et estimation

II -Estimateur et estimateur ponctuel

III - Distribution d’échantillonnage

IV - Estimation par intervalle de confiance

V - Imprécision et taille de l’échantillon

ECHANTILLON ET

ESTIMATION

Evaluer un paramètre (une caractéristique)

sur un échantillon afin d’estimer (inférence) ce paramètre pour la population entière.

Echantillon et estimation

• Echantillon obtenu par sondage aléatoire simple = Représentatif de la population étudiée

• Réaliser une estimation ponctuelle qui revient à attribuer une valeur, l’estimation, au paramètre de la population à partir des données provenant de l’échantillon.

• On est ainsi amené à construire un estimateur qui est une fonction qui associe l’estimation à l’échantillon

• D’un échantillon à l’autre l’estimateur utilisé est le même mais on peut avoir des estimations ponctuelles différentes

Fonction de distribution d’une

variable

Estimateurs et

Estimation ponctuelle

Définition de la procédure d’estimation

L’estimateur est une nouvelle variable aléatoire construite à partir des données expérimentales-de l’ échantillon et dont la valeur se rapproche du paramètre que l’on cherche à connaître.

Définition d’un estimateur et d’une estimation

un estimateur du paramètre θ est une variable aléatoire φ fonction des Xi

L'estimation de θ est une variable aléatoire φ dont la distribution de probabilité s'appelle la distribution d'échantillonnage du paramètre θ. L'estimateur φ admet donc une espérance E(φ) et une variance V(φ).

Les propriétés requises pour un bon estimateur

son espérance mathématique tend vers

θ quand n augmente indéfiniment

sa variance tend vers 0 quand n augmente

indéfiniment

Estimation ponctuelle : moyenne et pourcentage

Estimation ponctuelle variance

Variance Moyenne des carrés des écarts à la

moyenne

Distribution d’échantillonnage

Distribution d’échantillonnage de la moyenne

• Estimation de la moyenne d’une population • Soient μ et σ2 la moyenne et la variance (inconnues), obtenues

à partir d’un échantillon pris au hasard, d’une v.a. que l’on cherche à estimer.

• Supposons que l’on effectue z échantillonnages (tirages au sort),

tous d’effectif n, dans cette population et que l’on obtienne les résultats suivants :

– x1, x2, …, xn : premier échantillon d’effectif n – y1, y2, …, yn : deuxième échantillon d’effectif n – … – z1, z2, …, zn : z ième échantillon d’effectif n

Distribution d’échantillonnage de la moyenne

• On peut, pour chacun des échantillons, calculer leur moyenne :

- Chacune des moyennes est une estimation de la moyenne de la population ; - Celles ci sont différentes

Distribution d’échantillonnage de la moyenne

Distribution d’échantillonnage de la moyenne

Estimation par intervalle de confiance

Définition d’un intervalle de confiance

Si je répète 100 fois l’ expérience i.e. l’estimation de la moyenne j’ai, avec un risque d’erreur de 5%, 95% de Chance que la moyenne de la population dans soit dans l’IC

Définition d’un intervalle de confiance

Construction de 100 estimations d’intervalle pour

les 100 échantillons.

La vraie valeur μ est correctement encadrée dans

95 % des situations

Bien distinguer :

• Intervalle de pari Concerne la loi connue d’un paramètre (moyenne, proportion, …)‏

• A priori, on veut demontrer que l’estimation se trouve dans un intervalle fixé

• Intervalle de confiance Concerne l’estimation d’un paramètre inconnu à partir

d’observations tirées d’un échantillon

Intervalle de Pari & Intervalle de confiance

Si l'on extrait d'une population parfaitement définie (µ et σ connus) des échantillons suffisamment grands ( en pratique n>30) IP = 95 % des valeurs moyennes des n échantillons appartiennent à l'intervalle fixé au préalable

Intervalle de confiance d’une moyenne

Cas le plus courant Ecart type de la moyenne

Estimation de la moyenne Estimation de la variance de la population

Ecart type de la moyenne

Intervalle de confiance d’une moyenne

Intervalle de confiance d’un pourcentage

Facteurs influençant l’IC

Mais pas les mêmes conséquences sur la précision

des estimations

IC d’autres paramètres

Imprécision et taille de l’échantillon

Imprécision - Risque d’erreur - taille de l’échantillon

Imprécision absolue et relative

Taille de l’échantillon – Estimation d’une moyenne

Taille de l’échantillon – Estimation d’un pourcentage

PACES - APEMK UE 4

Evaluation des méthodes d’analyses appliquées aux sciences de la vie et de la santé

Le Principe des tests d’hypothèse

Prof Franck Bonnetain

Unité de méthodologie & de qualité de vie en cancérologie (EA3181)

CHRU Besançon

Plan

• GENERALITES – 1. a ) Fluctuations d’échantillonnage et tests statistiques – 1. b ) Qu’est-ce qu’un test statistique (ou d’hypothèses) ? – 1. c ) Les étapes de mise en œuvre et réalisation d’un test.

• II. FORMULATION DES HYPOTHESES

– Test unilatéraux et test bilatéraux

• III . RISQUES D’ERREUR

• IV . VARIABLE DE DECISION ou CHOIX DU TEST STATISTIQUE

Plan

• V . DEFINITION DE LA ZONE DE REJET DU TEST – 5. a) Test unilatéraux – 5. b) Test bilatéraux

• VI. CONCLUSION DU TEST – 6. a) Calcul de la valeur expérimentale de la variable

de décision. – 6. b) Conclusion du test : Rejet ou non de Ho – 6. c) Calcul du degré de signification « p »

Généralités

Généralités

Définir l’Hypothèse nulle H0 que l’on souhaite rejeter

Fixer le risque d’erreur global acceptable du test dans l’hypothèse où H0 est vraie

Formulation des hypothèses

Attention : la formulation des hypothèses ne se fait pas avec les estimateurs mais avec les paramètres que l’on souhaite estimer

Les risques d’erreur

Pas d’erreur

Risque α = Faux positif

Les risques d’erreur

Risque β = Faux négatif

Les risques d’erreur

Choix de la variable de décision

• Méthode classique – Avec la «méthode classique», la conclusion au test statistique repose sur la

comparaison entre la valeur du résultat de la statistique du test choisie et la valeur seuil

– Fonction d’un risque d’erreur α fixé a priori et arbitrairement

• Rejet de H0 si

– |résultat de la statistique du test| ≥|valeur seuil|

• Non rejet = Conservation de H0 si

– |résultat de la statistique du test| <|valeur seuil|

• Calcul du degré de signification – Quantifie la crédibilité de H0 au vue des données observées – p: probabilité d’observer une différence au moins aussi importante que celle

observée sous H0

Choix de la variable de décision

Définition des valeurs seuils de rejet

Z = valeur seuil de décision

Valeur seuil de décision

Valeur seuil de décision

Conclusion du test

Conclusion du test

Degré de signification

Calcul du degré de signification - Quantifie la crédibilité de H0 au vue des données observées - p: probabilité d’observer une différence au moins aussi importante que celle observée sous H0

Degré de signification

p = Proba(valeur de la statistique ≥ valeur calculée si H0 est vraie)

Synthèse

• La conclusion du test statistique repose sur la comparaison entre la valeur du degré de signification et la valeur de α

• Rejet de H0 si – p <α

• Non rejet = Conservation de H0 si

– p ≥α

• En général on conclu avec un risque d’erreur α et on donne le degré de signification p

• p < α ⇔ valeur calculée de la statistique > valeur seuil

• Valeur calculée de la statistique ↗⇒↘p

• p n’est pas le risque ou la probabilité de rejeter à tord l’hypothèse nulle

• p traduit en terme de probabilité l’éloignement entre la valeur observée de la statistique et la valeur attendue sous H0

• p ne s’interprète pas en terme de force de différence

• p ↘quand écart entre la réalité et H0 est grand, puissance élevée, les deux, hasard (risque α)

Synthèse

Recommended