Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 1
Biostatistique et Introduction à la Santé Publique
Echantillonnage et estimation statistique
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 2
Echantillonnage statistique
• Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée.
• C’est le tirage au sort qui assure la représentativité.
• Un échantillon de taille n d’une v.a. X est obtenu en répétant n fois l’épreuve qui donne X.
• Notation : (X1, X2, … , Xn)
• Une réalisation particulière : (x1, x2, … , xn)
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 3
Moyenne et variance de la somme de v.a.
• Soit S la somme des v.a. X et Y : S = X + Y• E(S) = E(X) + E(Y)• Var(S) = Var (X) + Var(Y) + 2 Cov(X,Y)
• Si X et Y sont indépendantes, alors Cov(X,Y) = 0 Var(S) = Var (X) + Var(Y)
• La variance de la somme de variables aléatoires indépendantes est la somme de leurs variances.
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 4
La moyenne d’un échantillon est une variable aléatoire
• Soit une variable X de moyenne et de variance ²
• La moyenne Mn d’un échantillon de taille n est la moyenne arithmétique de ses valeurs X1, … , Xn
• Mn a pour moyenne et pour variance
nXXX
M nn
... 21
n2σ
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 5
Théorème central limite
• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la moyenne M des valeurs d’un échantillon tend vers une loi normale, quelle que soit la loi parente.
• Soit une variable X de distribution quelconque, de moyenne et de variance ²
• La moyenne des valeurs d’un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :
• Condition de validité : n 30
• Il s’agit de l’intervalle de pari de la moyenne.n
σz μ α
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 6
Intervalle de pari d’une proportion
• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la proportion P d’une caractéristique dans un échantillon tend vers une loi normale de moyenne p et de variance pq/n(la loi parente est une binomiale de paramètres n et p).
• La proportion observée dans un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :
• Condition de validité : np et n(1-p) 5α1
α)1( z
npppP
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 7
Estimation
• Estimateur : c’est une caractéristique calculée en fonction des observations destiné à estimer la valeur d’un paramètre inconnu d’une loi de probabilité.
• Estimateur sans biais : il donne en moyenne la valeur recherchée
• Estimateur convergent : tend à se rapprocher de plus en plus de la valeur recherchée quand n augmente
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 8
Estimation de la moyenne et de la variance d’un échantillon de taille n
• Estimation de la moyenne
• Estimation de la variance ²
estimateur sans biais
nx
m i
11 )(
11
2222
n
xx
nmx
ns i
ii
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 9
Estimation de la moyenne et de la variance d’un échantillon de taille n
• Estimation de la moyenne
• Estimation de la variance ²
nx
m i
22 1
1 mnxn i
11 )(
11
2222
n
xx
nmx
ns i
ii
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 10
Estimation par intervalleIntervalle de confiance de la moyenne
• Un intervalle de confiance d’un paramètre inconnu est une fourchette de valeurs construite de telle sorte qu’une proportion 1- des intervalles ainsi construits recouvrent la vraie valeur du paramètre estimé.
• On dit aussi que le paramètre inconnu a une probabilité 1- de se trouver à l’intérieur de cet intervalle.
• Intervalle de confiance au risque de la moyenne
condition n 30m et s observés
α1α z μ
nsm
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 11
Intervalle de confiance d’une proportion
• Intervalle de confiance au risque d’une proportion inconnue à partir d’un échantillon de taille n présentant une proportion p
• conditions de validité : n et n (1-) 5à vérifier aux bornes de l’intervalle
α1α
)1( z
n
ppp
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 12
Intervalle de confiance d’une proportion : exercice
• Dans un registre de 11 712 naissances, enregistrées de façon systématique, le nombre de filles est égal à 5 778.
• Donner une estimation de la proportion de filles, et du sexe-ratio (rapport G/F) au risque 5%.
• Ce résultat vous fournit-il une information sur la vraisemblance de l’équiprobabilité des sexes dans la population étudiée ?
• Proportion de filles 5778/11712 = 0,493 estim. Ponctuelle
• Sexe-ratio
1 est inclus dans l’intervalle
0,502 ; 0,484 0,009 0,493 712 11
507,0493,0 1,96 493,0
F
1,066 ; 0,992 0,4840,516 ;
502,0498,0 : %95IC
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 13
Attention à bien distinguer :
• Intervalle de variationConcerne une variable aléatoire
• Intervalle de pariConcerne la loi connue d’un paramètre
(moyenne, proportion, …)
• Intervalle de confianceConcerne l’estimation d’un paramètre inconnu à
partir d’observations tirées d’un échantillon