Upload
marin
View
151
Download
0
Embed Size (px)
DESCRIPTION
Biostatistique et Introduction à la Santé Publique. Echantillonnage et estimation statistique. Echantillonnage statistique. Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée. C’est le tirage au sort qui assure la représentativité. - PowerPoint PPT Presentation
Citation preview
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 1
Biostatistique et Introduction à la Santé Publique
Echantillonnage et estimation statistique
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 2
Echantillonnage statistique
• Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée.
• C’est le tirage au sort qui assure la représentativité.
• Un échantillon de taille n d’une v.a. X est obtenu en répétant n fois l’épreuve qui donne X.
• Notation : (X1, X2, … , Xn)
• Une réalisation particulière : (x1, x2, … , xn)
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 3
Moyenne et variance de la somme de v.a.
• Soit S la somme des v.a. X et Y : S = X + Y• E(S) = E(X) + E(Y)• Var(S) = Var (X) + Var(Y) + 2 Cov(X,Y)
• Si X et Y sont indépendantes, alors Cov(X,Y) = 0 Var(S) = Var (X) + Var(Y)
• La variance de la somme de variables aléatoires indépendantes est la somme de leurs variances.
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 4
La moyenne d’un échantillon est une variable aléatoire
• Soit une variable X de moyenne et de variance ²
• La moyenne Mn d’un échantillon de taille n est la moyenne arithmétique de ses valeurs X1, … , Xn
• Mn a pour moyenne et pour variance
nXXX
M nn
... 21
n2σ
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 5
Théorème central limite
• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la moyenne M des valeurs d’un échantillon tend vers une loi normale, quelle que soit la loi parente.
• Soit une variable X de distribution quelconque, de moyenne et de variance ²
• La moyenne des valeurs d’un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :
• Condition de validité : n 30
• Il s’agit de l’intervalle de pari de la moyenne.n
σz μ α
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 6
Intervalle de pari d’une proportion
• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la proportion P d’une caractéristique dans un échantillon tend vers une loi normale de moyenne p et de variance pq/n(la loi parente est une binomiale de paramètres n et p).
• La proportion observée dans un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :
• Condition de validité : np et n(1-p) 5α1
α)1( z
npppP
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 7
Estimation
• Estimateur : c’est une caractéristique calculée en fonction des observations destiné à estimer la valeur d’un paramètre inconnu d’une loi de probabilité.
• Estimateur sans biais : il donne en moyenne la valeur recherchée
• Estimateur convergent : tend à se rapprocher de plus en plus de la valeur recherchée quand n augmente
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 8
Estimation de la moyenne et de la variance d’un échantillon de taille n
• Estimation de la moyenne
• Estimation de la variance ²
estimateur sans biais
nx
m i
11 )(
11
2222
n
xx
nmx
ns i
ii
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 9
Estimation de la moyenne et de la variance d’un échantillon de taille n
• Estimation de la moyenne
• Estimation de la variance ²
nx
m i
22 1
1 mnxn i
11 )(
11
2222
n
xx
nmx
ns i
ii
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 10
Estimation par intervalleIntervalle de confiance de la moyenne
• Un intervalle de confiance d’un paramètre inconnu est une fourchette de valeurs construite de telle sorte qu’une proportion 1- des intervalles ainsi construits recouvrent la vraie valeur du paramètre estimé.
• On dit aussi que le paramètre inconnu a une probabilité 1- de se trouver à l’intérieur de cet intervalle.
• Intervalle de confiance au risque de la moyenne
condition n 30m et s observés
α1α z μ
nsm
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 11
Intervalle de confiance d’une proportion
• Intervalle de confiance au risque d’une proportion inconnue à partir d’un échantillon de taille n présentant une proportion p
• conditions de validité : n et n (1-) 5à vérifier aux bornes de l’intervalle
α1α
)1( z
n
ppp
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 12
Intervalle de confiance d’une proportion : exercice
• Dans un registre de 11 712 naissances, enregistrées de façon systématique, le nombre de filles est égal à 5 778.
• Donner une estimation de la proportion de filles, et du sexe-ratio (rapport G/F) au risque 5%.
• Ce résultat vous fournit-il une information sur la vraisemblance de l’équiprobabilité des sexes dans la population étudiée ?
• Proportion de filles 5778/11712 = 0,493 estim. Ponctuelle
• Sexe-ratio
1 est inclus dans l’intervalle
0,502 ; 0,484 0,009 0,493 712 11
507,0493,0 1,96 493,0
F
1,066 ; 0,992 0,4840,516 ;
502,0498,0 : %95IC
Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 13
Attention à bien distinguer :
• Intervalle de variationConcerne une variable aléatoire
• Intervalle de pariConcerne la loi connue d’un paramètre
(moyenne, proportion, …)
• Intervalle de confianceConcerne l’estimation d’un paramètre inconnu à
partir d’observations tirées d’un échantillon