Transcript
Page 1: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 1

Biostatistique et Introduction à la Santé Publique

Echantillonnage et estimation statistique

Page 2: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 2

Echantillonnage statistique

• Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée.

• C’est le tirage au sort qui assure la représentativité.

• Un échantillon de taille n d’une v.a. X est obtenu en répétant n fois l’épreuve qui donne X.

• Notation : (X1, X2, … , Xn)

• Une réalisation particulière : (x1, x2, … , xn)

Page 3: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 3

Moyenne et variance de la somme de v.a.

• Soit S la somme des v.a. X et Y : S = X + Y• E(S) = E(X) + E(Y)• Var(S) = Var (X) + Var(Y) + 2 Cov(X,Y)

• Si X et Y sont indépendantes, alors Cov(X,Y) = 0 Var(S) = Var (X) + Var(Y)

• La variance de la somme de variables aléatoires indépendantes est la somme de leurs variances.

Page 4: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 4

La moyenne d’un échantillon est une variable aléatoire

• Soit une variable X de moyenne et de variance ²

• La moyenne Mn d’un échantillon de taille n est la moyenne arithmétique de ses valeurs X1, … , Xn

• Mn a pour moyenne et pour variance

nXXX

M nn

... 21

n2σ

Page 5: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 5

Théorème central limite

• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la moyenne M des valeurs d’un échantillon tend vers une loi normale, quelle que soit la loi parente.

• Soit une variable X de distribution quelconque, de moyenne et de variance ²

• La moyenne des valeurs d’un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :

• Condition de validité : n 30

• Il s’agit de l’intervalle de pari de la moyenne.n

σz μ α

Page 6: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 6

Intervalle de pari d’une proportion

• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la proportion P d’une caractéristique dans un échantillon tend vers une loi normale de moyenne p et de variance pq/n(la loi parente est une binomiale de paramètres n et p).

• La proportion observée dans un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :

• Condition de validité : np et n(1-p) 5α1

α)1( z

npppP

Page 7: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 7

Estimation

• Estimateur : c’est une caractéristique calculée en fonction des observations destiné à estimer la valeur d’un paramètre inconnu d’une loi de probabilité.

• Estimateur sans biais : il donne en moyenne la valeur recherchée

• Estimateur convergent : tend à se rapprocher de plus en plus de la valeur recherchée quand n augmente

Page 8: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 8

Estimation de la moyenne et de la variance d’un échantillon de taille n

• Estimation de la moyenne

• Estimation de la variance ²

estimateur sans biais

nx

m i

11 )(

11

2222

n

xx

nmx

ns i

ii

Page 9: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 9

Estimation de la moyenne et de la variance d’un échantillon de taille n

• Estimation de la moyenne

• Estimation de la variance ²

nx

m i

22 1

1 mnxn i

11 )(

11

2222

n

xx

nmx

ns i

ii

Page 10: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 10

Estimation par intervalleIntervalle de confiance de la moyenne

• Un intervalle de confiance d’un paramètre inconnu est une fourchette de valeurs construite de telle sorte qu’une proportion 1- des intervalles ainsi construits recouvrent la vraie valeur du paramètre estimé.

• On dit aussi que le paramètre inconnu a une probabilité 1- de se trouver à l’intérieur de cet intervalle.

• Intervalle de confiance au risque de la moyenne

condition n 30m et s observés

α1α z μ

nsm

Page 11: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 11

Intervalle de confiance d’une proportion

• Intervalle de confiance au risque d’une proportion inconnue à partir d’un échantillon de taille n présentant une proportion p

• conditions de validité : n et n (1-) 5à vérifier aux bornes de l’intervalle

α1α

)1( z

n

ppp

Page 12: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 12

Intervalle de confiance d’une proportion : exercice

• Dans un registre de 11 712 naissances, enregistrées de façon systématique, le nombre de filles est égal à 5 778.

• Donner une estimation de la proportion de filles, et du sexe-ratio (rapport G/F) au risque 5%.

• Ce résultat vous fournit-il une information sur la vraisemblance de l’équiprobabilité des sexes dans la population étudiée ?

• Proportion de filles 5778/11712 = 0,493 estim. Ponctuelle

• Sexe-ratio

1 est inclus dans l’intervalle

0,502 ; 0,484 0,009 0,493 712 11

507,0493,0 1,96 493,0

F

1,066 ; 0,992 0,4840,516 ;

502,0498,0 : %95IC

Page 13: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 13

Attention à bien distinguer :

• Intervalle de variationConcerne une variable aléatoire

• Intervalle de pariConcerne la loi connue d’un paramètre

(moyenne, proportion, …)

• Intervalle de confianceConcerne l’estimation d’un paramètre inconnu à

partir d’observations tirées d’un échantillon


Recommended