13
Novembre 2005 Pr P. Ingrand - Biostatis tique PCEM2 1 Biostatistique et Introduction à la Santé Publique Echantillonnage et estimation statistique

Biostatistique et Introduction à la Santé Publique

  • Upload
    marin

  • View
    151

  • Download
    0

Embed Size (px)

DESCRIPTION

Biostatistique et Introduction à la Santé Publique. Echantillonnage et estimation statistique. Echantillonnage statistique. Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée. C’est le tirage au sort qui assure la représentativité. - PowerPoint PPT Presentation

Citation preview

Page 1: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 1

Biostatistique et Introduction à la Santé Publique

Echantillonnage et estimation statistique

Page 2: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 2

Echantillonnage statistique

• Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée.

• C’est le tirage au sort qui assure la représentativité.

• Un échantillon de taille n d’une v.a. X est obtenu en répétant n fois l’épreuve qui donne X.

• Notation : (X1, X2, … , Xn)

• Une réalisation particulière : (x1, x2, … , xn)

Page 3: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 3

Moyenne et variance de la somme de v.a.

• Soit S la somme des v.a. X et Y : S = X + Y• E(S) = E(X) + E(Y)• Var(S) = Var (X) + Var(Y) + 2 Cov(X,Y)

• Si X et Y sont indépendantes, alors Cov(X,Y) = 0 Var(S) = Var (X) + Var(Y)

• La variance de la somme de variables aléatoires indépendantes est la somme de leurs variances.

Page 4: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 4

La moyenne d’un échantillon est une variable aléatoire

• Soit une variable X de moyenne et de variance ²

• La moyenne Mn d’un échantillon de taille n est la moyenne arithmétique de ses valeurs X1, … , Xn

• Mn a pour moyenne et pour variance

nXXX

M nn

... 21

n2σ

Page 5: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 5

Théorème central limite

• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la moyenne M des valeurs d’un échantillon tend vers une loi normale, quelle que soit la loi parente.

• Soit une variable X de distribution quelconque, de moyenne et de variance ²

• La moyenne des valeurs d’un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :

• Condition de validité : n 30

• Il s’agit de l’intervalle de pari de la moyenne.n

σz μ α

Page 6: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 6

Intervalle de pari d’une proportion

• Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la proportion P d’une caractéristique dans un échantillon tend vers une loi normale de moyenne p et de variance pq/n(la loi parente est une binomiale de paramètres n et p).

• La proportion observée dans un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle :

• Condition de validité : np et n(1-p) 5α1

α)1( z

npppP

Page 7: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 7

Estimation

• Estimateur : c’est une caractéristique calculée en fonction des observations destiné à estimer la valeur d’un paramètre inconnu d’une loi de probabilité.

• Estimateur sans biais : il donne en moyenne la valeur recherchée

• Estimateur convergent : tend à se rapprocher de plus en plus de la valeur recherchée quand n augmente

Page 8: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 8

Estimation de la moyenne et de la variance d’un échantillon de taille n

• Estimation de la moyenne

• Estimation de la variance ²

estimateur sans biais

nx

m i

11 )(

11

2222

n

xx

nmx

ns i

ii

Page 9: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 9

Estimation de la moyenne et de la variance d’un échantillon de taille n

• Estimation de la moyenne

• Estimation de la variance ²

nx

m i

22 1

1 mnxn i

11 )(

11

2222

n

xx

nmx

ns i

ii

Page 10: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 10

Estimation par intervalleIntervalle de confiance de la moyenne

• Un intervalle de confiance d’un paramètre inconnu est une fourchette de valeurs construite de telle sorte qu’une proportion 1- des intervalles ainsi construits recouvrent la vraie valeur du paramètre estimé.

• On dit aussi que le paramètre inconnu a une probabilité 1- de se trouver à l’intérieur de cet intervalle.

• Intervalle de confiance au risque de la moyenne

condition n 30m et s observés

α1α z μ

nsm

Page 11: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 11

Intervalle de confiance d’une proportion

• Intervalle de confiance au risque d’une proportion inconnue à partir d’un échantillon de taille n présentant une proportion p

• conditions de validité : n et n (1-) 5à vérifier aux bornes de l’intervalle

α1α

)1( z

n

ppp

Page 12: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 12

Intervalle de confiance d’une proportion : exercice

• Dans un registre de 11 712 naissances, enregistrées de façon systématique, le nombre de filles est égal à 5 778.

• Donner une estimation de la proportion de filles, et du sexe-ratio (rapport G/F) au risque 5%.

• Ce résultat vous fournit-il une information sur la vraisemblance de l’équiprobabilité des sexes dans la population étudiée ?

• Proportion de filles 5778/11712 = 0,493 estim. Ponctuelle

• Sexe-ratio

1 est inclus dans l’intervalle

0,502 ; 0,484 0,009 0,493 712 11

507,0493,0 1,96 493,0

F

1,066 ; 0,992 0,4840,516 ;

502,0498,0 : %95IC

Page 13: Biostatistique et Introduction  à la Santé Publique

Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 13

Attention à bien distinguer :

• Intervalle de variationConcerne une variable aléatoire

• Intervalle de pariConcerne la loi connue d’un paramètre

(moyenne, proportion, …)

• Intervalle de confianceConcerne l’estimation d’un paramètre inconnu à

partir d’observations tirées d’un échantillon