24
Chapitre 10: Tests et intervalles de confiance pour proportions 1. Test statistique pour une proportion 2. Intervalle de confiance pour une proportion 3. Test statistique pour deux proportions 1

Chapitre 10: Tests et intervalles de con ance pour …. Test statistique pour une proportion Ex: Taux d’individus ayant une caract eristique A dans une population. Soit p= P(A) ce

  • Upload
    voque

  • View
    216

  • Download
    1

Embed Size (px)

Citation preview

Chapitre 10: Tests et intervalles deconfiance pour proportions

1. Test statistique pour une proportion

2. Intervalle de confiance pour une proportion

3. Test statistique pour deux proportions

1

1. Test statistique pour une proportion

Ex: Taux d’individus ayant une caracteristique A dans une population.

Soit p = P (A) ce taux.

De facon generale dans ce chapitre, on utilisera la notation q = 1− p

(de meme, q = 1− p, etc.)

2

– Hypotheses

H0: p = p0 H1: p 6= p0

– Echantillon

Tirage aleatoire de n individus

– Statistique de test (“distance” entre H0 et les observations)

K = Nombre d’individus avec A dans l’echantillon

3

Sous H0, on peut calculer la distribution de K.

Ex: H0: p = 0.4; n = 120

Distribution: K ∼ B(120,0.4)

0 20 40 60 80 100 120

0.00

0.02

0.04

0.06

k

P(K

=k)

On peut par exemple adopter la regle de decision suivante:

Regle de decision: rejeter H0 si k ≤ 37 ou si k ≥ 60

Niveau: p1+ p2 = 0.041

4

Sous H0, on peut calculer la distribution de K.

Ex: H0: p = 0.4; n = 120

Distribution: K ∼ B(120,0.4)

0 20 40 60 80 100 120

0.00

0.02

0.04

0.06

k

P(K

=k)

p1 = 0.024 p2 = 0.017

On peut par exemple adopter la regle de decision suivante:

Regle de decision: rejeter H0 si k ≤ 37 ou si k ≥ 60

Niveau: p1+ p2 = 0.041

5

Avantage de cette approche: le niveau est connu exactement, pas

d’approximation.

Desavantage: Il faut trouver les bornes“manuellement”pour chaque valeur

de n et de p0.

6

Sous certaines conditions (grace au theoreme centrale limite), la

distribution de K est bien approximee par la distribution normale:

0 20 40 60 80 100 120

0.00

0.02

0.04

0.06

k

P(K

=k)

7

Sous certaines conditions (grace au theoreme centrale limite), la

distribution de K est bien approximee par la distribution normale:

0 20 40 60 80 100 120

0.00

0.02

0.04

0.06

k

P(K

=k)

Densité de X ~ N(np0, np0(1 − p0))

8

A la place de K, on prend comme statistique de test:

Z =K/n− p0√p0(1− p0)/n

.

Sous H0, et sous les conditions d’application (v. p. suivante), Z a approximativement

une distribution N (0,1).

→ Regle de decision:

Rejeter H0 si |z| > z1−α/2

ou z est la valeur observee de Z et z1−α/2 est le quantile 1− α/2 de la distribution

N (0,1).

Remarque: pour faire le test unilateral de H0: p = p0 contre H1: p > p0, on utilisera

la regle de decision

Rejeter H0 si z > z1−α .

9

Conditions d’application: il faut que n soit suffisamment grand pour que

l’approximation normale soit bonne. Or, plus p est extreme (proche de 0

ou de 1), plus n doit etre grand. Concretement, si n et p sont tels que

np > 5 et n(1− p) > 5,

alors

K/n− p√p(1− p)/n

a approximativement une distribution N (0,1).

Nous avons deja rencontre ces conditions dans le chapitre 8.

10

2. Intervalle de confiance pour une proportion

Rappel: un intervalle de confiance contient toutes les valeurs du parametre

d’interet qui ne seraient pas rejetees par un test.

Ici, ce sont les valeurs de p telles que

|z| =|k/n− p|√p(1− p)/n

≤ z1−α/2, (1)

ou k est la valeur observee de K dans l’echantillon.

11

La relation (1) est satisfaite pour des valeurs de p situees entre

pi =1

1+ c

(p+ c/2−

√c2/4+ cp(1− p)

)

et

ps =1

1+ c

(p+ c/2+

√c2/4+ cp(1− p)

),

ou

c = z21−α/2/n et p = k/n.

Cet intervalle s’appelle l’intervalle de Wilson, que l’on notera ICWI . On

a donc

ICWI = [pi, ps].

12

Au chapitre precedent, nous avons vu une methode generale pour construire des

intervalles de confiance pour un parametre θ, appelee la methode de Wald. Elle se base

sur la valeur observee θ de l’estimateur du parametre et definit l’intervalle avec niveau

de couverture 1− α comme

[θ − z1−α2 sd(θ) , θ+ z1−α2sd(θ)],

ou sd(θ) est une estimation de l’ecart-type de θ.

Dans le cas ou le parametre est une proportion p, on a:• Estimateur de p: p = K

n , la proportion observee dans l’echantillon.Que vaut sd(p)? → On sait que K, le nombre de personnes avec la caracteristique

d’interet (“succes”) dans l’echantillon, suit une distribution binomiale B(n, p). Son ecart

type est donc sd(K) =√npq. On en deduit (propriete de l’ecart-type) que sd(p) =√

pq/n, que l’on estime par

sd(p) =√pq/n.

On obtient donc que l’intervale de confiance de Wald pour une proportion, note ICWA

est donne par

ICWA =[p− z1−α2

√pq/n , p+ z1−α2

√pq/n

].

13

L’intervalle de Wald plus simple mais moins precis que l’intervalle de

Wilson, qui fait moins d’approximations. Concretemement, on ne l’utilisera

que lorsque

• 0.3 ≤ p ≤ 0.7 et

• n ≥ 50.

Pour l’intervalle de Wald, il peut arriver que la formule de la page

precedente donne une valeur inferieure a 0 pour la borne inferieure ou

une valeur superieure a 1 pour la borne superieure. Il faut alors corriger

l’intervalle en mettant respectivement 0 ou 1 a la place de la borne qui

sort de l’intervalle [0,1]. L’intervalle de Wilson n’a pas ce probleme, ses

bornes etant automatiquement comprises entre 0 et 1.

14

3. Test statistique pour deux proportions

Ex: Taux p1 et p2 d’individus ayant une caracteristique A dans deux

populations differentes.

On se demande si les proportions d’individus ayant la caracteristique

d’interet sont les memes dans les deux populations ou si elles sont

differentes.

15

– Hypotheses

H0: p1 = p2 H1: p1 6= p2

– Echantillon

Tirage aleatoire de n1 individus dans la premiere

population et n2 dans la deuxieme

– Statistique de test (“distance” entre H0 et les observations)

Sous H0 et si n1 et n2 sont suffisamment grands, la variable

Z =K1/n1 −K2/n2√pq/n1 + pq/n2

a approximativement une distribution N (0,1).

Ici K1 est le nb d’individus avec A dans le premier echantillon et

analoguement pour K2, et p = p1 = p2.

16

Pour effectuer le test, on calcule la valeur observee de Z sur nos echantillons:

z =p1 − p2√

pq(1/n1 +1/n2)

ou

p1 = k1/n1, p2 = k2/n2

et

p = (k1 + k2)/(n1 + n2)

Regle de decision:

Rejeter H0 si |z| > z1−α/2 .

Remarque: pour faire le test unilateral de H0: p1 = p2 contre H1: p1 > p2, on

utilisera la regle de decision

Rejeter H0 si z > z1−α .

17

Les donnees peuvent etre presentees de la facon suivante:

Caractere A

Echantillon Present Absent Total1 n11 n12 n1.2 n21 n22 n2.

Total n.1 n.2 n

On peut demontrer que

z2 =n(n11n22 − n12n21)2

n1.n2.n.1n.2

Regle de decision equivalente (pour un test bilateral):

Rejeter H0 si z2 > χ21,1−α, ou χ21,1−α est le quantile 1− α de la distribution χ2 a

un degre de liberte, notee χ21.

(En effet, on rappelle que, par definition de la distribution χ2, si Z ∼ N (0,1), alors Z2 ∼ χ21.)

Remarque:

L’utilisation de z2 a la place de z n’est pas possible pour un test unilateral, car z2 ne

distingue pas entre les cas p1 > p2 et p1 < p2.

18

Au niveau des statistiques de test, on a la situation suivante:

Densite de Z sous H0:

0

ϕ

− z1−α2

z1−α2

P0(|Z|>z1−α2) = α

Densite de Z2 sous H0:

(z1−α2)2 = χ1,1−α

2

P0(Z2>χ1,1−α2 ) = α

densité χ12

19

Exemple: On veut tester si la proportion de nouveaux nes dont le poids a

la naissance est inferieur a 2500g est differente dans les deux populations

suivantes:

– Age de la mere ≤ 20 ans

– Age de la mere > 20 ans

On preleve deux echantillons de taille 100 et on obtient la situation

suivante:

Poids a la naissanceAge Proportion de faibles

maternel ≤ 2500g > 2500g Total poids a la naissance

≤ 20 20 80 100 0.20 (= p1)

> 20 10 90 100 0.10 (= p2)

Total 30 170 200 0.15 (= p)

20

Calculs:

z =p1 − p2√

pq(1/n1 +1/n2)

=0.2− 0.1√

0.15× 0.85× (1/100+ 1/100)= 1.98

z2 =n(n11n22 − n12n21)2

n1.n2.n.1n.2

=200× (20× 90− 10× 80)2

(100× 100× 30× 170)= 3.92

On a bien 1.982 = 3.92.

21

Decision:

z > 1.96 = z0.975 et donc on rejette H0.

De facon equivalente:

z2 > 3.84 = χ21,0.95 et donc on rejette H0.

On vient de tester l’hypothese d’independance entre les variables“poids a

la naissance inferieur a 2500g” et “age de la mere inferieur a 20 ans”. En

effet, demander si la proprotion de bebes dont le poids a la naissance est

inferieur a 2500g differe entre les populations des meres de moins et de

plus de 20 ans revient a demander s’il y a une dependance entre ces deux

variables. Si les proportions different cela implique que le fait de connaıtre

l’age de la mere donne une information sur le poids du bebe, ce qui est le

propre d’une dependance entre deux variables.22

De facon generale, on pourra donc tester l’independance entre deux variablesdichotomiques (i.e. qui n’ont que deux modalites) de la facon ci-dessus. Souvent,ces variables indiquent la presence ou l’absence d’un caractere (ex.: age ≤ 20 ans),et on parle alors de test sur l’independance de deux caracteres. Donc, pour testerl’independance entre deux caracteres A et B, on pose

H0 : A et B independants H1 : A et B pas independants

et on construit le tableau suivant:

B present B absent TotalA present n11 n12 n1.A absent n21 n22 n2.

Total n.1 n.2 n

On calcule ensuite la valeur observee de la statistique de test Z2:

z2 =n(n11n22 − n12n21)2

n1.n2.n.1n.2.

On rejette alors H0 si z2 > χ21,1−α, ou χ21,1−α est le quantile 1−α de la distributionχ2 a un degre de liberte.

23

Pour information:

Souvent, lorsqu’on s’interesse a la dependance entre deux caracteres, il y a un caractere,

appele facteur antededant ou facteur de risque qui cause potentiellement l’autre (par

exemple une maladie). Par exemple, le facteur antecedent fumer cause potentiellement

le caractere cancer du poumon. Il y a alors trois types d’etudes qui se distinguent par

leur mode d’echantillonnage:• Etude prospective: On preleve des echantillons de tailles fixees dans les populations

avec et sans le facteur de risque, et on observe ensuite quels individus developpent la

maladie.

• Etude retrospective: On preleve des echantillons de tailles fixees dans les

populations avec et sans la maladie et on regarde quels individus ont le facteur de

risque.

• Etude transversale: On preleve un seul echantillon dans la population globale et

on determine quels individus ont (ou developpent) la maladie et quels individus ont le

facteur de risque.Suivant la situation, on choisira le type d’etude le plus approprie (ou le plus realisable).

Par exemple, dans le cas d’une maladie rare, une etude retrospective est generalement

plus puissante, car avec les deux autres types on obtiendrait tres peu d’individus avec la

maladie.

Dans les trois cas, on pourra utiliser la methode ci-dessus pour tester l’independance.

24