Chapitre 3 - Comparer plusieurs groupes

Preview:

DESCRIPTION

Chapitre 3 - Comparer plusieurs groupes. 2 groupes. >2 groupes. A. B. A. B. C. Est-ce que la moyenne des 2 groupes diffère ?. Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?. Comparer 2 groupes : le test t de Student. Approche similaire au test Z. - PowerPoint PPT Presentation

Citation preview

Chapitre 3 - Comparer plusieurs groupes

2 groupes >2 groupes

A B A B C

Est-ce que la moyenne des 2 groupes diffère ?

Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?

Comparer 2 groupes : le test t de Student

Approche similaire au test Z.

S’applique particulièrement pour de petits échantillons (n<30)

Suppose la normalité des distributions et l’égalité des variances

On pose H0: 1 - 2 = 0 pas de différence entre les moyennes

H1: 1 - 2 0 différence entre les moyennes

On calcule la statistique tc. La formule varie selon les caractéristiques

des échantillons.

Dégré de liberté (DDL) important car la forme de la distribution change

A spécifier lors du calcul de probabilité

2

22

1

21

21 )(

ns

ns

mmtobs

(1)

n1 et n2 inégaux et tous les deux > 30, ddl= n1 + n2 – 2

2

22

1

21

2121

ns

ns

mmmmZZobs

Pour rappel, test Z pour grands

échantillonsLa loi de Student converge vers la loi normale pour n grand

On utilise généralement le test t de student, même pour de grands échantillons, car il est plus robuste au déviations de normalité des échantillons

)(1

)(

22

21

21

ssn

mmtobs

(3)

n1 et n2 égaux (=n) quelque soit leur valeur, ddl= 2(n–1)

n1 et n2 inégaux ou tous les deux < 30, ddl= n1 + n2 – 2

)(2

)1()1(

)(

21

21

21

222

211

21

nnnn

nnsnsn

mmtobs

(2)

On compare tobs à la valeur critique de t pour un risque et pour un degré de liberté (ddl) déterminé

0

t

Test unilatéral (à droite)

t varie avec le ddl

Si tobs < t H0 acceptée

Si tobs > t H0 rejetée

0

t

Test bilatéral

t varie avec le ddl

Si ItobsI < ItIH0 acceptée

Si ItobsI > ItI H0 rejetée

On teste la différence de taille moyenne des filles de 2 amphis

Amphi 1

158163151…175168165

281.640.28

Amphi 2

159149153…178159167

251.660.32

nMoyenneEcart-type

n < 28, n inégaux formule (2)

)(2

)1()1(

)(

21

21

21

222

211

21

nnnn

nnsnsn

mmtobs

0.020

0.0897 0.0757

tobs=0.2427Test bilatéral

Exemple d’application

tobs=0.2427 < t/2= H0 acceptée

Pas de différence significative entre les tailles moyennes des 2 amphis

Valeurs données dans le tableau pour /2 !

Test ANOVA (ANalysis Of VAriance)C

om

pare

r p

lus

de 2

gro

up

es

1 2 3 k

X11 X12 . X1k

X21 . . .

. . . .

. . .

Xn11 . . Xnkk

grouprivière étang fossé

15 16 620 18 715 12 913 17 1418 13 1516 22 1222 14 118 18 1210 21 811 25 5

• Question de recherche : Est-ce que la taille des grenouilles vertes diffère entre les 3 types de milieux ?

• Question statistique : Est-ce que les différences de moyenne entre les 3 habitats sont dues au hasard ?

Comparaison de la taille des individus d’une espèce d’amphibien dans 3 milieux

On s’intéresse aux différentes sources de dispersion des données.

SCT SCI SCE

• Variance1

k

SCEVE

kN

SCIVI

n

ii XxSCT

1

2)(

k

j

nj

ijij xxSCI

1 1

2)(

k

jjj XxnSCE

1

2)(

• Somme des carrés

kN 1k1N• DDL

N=nombre total d’individusk= nombre de groupes

• Rapport des variances F

VI

VEFobs

Fobs suit une loi de Fisher-Snedecor à n-k et k-1 degrés de liberté, avec k = nombre de groupes, n = nombre total d’individus

On pose, H0 : m1 = m2 = … = mk H1 : la moyenne d’au moins un échantillon diffère des autres

On réalise un test unilatéral, car on teste VE (inter-groupe) > VI (intra-groupe)

On calcule F(n-k, k-1) pour le risque et les degré de liberté n-k et k-1 (la forme de la courbe change avec les ddl)

Si Fobs < F(n-k, k-1) H0 acceptée

Si Fobs > F(n-k, k-1) H0 rejetée

F

H0 H0

Critères d’application

- normalité des populations d’origine (testable)

- égalité des variances des différents groupes (testable)

Test de Kolmogorov-Smirnov, Liliefors, Shapiro-Wilk

Test de Levene

Mais test ANOVA robuste aux

- défauts de normalité si l’asymétrie et l’applatissement ne s’écartent pas trop de 0.

- Hétérogénéité des variances si les échantillons sont de même taille ou du même ordre de grandeur.

Pourquoi ne pas faire plusieurs tests t ?

Si =0.05 (1/20), signifie que l’on a 1 chance sur 20 d’observer une valeur dans la zone de réjection de H0.

Si 20 comparaisons, on s’attend à ce qu’une comparaison soit dans cet intervalle (par effet de l’échantillonnage)

On corrige donc le seuil lors de comparaisons multiples

Correction de Bonferroni

’=/n n=nombre de comparaisons

Procédure à suivre

• On peut tester les différences entre groupes pris deux à deux si et seulement si on observe une différence significative globale entre les groupes.

• doit être corrigé lorsque l’on effectue plusieurs comparaisons non indépendantes sur un jeu de données.

• On utilise des tests post hoc ou a posteriori qui prennent en compte le problème des comparaisons multiples (Bonferroni par exemple)

On compare l’effet de 3 régimes alimentaires sur la croissance d’une espèce de daphnie. On mesure la taille des individus après 3 semaines.

H0= les 3 régimes n’influencent pas la taille des daphnies ou

H0= les tailles moyennes dans les 3 groupes sont égales

H1= au moins un des groupes diffère des autres

0

5

10

15

20

Régime 1 Régime 2 Régime 3

Groupe expérimental

Tai

lle à

3 s

emai

nes

8.818.310.9

11.012.78.0

9.714.88.1

9.918.16.4

11.616.411.4

Régime 3Régime 2Régime 1

8.818.310.9

11.012.78.0

9.714.88.1

9.918.16.4

11.616.411.4

Régime 3Régime 2Régime 1

Exemple d’application

Régime 1 Régime 2 Régime 3

1 11.4 16.4 11.6

2 6.4 18.1 9.9

3 8.1 14.8 9.7

4 8.0 12.7 11.0

5 10.9 18.3 8.8

moyenne 9.0 16.1 10.2

SCintra=SC1+SC2+SC3 = 44.80

ddl intra = n-k = 15-3 = 12

SC1 = (11.4-9.0)²+(6.4-9.0)²+(8.1-9.0)²+(8.0-9.0)²+(10.9-9.0)² = 18.06SC2 = … = 22.00SC3 = … = 4.74

• Dispersion intra-groupe

Régime 1 Régime 2 Régime 3 Total

n 5 5 5

moyenne 8.95 16.07 10.20 11.74

SCinter = 5*(8.95-11.74)²+5*(16.07-11.74)²+5*(10.20-11.74)² = 144.38

ddlinter = k-1 = 3-1 = 2

• Dispersion inter-groupe

Inter-groupe

Intr

a-g

rou

pe

• Valeur seuil = F0.05 (1, 2)

avec 1= ddl inter-groupe 2= ddl intra-groupe

F0.05 (3, 4)=6.59 F0.01 (2, 4)=18.0Exemples :

F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra)

= (144.38/2) / (44.80/12)

= 19.33

F0.05, 2,12= Fseuil = 3.88

FseuilFobs

Fobs > Fseuil

H0 est rejetée, H1 acceptéeAu moins un des 3 groupes diffère des autres

• Rapport des variances

Source de dispersion ddl SC CM F P

inter-groupe 2 144.386 72.193 19.337 0.000

intra-groupe 12 44.802 3.733

total 14 189.188      

• Tableau d’ANOVA issu d’un logiciel

p <

H0 est rejetée, H1 acceptée

Au moins un des 3 groupes diffère des autres

Rejet d’une hypothèse nulle H0 correcte

Deux types de risques

z zobs

échantillon 1 échantillon 2

PopOn décide que les moyennes de deux échantillons sont différentes alors qu’elles ne le sont pas.

zobs est fonction de x1-x2

Les 2 échantillons sont issus d’une même population mais zobs > z

Acceptation d’une hypothèse nulle incorrecte

échantillon 1 échantillon 2

zzobs

population 1 population 2

On décide que les moyennes de deux échantillons ne sont pas différentes alors qu’elles le sont.

zobs est fonction de x1-x2

Les 2 échantillons ne sont pas issus d’une même population mais zobs < z

Du point de vue statistique, rejeter H0 ne signifie pas qu’il n’y a pas de différence (ou de relation). Simplement, si elle existe, celle-ci n’est pas détectée

Erreurs de type 1 et de type 2

Décision correcteeffet détecté

Erreur type IRisque

effet détectéeffet n’existe pas

Décision correcteeffet non détectéeffet n’existe pas

Erreur type IIRisque

effet non détecté

Rejet H0 Acceptation H0

Effet

Pas d’effet

On cherche souvent à éviter de conclure à un effet qui n’existe pas (erreur type 1).

Mais erreur type 2 peut avoir conséquencesProgramme de suivi d’une espèce en danger

Si conclusion erronée d’une diminution des populations (type 1)

Actions de conservation non nécessaires

Si conclusion erronée d’une stabilité des populations (type 2)

Risque d’extinction

Recommended