Comparaison de plusieurs moyennes observées

1

Comparaison de plusieurs moyennes observées

• Situation du problème :– On dispose d’une variable qualitative nominale

à deux classes ou plus qui permet de définir p groupes. On désigne cette variable comme le facteur étudié.

– On mesure une variable quantitative qui permet de calculer dans chaque groupe les différents paramètres de la distribution : moyenne, estimateur de l’écart type...

– On désire savoir si les moyennes observées dans chacun des groupes peuvent être considérées comme des estimateurs de la même moyenne aux fluctuations du hasard près. Il s’agit bien, dans un premier temps, de comparer globalement les différentes moyennes entre elles et non pas d’effectuer des comparaisons deux à deux.

– Par exemple, disposant de plusieurs traitements (A, B, C) de l'hypertension artérielle, on désire savoir s'ils entraînent la même baisse moyenne de tension systolique. Pour répondre au problème posé, on a administré de manière aléatoire un des traitements à

3 échantillons d'individus différents.

2


• Hypothèses :

– Hypothèse nulle :• Les moyennes observées dans les

différents groupes : xa, xb,xc,.. sont des estimateurs des moyennes a, b, c,...

a = b = c…

– Hypothèse alternative :• L’une au moins des moyennes a, b,

c,.. diffère des autres.

• Condition : homocédasticité, Normalité • Note : si on est amené à rejeter H0, on

accepte H1. On sait alors qu'une au moins des moyennes diffère des autres mais on ne sait pas laquelle. Pour répondre à cette question, il faudra compléter le test global par des comparaisons répondant au problème qui se pose.

3


• Données :Suj. \ TTT A B C

1 10 14 8

2 12 16 9

3 11 15 10

4 13 14

5 10

Soit p le nombre de traitements (ici p=3).Pour chaque traitement, on a un effectif (nj), un total des valeurs (Tj) et un total des carrés (Uj).

• Les paramètres statistiques

- Effectif, Moyenne, Écart type estimé par groupe...

- Effectif total :

- Total général (de l'ensemble des valeurs) :

- Total général des carrés :

N Njj1

p

TG x ii1

N

Tjj1

p

UG xi2

i1

N

Ujj1

p

4


• Rappel de calcul :– Pour chaque groupe on peut

calculer les paramètres statistiques : moyenne, estimateur de l ’écart type, SCE,.. Ceci à partir de l’effectif, de la somme des valeurs et de la somme des carrés des valeurs

– Sous H0, on peut calculer les paramètres statistiques de l’ensemble des groupes réunis

SCEx = Ux - Tx

2

Nx

5


• Principe de la solution :

Gpe A B C Tous gpes

TAS160

140

H0 Vraie

Gpe A B C Tous gpes

TAS160

140

H1 Vraie

La variance totale est égale à la variance de chacune des populations

La variance totale est plus grande que la variance de chacune des populations

6


• Le tableau de l’analyse de la variance

Origine SCE DDL Variance

Entre groupes p-1

Intra groupe N-pRésiduelle

Totale N-1

j

2Tjnj1

p

2TG

N

UG j

2Tjnj1

p

UG 2TG

N

j

2Tjnj1

p

2TG

N

p-1

N-p

Num =

UG j

2Tjnj1

p

Dén =

F = Num

Dén

DDL p-1

DDL N-p

7


• Décision :– Si F dépasse le F lu dans la table au

risque alpha choisi (5 % pour 5 %), on rejette l'hypothèse nulle : toutes les moyennes ne sont pas égales. Une au moins des moyennes diffère des autres.

– Si on rejette H0, on peut compléter l'analyse par différentes stratégies dont la comparaison des moyennes 2 à 2 grâce à un test t de student dit "t protégé" dans lequel on utilise comme variance commune la variance résiduelle calculée dans l'analyse de la variance.

– Sinon, on accepte H0 mais attention au risque Beta.

• Cas de 2 moyennes :– Le F est le carré du t de student

8


• Exemple :11 15 1013 1410 Total

Nj 5 4 3 12Tj 56 59 27 142Moyenne 11,20 14,75 9,00Tj2 3 136,00 3 481,00 729,00Tj2/Nj 627,20 870,25 243,00 1 740,45Xi2 634,00 873,00 245,00 1 752,00

TG2/N 1680,33

Source SCE DDL Variance FEntre groupe 60,12 2 30,06 23,42Résiduelle 11,55 9 1,28Total 71,67 11

Le F= 23,42 est supérieur au F DDL 2-9 5% (4,26 lu dans la table). On rejette H0. Une au moins des moyennes diffère des 2 autres mais on ne sait pas laquelle.

9


• Suite :– Comme on a rejeté H0, on peut poursuivre l’analyse

en comparant les moyennes par un t dit “protégé” qui utilise comme variance commune la variance résiduelle et qui a comme DDL le DDL de la résiduelle :

B CA 4,68 2,66B 6,65

t A-B =|11,2-14,75|

1.28 1.28 5 4+

Les t sont comparés à talpha avec DDL = 9. Pour alpha 5% on lit dans la table 2,26.Ici toutes les comparaisons 2 à 2 sont significatives.

Documents

Comparaison de plusieurs moyennes observées