21
Analyse de la Variance ` a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen – G´ enie Math´ ematique - 4 ` eme Ann´ ee 1 Introduction Dans ce chapitre, on g´ en´ eralise le cadre de l’analyse de la variance ` a un facteur ` a celui de deux facteurs pour ´ etudier l’influence de deux variables qualitatives (prenant un nombre fini de valeurs ou modalit´ es) sur une variable quantitative qu’on notera Y . Comme dans le cadre de l’Anova 1, on supposera que : - les facteurs influencent seulement la moyenne de la variable quantitative Y et non sa variance ; - les effets des facteurs sont additifs ; - les variations autres que celles provoqu´ ees par les facteurs sont gaussiennes et ind´ ependantes. Essayons d’illustrer la probl´ ematique de l’ANOVA ` a deux facteurs ` a l’aide des trois exemples suivants. Exemple 1. On veut ´ etudier l’effet de deux facteurs qualitatifs Niveau de la fertilisation et Rotation de la culture sur le poids des grains de colza. On compare p = 2 niveaux de fertilisation (1 pour faible et 2 pour fort) et q = 3 types de rotation ma¨ ıs/bl´ e/colza/bl´ e(A sans enfouissemnt de paille, B avec enfouissement de paille, C avec 4 ann´ ees de prairie temporaire entre chaque succession sans enfouissement de paille). On a donc p × q = 2 × 3 = 6 traitements possibles, un traitement ´ etant une combinaison de niveaux des facteurs Fertilisation*Rotation (1A,1B, ··· ,2C). On dispose de n = 60 parcelles. Chacune des 6 combinaisons (traitement) a ´ et´ e appliqu´ ee sur r = 10 parcelles. On note y ijk , avec i =1, 2, j =1, 2, 3 et k =1, ··· , 10, le poids des grains sur la k ` eme parcelle trait´ ee avec le traitement (ij ) (fertilisation i, rotation j ). Les donn´ ees se pr´ esentent de la mani` ere suivante : Parcelle Fertilisation Rotation Poids des grains de colza 1 1 A 27,6 2 1 A 16,3 . . . 59 2 C 31,6 60 2 C 25,8 que l’on peut r´ esumer en

Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

Analyse de la Variance a 2 Facteurs

Antoine Godichon-Baggioni

INSA de Rouen – Genie Mathematique - 4eme Annee

1 Introduction

Dans ce chapitre, on generalise le cadre de l’analyse de la variance a un facteur a celui de deux facteurspour etudier l’influence de deux variables qualitatives (prenant un nombre fini de valeurs ou modalites)sur une variable quantitative qu’on notera Y .

Comme dans le cadre de l’Anova 1, on supposera que :

− les facteurs influencent seulement la moyenne de la variable quantitative Y et non sa variance ;− les effets des facteurs sont additifs ;− les variations autres que celles provoquees par les facteurs sont gaussiennes et independantes.

Essayons d’illustrer la problematique de l’ANOVA a deux facteurs a l’aide des trois exemples suivants.

Exemple 1. On veut etudier l’effet de deux facteurs qualitatifs Niveau de la fertilisation et Rotation de laculture sur le poids des grains de colza. On compare p = 2 niveaux de fertilisation (1 pour faible et 2 pourfort) et q = 3 types de rotation maıs/ble/colza/ble (A sans enfouissemnt de paille, B avec enfouissementde paille, C avec 4 annees de prairie temporaire entre chaque succession sans enfouissement de paille).On a donc p × q = 2 × 3 = 6 traitements possibles, un traitement etant une combinaison de niveauxdes facteurs Fertilisation*Rotation (1A, 1B, · · · ,2C). On dispose de n = 60 parcelles. Chacune des 6combinaisons (traitement) a ete appliquee sur r = 10 parcelles. On note yijk, avec i = 1, 2, j = 1, 2, 3et k = 1, · · · , 10, le poids des grains sur la keme parcelle traitee avec le traitement (ij) (fertilisation i,rotation j). Les donnees se presentent de la maniere suivante :

Parcelle Fertilisation Rotation Poids des grains de colza1 1 A 27,62 1 A 16,3...

59 2 C 31,660 2 C 25,8

que l’on peut resumer en

Page 2: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

1 Introduction 1

````````````FertilisationRotation A

(j = 1)B

(j = 2)C

(j = 3)Total

y11. = 24, 11 y12. = 24, 00 y13. = 28, 64 y1.. = 25, 58i = 1 n11 = 10 n12 = 10 n13 = 10 n1. = 30

s11 = 8.61 s12 = 7.37 s13 = 5.86y21. = 15, 81 y22. = 19, 84 y23. = 31, 75 y2.. = 22, 47

i = 2 n11 = 10 n12 = 10 n13 = 10 n1. = 30s21 = 7.44 s22 = 8.27 s23 = 7.25

Total y.1. = 19, 96 y.2. = 21, 92 y.3. = 30, 20 y = 24, 03n.1 = 20 n.2 = 20 n.3 = 20 n = 60

On observe des differences de moyennes assez fortes entre traitements (de 15, 8 pour le traitement“2A” a 31.75 pour le traitement “2C”). La variabilite semble etre la meme dans les differents groupesce qui conforte l’hypothese d’homoscedasticite (egalite des variances) que nous ferons dans les differentsmodeles d’Anova 2 que nous presenterons. A partir de ces donnees, on cherchera donc a evaluer l’effetdes deux facteurs fertilisation et rotation (et de leur interaction) sur le poids des grains de colza.

Exemple 2. Un agronome souhaite comparer l’influence sur la production laitiere d’une meme espece devaches, de q = 3 Regimes alimentaires et de p = 2 Exploitations. On note yij , avec i = 1, 2 et j = 1, 2, 3,la production laitiere d’une vache traitee avec le traitement (ij) (exploitation i, regime j). Les resultatsexperimentaux sont ceux du tableau suivant :

Regime Alim. Total MoyenneExploitations A B C yi.

1 7 36 2 45 152 13 44 18 75 25

Total 20 80 20 120Moyenne y.j 10 40 10 y.. = 20

On peut remarquer, dans cet exemple, que chaque combinaison ”Exploitation, Regime” n’est observeequ’une seule fois. On dit qu’il n’y a pas de repetition ce qui aura des consequences sur la modelisation desdonnees. On observe la encore des differences de moyennes dans les groupes. On veut donc, a partir deces donnees, evaluer l’effet des deux facteurs exploitation et regime alimentaire sur la production laitiered’une vache.

Exemple 3. On veut comparer les couleurs de p = 7 champagnes (A,B,C,D,E,F,G). La couleur estmesuree par un indice compris entre 1 et 50 attribue par un juge (on suppose la mesure continue). Lanotation fait appel a une evaluation subjective fournie par un juge entraıne. L’evalutaion des champagnesest confiee a q = 14 juges. Pour eviter que leurs facultes sensorielles ne s’emoussent, les 14 juges n’evaluentpas tous les champagnes : chaque juge evalue seulement n.j = 3 champagnes parmi les 7 et chaquechampagne est note par ni. = 6 juges. On a donc au total n = p× ni. = q × n.j = 42 observations. Leseffectifs sont donnes dans le tableau suivant (repartition des 7 champagnes entre les 14 juges) :

Page 3: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

2 Les donnees et le plan d’experience 2

XXXXXXXXXXJugeChampagne

A B C D E F G Total

1 0 0 1 1 0 0 1 32 1 0 0 1 1 0 0 33 0 1 0 1 0 1 0 34 1 0 0 1 1 0 0 35 0 1 0 0 1 0 1 36 1 1 1 0 0 0 0 37 1 0 0 0 0 1 1 38 0 1 0 1 0 1 0 39 0 0 1 1 0 0 1 310 1 0 0 0 0 1 1 311 0 1 0 0 1 0 1 312 0 0 1 0 1 1 0 313 1 1 1 0 0 0 0 314 0 0 1 0 1 1 0 3

total 6 6 6 6 6 6 6 42

Ce dispositif est un dispositif en blocs. On peut considerer chaque juge comme un appareil de mesure :toutes les mesures ne sont pas faites avec le meme appareil et il faut tenir compte de l’heterogeneite dece materiel experimental. Chaque juge constitue ainsi un bloc, chaque juge ne notant qu’une partiedes champagnes mais tous les juges en notant le meme nombre. On parle de plan en blocs incompletsequilibres.

Les resultats de l’experience se presentent comme suit : (mesures de l’indice de couleur des 7 cham-pagnes par les 14 juges)

Observation Juge Champagne Indice de couleur1 1 C 362 1 D 163 1 G 194 2 A 22...

42 14 F 31

On cherche a analyser les sources de variabilite de la note en prenant en compte l’effet champagne(qui est l’effet d’interet) et l’effet juge (qui est un effet bloc), bien que la comparaison des juges entre euxne nous interessent pas directement.

2 Les donnees et le plan d’experience

2.1 Les donnees

On cherche donc a etudier l’effet de deux facteurs qualitatifs A et B sur une variable quantitativeY . On suppose que le facteurA a p niveaux (modalites) et que le facteur B a q niveaux. Pour chaquecouple (i, j) de niveau, on dispose de nij mesures de Y , notees yijk avec i = 1, . . . , p, j = 1, . . . , q etk = 1, . . . , nij . On note ni. =

∑qj=1 nij , le nombre de mesures de Y pour la modalite i du facteur A, et

n.j =∑pi=1 nij , le nombre de mesures de Y pour la modalite j du facteur B. Un traitement (ij) est

une combinaison des niveaux des 2 facteurs, k est un indice de repetition du traitement (ij).

Dans l’exemple 1, yijk designe la keme parcelle traitee avec la fertilisation i et la rotation j. Pourtout i = 1, 2 et j = 1, 2, 3, chaque traitement (ij) est repete nij = 10 = r fois. Chaque fertilisation

Page 4: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

3 Le modele complet d’Anova 2 3

i a ete appliquee sur ni. = r × q = 10 × 3 = 30 parcelles et chaque rotation j a ete appliquee surn.j = r × p = 10 × 2 = 20 parcelles. On peut donc dans cet exemple croiser tous les niveaux des deuxfacteurs.

2.2 Le plan d’experience

L’ensemble des (nij) definit le plan d’experience qui est determinant pour la suite de l’etude. Pourpouvoir etudier simplement l’effet de chacun des deux facteurs A et B, il faut un plan d’experience ditorthogonal.

Definition 2.1 On dira que le plan d’experience est :

− complet si nij > 0 pour tout traitement (i, j) ;− a repetition si nij > 1 pour tout traitement (i, j) ;− equilibre si nij = r > 0 pour tout traitement (i, j) ;

− orthogonal lorsque nij =ni. × n.jn..

pour tout traitement (i, j).

Exercice E.1 Montrer qu’un plan complet equilibre est orthogonal. Montrer, en exhibant un contre-exemple, que la reciproque est fausse.

Remarques. Dans l’exemple 1, on a un plan d’experience complet equilibre avec repetition alors quedans l’exemple 2, on a un plan complet equilibre sans repetition. Dans chacun des cas, on a donc un pland’experience orthogonal. En revanche, dans l’exemple 3, on a un plan en blocs incomplets equilibres. Leplan n’est pas orthogonal. En effet, puisque pour tous les champagnes i, ni. = 6 et pour tous les juges j,n.j = 3, on a donc (ni. × n.j)/n = 18/42 alors que nij = 1 ou 0.

Nous limiterons notre etude de l’Anova 2 au cas du plan d’experience complet equilibre avec ou sansrepetition (r ≥ 1). Ce dispositif implique l’orthogonalite et permet d’etudier et de decomposer de faconunique les differents effets. Si le dispositif n’est pas orthogonal, la decomposition en sommes des carresassocies a chaque effet n’est pas unique, et on ne pourra jamais completement separer les effets des deuxfacteurs.

Les donnees seront donc de la forme yijk avec k = 1, . . . , r, i = 1, . . . , p et j = 1, . . . , q. Lorsque r seraegal a 1, on pourra noter les donnees yij .

3 Le modele complet d’Anova 2

3.1 Les hypotheses

On fait les hypotheses de normalite et d’independance suivantes :

on suppose que pour tout (i, j, k), la donnee yijk est une realisation d’une variable aleatoire Yijkde loi N (mij , σ

2), et que les (Yijk) sont globalement independantes.

On peut encore ecrire ces hypotheses sous la forme :

Yijk = mij + εijk avec (εijk)iid∼ N (0, σ2) (1)

ou la notation (εi)iid∼ N (0, σ2) signifie que les variables aleatoires ε1, . . . , εn sont independantes et iden-

tiquement distribuees de loi normale N (0, σ2).Cette modelisation du traitement decrit l’effet conjoint des deux facteurs en supposant une esperancespecifique mij pour chaque traitement (ij) et une variance intra-traitement σ2 commune a tous lestraitements.

Page 5: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

3 Le modele complet d’Anova 2 4

3.2 Decomposition des effets

Pour faire apparaıtre les differents effets, on utilise la decomposition du modele suivante

Yijk = µ + αi + βj + γij︸ ︷︷ ︸mij

+ εijk avec (εijk)iid∼ N (0, σ2) (2)

ou— µ represente un effet global inconnu (effet commun des 2 facteurs quelles que soient les modalites

des deux facteurs) ;— αi represente l’effet principal (specifique) inconnu du niveau i du facteur A ;— βj represente l’effet principal inconnu du niveau j du facteur B ;— γij est un terme d’interaction inconnu entre le niveau i de A et j de B. Il permet de prendre en

compte l’effet specifique du traitement (ij) au dela de la somme des effets principaux αi +βj (nonaddivite des effets principaux) ;

— σ2 est la variance residuelle inconnue.

Dans (2), on a decompose l’effet conjoint general mij du traitement (ij) en faisant apparaıtre expli-citement les effets des differents facteurs dans un modele additif avec interaction. On qualifiera cemodele avec interaction, de modele complet d’Anova 2.

Cependant, la presence de l’effet d’interaction n’est pas systematique : lorsque r = 1 (absence derepetitions) on ne peut prendre en compte ce terme dans la modelisation car on n’aura pas assez dedonnees pour l’estimer (ce qui ne signifie pas pour autant que l’interaction n’existe pas). Quand on nepeut pas ou qu’on ne souhaite pas modeliser cette interaction, on decompose l’effet traitement en

mij = µ + αi + βj (3)

ce qui conduit au modele

Yijk = µ + αi + βj︸ ︷︷ ︸mij

+ εijk avec (εijk)iid∼ N (0, σ2)

Ce modele est un sous-modele du modele complet (2).

Nous etudierons dans la suite les deux situations suivantes :

− le plan complet equilibre avec interaction (donc r > 1) ;− le plan complet equilibre sans interaction, avec r = 1 ou r > 1.

Remarque 3.1 Lorsque l’on dispose de repetitions comme dans l’exemple 1, on peut tracer le graphed’interaction (lignes joignant les moyennes par traitement) pour savoir si l’on doit (de maniere descriptive)prevoir un terme d’interaction dans la modelisation. En l’absence d’interaction, les lignes joignant lesmoyennes par traitement doivent etre “paralleles”.Dans l’exemple 1, elles ne le sont pas (voir Figure 1) : les 2 lignes (une pour chaque niveau de la fertilisa-tion) se croisent entre les rotations 2 et 3. Ceci traduit que l’ecart entre les deux niveaux de fertilisationn’est pas le meme (γ1j−γ2j 6= constante,∀j). Il semble donc raisonnable d’envisager dans la modelisationun terme d’interaction entre les deux facteurs.

3.3 Contraintes d’identifiabilite du modele complet

Pour estimer les differents parametres du modele (2), il est necessaire d’introduire des contraintes.Ces contraintes sont necessaires pour rendre le modele identifiable. Pour le modele avec interaction (2),

Page 6: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

3 Le modele complet d’Anova 2 5

Figure 1 – Graphe d’interaction associe a l’exemple 1

les contraintes naturelles sont :

p∑i=1

αi = 0 ,

q∑j=1

βj = 0 ,

q∑j=1

γij = 0 pour i = 1, . . . , p et

p∑i=1

γij = 0 pour j = 1, . . . , q (4)

Il est a noter que les contraintes utilisees par le logiciel SAS sont differentes :

αp = 0 , βq = 0 , ∀i = 1, · · · , p, γiq = 0 , ∀j = 1, · · · , q, γpj = 0

Remarque 3.2 Dans (4), les contraintes d’identifiabilite

q∑j=1

γij = 0 pour i = 1, . . . , p et

p∑i=1

γij = 0 pour j = 1, . . . , q

ne sont pas independantes. On peut en effet montrer que les (p+ q) equations definissant les contraintespeuvent en fait se ramener a (p+ q − 1) equations.

Exercice E.2 Montrer le, lorsque p = 2 et q = 3. On montrera que le systeme lineaire constitue des 5contraintes se ramene en fait a un systeme lineaire a quatre equations.

3.4 Dimension du modele complet d’Anova 2

Definition 3.3 On appellera dimension du modele dans le contexte de l’ANOVA, la dimension del’espace dans lequel vit l’esperance des variables aleatoires Yijk. Cette dimension est egale au nombre deparametres d’esperance envisages dans la modelisation moins le nombre de contraintes d’identifiabilitenecessaires a l’estimation des parametres.

Pour le modele complet, le nombre de parametres d’esperance est (1 + p + q + pq) et le nombre decontraintes (independantes) est (1 + 1 + (p+ q − 1)) = (p+ q + 1). La dimension du modele complet estdonc egale a (1 + p+ q + pq)− (p+ q + 1) = pq et nous designerons ce modele dans la suite par (Mpq).

3.5 Les sous-modeles du modele complet de l’Anova 2

Nous declinons ici tous les sous-modeles du modele complet de l’Anova 2 qui nous interesseronspar la suite. Nous preciserons pour chaque modele les contraintes (independantes) d’identifiabilite et ladimension du modele.

Page 7: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

3 Le modele complet d’Anova 2 6

3.5.1 Modele sans interaction

Le modele sans interaction est defini par :

Yijk = µ + αi + βj + εijk avec (εijk)iid∼ N (0, σ2) (5)

avec les contraintes d’identifiabilite

p∑i=1

αi = 0 et

q∑j=1

βj = 0.

Ce sous-modele du modele (Mpq) est de dimension (1 + p+ q)− (1 + 1) = p+ q− 1 et nous le designeronsdans la suite par (Mp+q−1).

3.5.2 Modele sans effet du facteur A

Le modele ou l’on ne tient pas compte d’un effet possible du facteur A est defini par :

Yijk = µ + βj + εijk avec (εijk)iid∼ N (0, σ2) (6)

avec la contrainte d’identifiabilite

q∑j=1

βj = 0.

Ce sous-modele du modele (Mpq) est de dimension (1 + q)− (1) = q et nous le designerons dans la suitepar (Mq).

3.5.3 Modele sans effet du facteur B

Le modele ou l’on ne tient pas compte d’un effet possible du facteur B est defini par :

Yijk = µ + αi + εijk avec (εijk)iid∼ N (0, σ2) (7)

avec la contrainte d’identifiabilite

p∑i=1

αi = 0.

Ce sous-modele du modele (Mpq) est de dimension (1 + p)− (1) = p et nous le designerons dans la suitepar (Mp).

3.5.4 Modele sans effet du traitement

Le modele ou l’on ne tient pas compte des deux facteurs A et B est

Yijk = µ + εijk avec (εijk)iid∼ N (0, σ2) (8)

Ce sous-modele du modele (Mpq) est de dimension 1 (1 parametre et 0 contrainte) et nous le designeronsdans la suite par (M1).

3.5.5 Deux autres sous-modeles

Deux autres sous-modeles peuvent etre consideres.D’une part, le modele ou α1 = α2 = . . . = αp = 0, c’est a dire

Yijk = µ + βj + γij + εijk avec (εijk)iid∼ N (0, σ2) (9)

Page 8: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

3 Le modele complet d’Anova 2 7

avec les contraintes d’identifiabilite

q∑j=1

βj = 0 ,

q∑j=1

γij = 0 pour i = 1, . . . , p et

p∑i=1

γij = 0 pour j = 1, . . . , q. (10)

Ce sous-modele du modele (Mpq) est de dimension (1 + q + pq)− (1 + p+ q − 1) = pq − p+ 1 et nous ledesignerons dans la suite par (Mpq−p+1).D’autre part, le modele ou β1 = . . . = βq = 0, c’est a dire

Yijk = µ + αi + γij + εijk avec (εijk)iid∼ N (0, σ2) (11)

avec les contraintes d’identifiabilite

p∑i=1

αi = 0 ,

q∑j=1

γij = 0 pour i = 1, . . . , p et

p∑i=1

γij = 0 pour j = 1, . . . , q. (12)

Ce sous-modele du modele (Mpq) est de dimension (1 + p+ pq)− (1 + p+ q − 1) = pq − q + 1 et nous ledesignerons dans la suite par (Mpq−q+1).

Page 9: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 8

4 Etude du plan complet equilibre avec interaction

Le cadre. Pour chaque traitement (i, j), on dispose de r > 1 mesures de Y , notees yijk avec k comprisentre 1 et r, i entre 1 et p et j entre 1 et q. Pour tout (i, j, k), la donnee yijk est une realisation d’unevariable aleatoire Yijk de loi N (mij , σ), les variables aleatoires Yijk etant globalement independantes eton suppose que l’on a

mij = µ + αi + βj + γij

4.1 Definition des differents tests

On presente dans ce paragraphe les differents tests que l’on pourra effectuer dans le contexte dumodele complet de l’Anova 2.

4.1.1 Test de l’effet du traitement

On veut tester le caractere significatif de l’influence du traitement sur Y , c’est a dire tester l’influencede la combinaison des deux facteurs sur Y . Pour cela, on teste l’hypothese nulle

H0 : � ∀ i ∈ {1, . . . , p}, αi = 0, ∀ j ∈ {1, . . . , q}, βj = 0 et ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij =0�

contre l’alternative

H1 : � ∃ i tq αi 6= 0 ou ∃ j tq βj 6= 0 ou ∃ (i, j) tq γij 6= 0�,

ce qui revient a tester le modele (M1) contre le modele (Mpq), ie.

H0 : � Modele (M1) : Yijk = µ + εijk avec (εijk)iid∼ N (0, σ2)�

contre

H1 : � Modele (Mpq) : Yijk = µ + αi + βj + γij + εijk avec (εijk)iid∼ N (0, σ2)�

On peut remarquer que ce test est equivalent a faire une Anova 1 a pq niveaux puisque les hypothesess’ecrivent egalement

H0 : � m11 = m12 = . . . = mpq �

H1 : � ∃(i, j, i′, j′) tq mij 6= mi′j′ �

4.1.2 Test de l’effet de l’interaction

Il s’agit de tester l’hypothese nulle

H0 : �∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternative

H1 : �∃ (i, j) tq γij 6= 0�,

ce qui revient a tester le modele (Mp+q−1) contre le modele (Mpq), ie.

H0 : � Modele (Mp+q−1) : Yijk = µ + αi + βj + εijk avec (εijk)iid∼ N (0, σ2)�

contre

H1 : � Modele (Mpq) : Yijk = µ + αi + βj + γij + εijk avec (εijk)iid∼ N (0, σ2)�

4.1.3 Test de l’effet du facteur A

On veut tester le caractere significatif de l’influence du facteur A sur Y . Deux methodes sont possibles.

Page 10: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 9

Premiere methode. On teste l’hypotheseH0 : � ∀ i ∈ {1, . . . , p}, αi = 0 et ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternative

H1 : � ∃ i tq αi 6= 0 ou ∃ (i, j) tq γij 6= 0�,

ce qui revient a tester le modele (Mq) contre le modele (Mpq), ie.

H0 : � Modele (Mq) : Yijk = µ + βj + εijk avec (εijk)iid∼ N (0, σ2)�

contre

H1 : � Modele (Mpq) : Yijk = µ + αi + βj + γij + εijk avec (εijk)iid∼ N (0, σ2)�

Deuxieme methode On commence par tester l’absence d’interaction c’est a dire tester

H0 : � Modele (Mp+q−1)� versus H1 : � Modele (Mpq)�,

puis si ce test conduit a conclure a un effet non significatif de l’interaction, on se place dans le cadre dumodele sans interaction (Mp+q−1), et on teste alors le caractere significatif de l’influence du facteur A,c’est a dire

H0 : � Modele (Mq)� versus H1 : � Modele (Mp+q−1)�

Remarque 4.1 Attention, l’hypothese H0 : �α1 = . . . = αp = 0� dans le modele complet, c’est a dire

H0 : � Modele (Mpq−p+1) : Yijk = µ + βj + γij + εijk avec (εijk)iid∼ N (0, σ2)�

ne s’interprete pas facilement et ne signifie pas que l’on teste l’absence d’effet du facteur A puisquesubsiste le terme d’interaction qui depend de A. On ne peut pas supprimer l’effet principal d’un facteurquand subsiste le terme d’interaction.

4.1.4 Test de l’effet du facteur B

Puisque les roles joues par A et B sont inter-changeables, la mise en œuvre du test de l’effet du facteurB sur Y est identique a celle du facteur A : il suffit donc d’echanger dans le paragraphe 4.1.3, les notationsA, α et p avec B, β et q respectivement. Mentionnons seulement qu’on testera

H0 : �∀ j ∈ {1, . . . , q}, βj = 0 et ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternative

H1 : � ∃ j tq βj 6= 0 ou ∃ (i, j) tq γij 6= 0�,

ce qui revient a tester le modele (Mp) contre le modele (Mpq).

4.2 Estimation des effets, de la variance et prevision

On introduit les notations suivantes. Pour tout i = 1, . . . , p et tout j = 1, . . . , q, on note :

• Y ... =1

pqr

p∑i=1

q∑j=1

r∑k=1

Yijk, • Y i.. =1

qr

q∑j=1

r∑k=1

Yijk

• Y .j. =1

pr

p∑i=1

r∑k=1

Yijk, • Y ij. =1

r

r∑k=1

Yijk

Page 11: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 10

4.2.1 Estimation des effets et prevision dans le modele complet (Mpq)

Estimation. Dans le modele (Mpq), on peut montrer qu’avec les contraintes (4), les estimateurs desmoindres carres des parametres µ, (αi), (βj) et (γij), obtenus en minimisant

p∑i=1

q∑j=1

r∑k=1

(Yijk − (µ + αi + βj + γij)

)2

sont donnes par :

• µ = Y ... ;• αi = Y i.. − Y ... pour i = 1, . . . , p ;

• βj = Y .j. − Y ... pour j = 1, . . . , q ;

• γij = Y ij. − Y i.. − Y .j. + Y ... = Y ij. − (µ+ αi + βi) pour i = 1, . . . , p et j = 1, . . . , q.

Exercice E.3 Verifier que µ, αi, βj et γij sont bien des estimateurs sans biais.

Prevision. La prevision d’un yijk dans ce modele est donc donnee par

Yijk(Mpq) = µ + αi + βj + γij = Y ij.

Ce qui signifie, pour les donnees de l’exemple 1, que le poids des grains predit pour toute parcelle traiteeavec la fertilisation i et la rotation j est le poids moyen observe pour le traitement (ij).

4.2.2 Estimation des parametres et prevision dans les sous-modeles

Estimation. Puisque le plan d’experience est orthogonal, pour tous les sous-modeles du modele com-plet (Mpq), l’estimation des parametres µ, (αi) et (βj) est inchangee. Quel que soit le sous-modeleconsidere, on a :

– µ = Y ... ;– αi = Y i.. − Y ... pour i = 1, . . . , p ;– βj = Y .j. − Y ... pour j = 1, . . . , q ;

Prevision. En utilisant les estimateurs des differents parametres, on obtient, pour chaque sous-modele,les previsions suivantes :

Modele Prevision

(Mpq) Yijk(Mpq) = µ + αi + βj + γij = Y ij.(Mp+q−1) Yijk(Mp+q−1) = µ + αi + βj = Y i.. + Y .j. − Y ...(Mq) Yijk(Mq) = µ + βj = Y .j.(Mp) Yijk(Mp) = µ + αi = Y i..(M1) Yijk(M1) = µ = Y ...

4.2.3 Sommes des carres residuelles dans les sous-modeles et estimation dela variance

On peut maintenant deduire les sommes des carres residuelles pour chaque modele ainsi qu’un esti-mateur (sans biais) de la variance σ2.

Pour m ∈ {1, p, q, p+ q− 1, pq}, le residu associe au modele (Mm) vaut Yijk− Yijk(Mm). Les sommes descarres residuelles sont definies dans le tableau suivant.

Page 12: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 11

Modele Somme des Carres des Residus SCR Estimateur de σ2

(Mpq) SCR(Mpq) =

p∑i=1

q∑j=1

r∑k=1

(Yijk − Y ij.)2 S2 =SCR(Mpq)

pqr − pq

(Mp+q−1) SCR(Mp+q−1) =∑i

∑j

∑k

(Yijk − Y i.. − Y .j. + Y ...)2

(Mq) SCR(Mq) =∑i

∑j

∑k

(Yijk − Y .j.)2

(Mp) SCR(Mp) =∑i

∑j

∑k

(Yijk − Y i..)2

(M1) SCR(M1) =∑i

∑j

∑k

(Yijk − Y ...)2

On a le theoreme suivant.

Theoreme 4.2 Sous les hypotheses du modele complet equilibre avec interaction, S2 est un estimateursans biais de σ2 et on a

(pqr − pq)S2

σ2=

SCR(Mpq)

σ2∼ χ2(pqr − pq)

Preuve. On commence par montrer la decomposition en somme de carres suivante :

p∑i=1

q∑j=1

r∑k=1

ε2ijk =

p∑i=1

q∑j=1

r∑k=1

(Y ij. − µ− αi − βj − γij

)2+

p∑i=1

q∑j=1

r∑k=1

(Yijk − Y ij.

)2= r

p∑i=1

q∑j=1

(Y ij. − µ− αi − βj − γij

)2+ SCR(Mpq)

Ensuite, puisque les variables aleatoires(εijk

)sont iid de loi N

(0, σ2

), on deduit que

p∑i=1

q∑j=1

r∑k=1

(εijkσ

)2

∼ χ2(pqr)

De la meme maniere, puisque les variables aleatoires Y ij. sont independantes, de loiN(µ+ αi + βj + γij ; σ2/r

),

on deduit que les variables√r(Y ij. − (µ+ αi + βj + γij)

)/σ sont iid de loi N (0, 1) et par consequent

r

p∑i=1

q∑j=1

(Y ij. − µ− αi − βj − γij

σ

)2

∼ χ2(pq)

et on conclut en utilisant le theoreme de Cochran.

4.3 Test des differents effets : analyse de la variance du modele complet

4.3.1 Preliminaires

Comme on l’a vu dans les paragraphes 4.1.1 a 4.1.4, les tests des differents effets sont en faitequivalents a comparer un sous-modele (Mm), ou m ∈

{1, p, q, p + q − 1

}, avec le modele complet de

l’Anova 2 (Mpq). Avant de passer en revue les differents tests, nous presentons dans ce paragraphe leresultat qui permettra de construire un test de l’hypothese nulle H0 : �Modele (Mm)� contre l’alternativeH1 : �Modele (Mpq)�. La construction d’un tel test repose sur le theoreme suivant.

Page 13: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 12

Theoreme 4.3 Sous les hypotheses du modele complet equilibre avec interaction, on a, pour toutm ∈

{1, p, q, (p+ q − 1)

}, la decomposition en somme de carres

SCR(Mm) =

p∑i=1

q∑j=1

r∑k=1

(Y (Mpq) − Y (Mm)

)2

+ SCR(Mpq) (13)

et sous H0,

Zm =

(SCR(Mm)− SCR(Mpq)

)/(pq −m)

SCR(Mpq)/(pqr − pq

) ∼ F(pq −m ; pqr − pq

)(14)

Remarque 4.4— Le resultat (14) est bien evidemment faux sous H1, ce qui fait de Zm une statistique de test.

— Dans (13), la quantite∑pi=1

∑qj=1

∑rk=1(Yijk(Mpq) − Yijk(Mm))2 represente la reduction d’erreur

quand on passe du modele (Mm) au modele (Mpq). Lorsque cette reduction d’erreur ne sera pas”significative”, on preconisera de modeliser les donnees a l’aide du modele (Mm).

Preuve. Pour etablir (13), on commence par decomposer SCR(Mm) en

SCR(Mm) =

p∑i=1

q∑j=1

r∑k=1

(Yijk(Mpq) − Yijk(Mm)

)2

+ SCR(Mpq) (15)

+ 2

p∑i=1

q∑j=1

r∑k=1

(Yijk(Mpq) − Yijk(Mm)

)(Yijk − Yijk(Mpq)

)(16)

Ensuite, apres avoir remplace Yijk(Mpq) par Y ij., on montre que le double produit est nul , en utilisant

le fait que pour tout m, (Y ij. − Yijk(Mm)) ne depend pas de k et que∑rk=1(Yijk − Y ij.) = 0. La

decomposition en somme de carres est ainsi etablie.D’apres le theoreme 4.2, on sait que SCR(Mpq)/σ

2 ∼ χ2(pqr − pq)). De plus sous H0, le modele (Mpq)coincide avec le modele (Mm), et dans ce cas, l’estimateur sans biais de σ2 est SCR(Mm)/(pqr −m) eton a

SCR(Mm) / σ2 ∼ χ2(pqr −m).

Le theoreme de Cochran nous dit alors que sous H0,

•(SCR(Mm)− SCR(Mpq)

)σ2

∼ χ2((pqr −m)− pq(r − 1)

)• Les variables aleatoires

(SCR(Mm)− SCR(Mpq)

)et SCR(Mpq) sont independantes,

ce qui nous permet de deduire (14) en utilisant le procede de construction de la loi de Fisher.

Nous sommes maintenant en mesure de batir les tests des differents effets.

4.3.2 Test de l’effet traitement

Le premier test que l’on peut faire dans le cadre du plan complet equilibre avec interaction est celui del’absence d’effet du traitement. Comme on l’a vu dans le paragraphe 4.1.1, on cherche a tester l’hypothesenulle

H0 : � ∀ i ∈ {1, . . . , p}, αi = 0 et ∀ j ∈ {1, . . . , q}, βj = 0 et ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternative

H1 : �∃ i tq αi 6= 0 ou ∃ j tq βj 6= 0 ou ∃ (i, j) tq γij 6= 0�,

ce qui revient a comparer les modeles (M1) et (Mpq).

Page 14: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 13

Construction du test : elle repose sur le theoreme 4.3 utilise avec m = 1, qui donne d’une part, ladecomposition de la variance

SCR(M1) =

p∑i=1

q∑j=1

r∑k=1

(Yijk(Mpq) − Yijk(M1)

)2

+ SCR(Mpq) (17)

=

p∑i=1

q∑j=1

r∑k=1

(αi + βj + γij

)2

︸ ︷︷ ︸SCM

+ SCR(Mpq) (18)

et qui fournit d’autre part, la statistique de test, puisque

Z =SCM / (pq − 1)

SCR(Mpq) / (pqr − pq)∼H0

F (pq − 1 ; pqr − pq) (19)

Mise en œuvre du test. Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

Z =SCM/(pq − 1)

SCR(Mpq)/(pqr − pq)=

(SCR(M1)− SCR(Mpq))/(dim(Mpq)− dim(M1))

SCR(Mpq)/(pqr − dim(Mpq))

qui sous les hypotheses du modele complet d’Anova 2 et sous H0 suit une loi F (pq − 1 ; pqr − pq).La zone de rejet de H0 au risque δ est {Z > fδ} avec fδ tel que

Proba[F (pq − 1 ; pqr − pq) ≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de Z sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet significatif du

traitement sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que le traitement a un effet significatif

sur Y .

Interpretation. 1. Tester l’effet traitement, c’est donc comparer l’estimateur de la variance residuelleσ2 dans le modele (M1), donne par SCR(M1)/(pqr − 1) (qui n’est bon que sous H0 : ”Modele (M1)”),a celui obtenu dans le modele (Mpq), donne par SCR(Mpq)/(pqr − pq). La somme des carres du modeleSCM = SCR(M1)−SCR(Mpq) mesure alors la reduction d’erreur, notee R(α, β, γ |µ), quand on ajouteles effets du premier facteur A, du deuxieme facteur B et de leur interaction a la constante µ (pas d’effettraitement).

2. Puisque Yijk(M1) = Y ..., alors SCR(M1) represente aussi la variabilite totale de Y que l’on note ha-bituellement SCT . On alors SCT = SCM+SCR(Mpq) et par consequent, SCM represente la variabiliteexpliquee par le modele (Mpq) alors que SCR(Mpq) represente la variabilite inexpliquee par le modele.De plus puisque le plan est orthogonal, les effets estimes sont orthogonaux et on a la decomposition devariance

SCM =

p∑i=1

q∑j=1

r∑k=1

(αi + βj + γij

)2

= S2A + S2

B + S2AB

Page 15: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 14

ou

S2A =

p∑i=1

q∑j=1

r∑k=1

α2i = qr

p∑i=1

α2i

S2B =

p∑i=1

q∑j=1

r∑k=1

β2j = pr

q∑j=1

β2j

S2AB =

p∑i=1

q∑j=1

r∑k=1

γ2ij = r

p∑i=1

q∑j=1

γ2ij

La variance SCM se decompose donc en une part de variance due a l’effet du facteur A, une part due al’effet du facteur B et une part due a leur interaction.

Exercice E.4 Demontrer la decomposition

SCM = S2A + S2

B + S2AB

4.3.3 Test de l’effet de l’interaction

On veut donc tester l’hypothese nulle

H0 : � ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternativeH1 : �∃ (i, j) tq γij 6= 0�,

ce qui revient a comparer (voir paragraphe 4.1.2), les modeles (Mp+q−1) et (Mpq).

Construction du test. Comme dans le paragraphe precedent, elle repose sur le theoreme 4.3 utiliseici avec m = p+ q − 1, qui donne d’une part, la decomposition de la variance

SCR(Mp+q−1) =

p∑i=1

q∑j=1

r∑k=1

(Yijk(Mpq) − Yijk(Mp+q−1)

)2

+ SCR(Mpq) (20)

= S2AB + SCR(Mpq) puisque Yijk(Mpq)− Yijk(Mp+q−1) = γij

et qui fournit d’autre part, la statistique de test

ZAB =S2AB / (pq − p− q + 1)

SCR(Mpq) / (pqr − pq)∼H0

F(pq − p− q + 1 ; pqr − pq

)(21)

Mise en œuvre du test. Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

ZAB =S2AB/(pq − p− q + 1)

SCR(Mpq)/(pqr − pq)=

(SCR(Mp+q−1)− SCR(Mpq))/(dim(Mpq)− dim(Mp+q−1))

SCR(Mpq)/(pqr − dim(Mpq))

qui sous les hypotheses du modele complet d’Anova 2 et sous H0 suit une loi F(pq− p− q+ 1; pqr− pq

).

La zone de rejet de H0 au risque δ est {ZAB > fδ} avec fδ tel que

Proba[F(pq − p− q + 1, pqr − pq

)≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de ZAB sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet d’interaction

significatif sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que l’interaction est significative.

Page 16: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 15

Interpretation. On vient donc de montrer que tester l’effet de l’interaction des facteurs A et B,c’est comparer l’estimateur σ2 dans le modele (Mp+q−1), donne par SCR(Mp+q−1)/(pq − p − q + 1)(qui n’est bon que sous H0 : ”Modele (Mp+q−1)”), a celui obtenu dans le modele (Mpq), donne parSCR(Mpq)/(pqr−pq). La somme des carres S2

AB = SCR(Mp+q−1)−SCR(Mpq) mesure alors la reductiond’erreur, notee R(γ |α, β, µ), quand on ajoute le terme d’interaction a la constante µ et aux effets dupremier facteur A, du deuxieme facteur B.

4.3.4 Test de l’effet du Facteur A

On veut donc tester l’hypothese nulle

H0 : � ∀ i ∈ {1, . . . , p}, αi = 0 et ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternativeH1 : �∃ i tq αi 6= 0 ou ∃ (i, j) tq γij 6= 0�,

ce qui revient a comparer les modeles (Mq) et (Mpq).

Construction du test. Comme dans le paragraphe precedent, elle repose sur le theoreme 4.3 utiliseici avec m = q, qui donne d’une part, la decomposition de la variance

SCR(Mq) =

p∑i=1

q∑j=1

r∑k=1

(Yijk(Mpq) − Yijk(Mq)

)2

+ SCR(Mpq) (22)

=(S2A + S2

AB

)+ SCR(Mpq) puisque Yijk(Mpq)− Yijk(Mq) = αi + γij

et qui fournit d’autre part, la statistique de test

ZA =

(S2A + S2

AB

)/ (pq − q)

SCR(Mpq) / (pqr − pq)∼H0

F(pq − q ; pqr − pq

)(23)

Bien evidemment ce resultat est faux sous H1, ce qui fait de ZA une statistique de test.

Mise en œuvre du test. Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

ZA =

(S2A + S2

AB

)/(pq − q)

SCR(Mpq)/(pqr − pq)=

(SCR(Mq)− SCR(Mpq))/(dim(Mpq)− dim(Mq))

SCR(Mpq)/(pqr − dim(Mpq))

qui sous les hypotheses du modele complet d’Anova 2 et sous H0 suit une loi F(pq − q; pqr − pq

).

La zone de rejet de H0 au risque δ est {ZA > fδ} avec fδ tel que

Proba[F(pq − q ; pqr − pq

)≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de ZA sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet significatif du

facteur A sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que le facteur A influe de maniere

significative sur Y .

Interpretation. On vient donc de montrer que tester l’effet du facteur A, c’est comparer l’estimateurde la variance residuelle σ2 dans le modele (Mq), donne parSCR(Mq)/(pq − q) (qui n’est bon que sousH0 : ”Modele (Mq)”), a celui obtenu dans le modele (Mpq), donne par SCR(Mpq)/(pqr− pq). La sommedes carres S2

A + S2AB = SCR(Mq) − SCR(Mpq) mesure alors la reduction d’erreur, notee R(α, γ |β, µ),

quand on ajoute l’effet du facteur A et du terme d’interaction a la constante µ et a l’effet du deuxiemefacteur B.

Page 17: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

4 Etude du plan complet equilibre avec interaction 16

4.3.5 Test de l’effet du Facteur B

Puisque les roles joues par A et B sont echangeables la construction du test et son interpretation sontanalogues au paragraphe precedent. On se contentera donc de mentionner les points suivants. Pour testerle caractere significatif de l’effet du facteur B sur Y , on teste donc

H0 : � ∀ j ∈ {1, . . . , q}, βj = 0 et ∀ (i, j) ∈ {1, . . . , p}×{1, . . . , q}, γij = 0�

contre l’alternativeH1 : �∃ j tq βj 6= 0 ou ∃ (i, j) tq γij 6= 0�,

ce qui revient a comparer les modeles (Mp) et (Mpq).

Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

ZB =

(S2B + S2

AB

)/(pq − p)

SCR(Mpq)/(pqr − pq)=

(SCR(Mp)− SCR(Mpq))/(dim(Mpq)− dim(Mp))

SCR(Mpq)/(pqr − dim(Mpq))

qui sous les hypotheses du modele complet d’Anova 2 et sous H0 suit une loi F(pq − p; pqr − pq

).

La zone de rejet de H0 au risque δ est {ZB > fδ} avec fδ tel que

Proba[F(pq − p ; pqr − pq

)≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de ZB sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet significatif du

facteur B sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que le facteur B influe de maniere

significative sur Y .

Interpretation. On vient donc de montrer que tester l’effet du facteur B, c’est comparer l’estimateurde la variance residuelle σ2 dans le modele (Mp), donne parSCR(Mq)/(pq − q) (qui n’est bon que sousH0), a celui obtenu dans le modele (Mpq), donne par SCR(Mpq)/(pqr − pq). La somme des carresS2B + S2

AB = SCR(Mp) − SCR(Mpq) mesure alors la reduction d’erreur, notee R(β, γ |α, µ), quand onajoute l’effet du facteur B et du terme d’interaction a la constante µ et a l’effet du deuxieme facteur A.

4.3.6 Table de l’Anova 2

On presente usuellement les resultats sous la forme du tableau suivant :

Source Somme Degres de Statistiquede variation de carres liberte (ddl) de test

A S2A p− 1 ZA =

(S2A + S2

AB

)/ (pq − q)

S2R / (pqr − pq)

B S2B q − 1 ZB =

(S2B + S2

AB

)/ (pq − p)

S2R / (pqr − pq)

Interaction S2AB pq − p− q + 1 ZAB =

S2AB / pq − p− q + 1

S2R / (pqr − pq)

Traitement SCM = S2A + S2

B + S2AB pq − 1 ZM =

SCM / (pq − 1)

S2R / (pqr − pq)

Residuelle S2R = SCR(Mpq) pqr − pq

Totale S2T pqr − 1

Page 18: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

5 Plan complet equilibre sans modelisation de l’interaction 17

5 Plan complet equilibre sans modelisation de l’interaction

Les donnees. Pour chaque traitement (i, j), on dispose donc de r ≥ 1 mesures de Y , notees yijk aveck compris entre 1 et r (r pouvant etre egal a 1), i entre 1 et p et j entre 1 et q. Lorsque r = 1, on omettral’indice k.

Le modele. Pour tout triplet (i, j, k), on suppose que la donnee yijk est une realisation d’une variablealeatoire Yijk de loi N (mij , σ), les variables aleatoires Yijk etant globalement independantes. Ici, on nesouhaite pas ou on ne peut pas modeliser l’interaction. Par consequent, on suppose que l’on a

mij = µ + αi + βj (24)

5.1 Ce qui va changer avec la situation du plan equilibre avec modelisationde l’interaction

On peut le resumer ainsi :

1. Le modele de reference, c’est a dire le ”gros modele”, devient le modele (Mp+q−1) (au lieu dumodele (Mpq)) :

Yijk = µ + αi + βj + εijk avec (εijk)iid∼ N (0, σ2) (25)

avec les contraintes d’identifiabilite

p∑i=1

αi = 0 et

q∑j=1

βj = 0.

2. L’estimateur de la variance σ2 devient

S2 =SCR(Mp+q−1)

pqr − p− q + 1=

1

pqr − p− q + 1

p∑i=1

q∑j=1

r∑k=1

(Yijk − Yijk(Mp+q−1)

)2

et puisqu’on est dans le cadre d’un plan orthogonal, les estimateurs des moindres carres des pa-rametres µ, (αi) et (βj) sont les memes que dans le cadre du modele complet d’Anova 2.

Par consequent,Yijk(Mp+q−1) = µ+ αi + βj = Y i.. + Y .j. − Y ...

et on obtient

S2 =1

pqr − p− q + 1

p∑i=1

q∑j=1

r∑k=1

(Yijk − Y i.. − Y .j. + Y ...

)2

et on aura(pqr − p− q + 1)S2

σ2∼ χ2(pqr − p− q + 1)

5.2 ”Ce qui ne va pas changer”

Les sous-modeles Les sous-modeles du modele (Mp+q−1) sont les modeles (M1), (Mq) et (Mp) quicorrespondent respectivement au modele sans effet du traitement, au modele sans effet du facteur A etau modele sans effet du facteur B.

Page 19: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

5 Plan complet equilibre sans modelisation de l’interaction 18

Estimation des effets Puisque le plan est orthogonal, les parametres µ, (αi) et (βj) sont estimes dela meme maniere dans les modeles (Mp+q−1), (Mq), (Mp) et (M1), Les effets µ, (αi) et (βj) sont estimessous les hypotheses d’identifiabilite

p∑i=1

αi = 0 et

q∑j=1

βj = 0

et les estimateurs des moindres carres qui leurs sont associes, sont obtenus en minimisant

p∑i=1

q∑j=1

r∑k=1

(Yijk − (µ + αi + βj)

)2

sont donnes par :

• µ = Y ... ;• αi = Y i.. − Y ... pour i = 1, . . . , p ;

• βj = Y .j. − Y ... pour j = 1, . . . , q ;

Les previsions et les sommes des carres residuelles associees aux differents sous-modeles sont celles definiesdans les paragraphes 4.2.2 et 4.2.3

5.3 Test des differents effets

Comme dans le cadre du plan complet d’Anova 2, tester l’absence d’un effet (effet traitement ou effetdu facteur A ou effet du facteur B), reviendra a tester un sous-modele (modele (M1) ou (Mq) ou (Mp))contre le modele (Mp+q−1).

5.3.1 Preliminaires

On peut etablir, comme dans le paragraphe 4.3.1, un resultat general pour le test de l’hypothese nulleH0 : �Modele (Mm)� contre l’alternative H1 : �Modele (Mp+q−1)�, ou m ∈

{1, p, q

}. La construction

d’un tel test repose sur le theoreme suivant.

Theoreme 5.1 Sous les hypotheses du modele complet equilibre sans interaction, on a, pour toutm ∈

{1, p, q

}, la decomposition en somme de carres

SCR(Mm) =

p∑i=1

q∑j=1

r∑k=1

(Y (Mp+q−1) − Y (Mm)

)2

+ SCR(Mp+q−1) (26)

et sous H0,

Zm =

(SCR(Mm)− SCR(Mp+q−1)

)/(p+ q − 1−m)

SCR(Mp+q−1)/(pqr − p− q + 1

) ∼ F(p+ q − 1−m ; pqr − p− q + 1

)(27)

Remarque 5.2 Le resultat (27) est faux sous H1, ce qui fait de Zm une statistique de test.

Dans (26), la quantite∑pi=1

∑qj=1

∑rk=1(Yijk(Mp+q−1) − Yijk(Mm))2 represente la reduction d’erreur

quand on passe du modele (Mm) au modele (Mp+q−1). Lorsque cette reduction d’erreur ne sera pas”significative”, on preconisera de modeliser les donnees a l’aide du modele (Mm).

Preuve. Elle est analogue a celle du Theoreme 4.3.

Page 20: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

5 Plan complet equilibre sans modelisation de l’interaction 19

5.3.2 Test de l’effet traitement

Le premier test que l’on peut faire dans le cadre du plan complet equilibre sans interaction est celuide l’absence d’effet du traitement. On cherche a tester l’hypothese nulle

H0 : � ∀ i ∈ {1, . . . , p}, αi = 0 et ∀ j ∈ {1, . . . , q}, βj = 0�

contre l’alternativeH1 : �∃ i tq αi 6= 0 ou ∃ j tq βj 6= 0�,

ce qui revient a comparer les modeles (M1) et (Mp+q−1).

Mise en œuvre du test. Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

ZM =SCM/(p+ q − 2)

SCR(Mp+q−1)/(pqr − p− q + 1)

=(SCR(M1)− SCR(Mp+q−1))/(dim(Mp+q−1)− dim(M1))

SCR(Mp+q−1)/(pqr − dim(Mp+q−1))

qui sous H0 suit une loi F (p+ q − 2 ; pqr − p− q + 1).La zone de rejet de H0 au risque δ est {ZM > fδ} avec fδ tel que

Proba[F (p+ q − 2 ; pqr − p− q + 1) ≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de ZM sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet significatif du

traitement sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que le traitement a un effet significatif

sur Y .

5.3.3 Test de l’effet du Facteur A

On veut donc tester l’hypothese nulle

H0 : � ∀ i ∈ {1, . . . , p}, αi = 0�

contre l’alternativeH1 : �∃ i tq αi 6= 0�,

ce qui revient a comparer les modeles (Mq) et (Mp+q−1).

Mise en œuvre du test. Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

ZA =S2A/(p− 1)

SCR(Mp+q−1)/(pqr − p− q + 1)=

(SCR(Mq)− SCR(Mp+q−1))/(dim(Mp+q−1)− dim(Mq))

SCR(Mp+q−1)/(pqr − dim(Mp+q−1))

qui sous H0 suit une loi F(p− 1; pqr − p− q + 1

).

La zone de rejet de H0 au risque δ est {ZA > fδ} avec fδ tel que

Proba[F(p− 1 ; pqr − p− q + 1

)≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de ZA sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet significatif du

facteur A sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que le facteur A influe de maniere

significative sur Y .

Page 21: Analyse de la Variance a 2 Facteursgodichon.perso.math.cnrs.fr/PolyCours5.pdfAnalyse de la Variance a 2 Facteurs Antoine Godichon-Baggioni INSA de Rouen { G enie Math ematique - 4

5 Plan complet equilibre sans modelisation de l’interaction 20

5.3.4 Test de l’effet du Facteur B

On veut donc tester l’hypothese nulle

H0 : � ∀ j ∈ {1, . . . , q}, βj = 0�

contre l’alternativeH1 : �∃ j tq βj 6= 0�,

ce qui revient a comparer les modeles (Mp) et (Mp+q−1).

Mise en œuvre du test. Pour tester H0 contre H1 au risque δ, on utilise la statistique de test

ZB =S2B/(q − 1)

SCR(Mp+q−1)/(pqr − p− q + 1)=

(SCR(Mp)− SCR(Mp+q−1))/(dim(Mp+q−1)− dim(Mp))

SCR(Mp+q−1)/(pqr − dim(Mp+q−1))

qui sous H0 suit une loi F(q − 1; pqr − p− q + 1

).

La zone de rejet de H0 au risque δ est {ZB > fδ} avec fδ tel que

Proba[F(q − 1 ; pqr − p− q + 1

)≤ fδ

]= 1 − δ.

Ensuite, on calcule la valeur z de ZB sur les donnees et on adopte alors la regle de decision suivante :– si z ≤ fδ alors on accepte H0 au risque δ et on considere qu’il n’y a pas d’effet significatif du

facteur B sur Y ;– si z > fδ alors on rejette H0 au risque δ et on considere que le facteur B influe de maniere

significative sur Y .

5.3.5 Table de l’Anova 2

On presente usuellement les resultats sous la forme du tableau suivant :

Source Somme Degres de Carre Statistiquede variation de carres liberte (ddl) moyen de test

A S2A p− 1 S2

A / (p− 1) ZA =S2A / (p− 1)

S2R / (pqr − p− q + 1)

B S2B q − 1 S2

B / (q − 1) ZB =S2B / (q − 1)

S2R / (pqr − p− q + 1)

Traitement SCM = S2A + S2

B p + q − 2 SCM / (p + q − 2) ZM =SCM / (p + q − 2)

S2R / (pqr − p− q + 1)

Residuelle S2R pqr − p− q + 1 S2

R / ((pqr − p− q + 1))

Totale S2T pqr − 1

avec

S2T =

p∑i=1

q∑j=1

r∑k=1

(Yijk − Y ...

)2S2A =

p∑i=1

q∑j=1

r∑k=1

α2i =

p∑i=1

q∑j=1

r∑k=1

(Y i.. − Y ...

)2S2B =

p∑i=1

q∑j=1

r∑k=1

β2j =

p∑i=1

q∑j=1

r∑k=1

(Y .j. − Y ...

)2S2R = S2

T − S2A − S2

B = S2T − SCM