ANOVA étape par étape (tres interessant)

Embed Size (px)

Citation preview

Chapitre 4 La validation des hypoth`ses e dANOVA ` un facteur aDans le mod`le standard dANOVA, on a fait quelques hypoth`ses. Pour que les rsultats e e e de lanalyse eectue soient ables, il est ncssaire que ces hypoth`ses soient vries. e e e e e e En pratique, il faut valider ces hypoth`ses ` laide doutils statistiques. Dans ce chapitre, e a on prsente quelques procdures pratiques pour valider les hypoth`ses sous-jacentes dune e e e ANOVA. Une procdure rpons ` une question bien particuli`re. e e a e

4.1

Planication dune exprience compl`tement rane e domise e

Dans une analyse de variance ` un facteur lexprience est compl`tement randomise. Cesta e e e `-dire que les units exprimentales sont rparties entre les modalits du facteur ` ltude a e e e e a e au hasard. Souvent une bonne planication fait en sorte que les hypoth`ses de base sont e respectes. e Pour discuter de planication dexprience il faut dnir les termes suivants: e e 1 Lunit exprimentale est lentit qui reoit un traitement; e e e c

1

2 Un traitement est une combinaison de modalits des facteurs ` ltude; dans une analyse e a e de variance ` un facteur un traitement est simplement une modalit du facteur; a e ea e e 3 La randomisation fait en sorte que le traitement soit assign ` une unit exprimentale au hasard. Dans lexprience qui compare deux di`tes pour des rats, supposons que les 20 rats de e e lexprience arrive tous ensemble dans une grande cage. Supposons que lon dispose de 20 e cages individuelles, 10 qui fournissent la di`te 1 et 10 la 2. e Planication 1: On pourrait prendre prendre les 10 premiers rats de la grosse cage et les mettre dans des cages individuelles pour la di`te 1. Les 10 restants seraient alors associs e e ` la deuxi`me di`te. Leet di`te est ici confondu avec lordre de sortie de la cage. Cest a e e e peut-tre les rats les plus actifs qui sont sortis en premier. Ainsi les 2 chantillons ne sont e e pas identiques au dbut de lexprience. e e Planication 2: On utilise la randomisation. Cest-`-dire que lon assigne au hasard a les traitements aux units exprimentales. Pour ce faire on permute au hasard 10 1 et 10 e e 2. Les instructions R pour faire cela sont: sample(c(rep(1,10),rep(2,10)),20,replace=FALSE) [1] 2 1 1 1 1 2 2 1 1 2 2 1 1 1 2 2 1 2 2 2 Le rsultat donne lassignation des rats: le premier tir reoit la deuxi`me di`te. Ceux tirs e e c e e e en position 2 ` 5 reoivent la 1; les positions 6 et 7 reoivent la 2 etc... a c c Dans lexprience sur lusure de trois revtements, il faut conna le droulement de e e tre e lexprience pour sassurer quelle soit bien planie. Ltude dusure se fait peut-tre toue e e e jours sur la mme surface. La randomisation ferait alors en sorte que lordre dans lequel les e 3 revtements sont poss sur la surface et soumis ` lusure soit alatoire. Une exprience e e a e e o` on teste dabord des surfaces enduites de lun des revtements, suivi du deuxi`me et du u e e troisi`me revtement est mal randomise. e e e La randomisation cherche ` faire en sorte que les I chantillons soient, nonobstant les a e dirences de traitement, aussi semblables que possible. Si une exprience est mal planie, e e e linterprtation dun rsultat signicatif peut tre problmatique. Il est peut-tre caus par e e e e e e 2

une planication dciente. Dans lexprience sur les rats, ceux choisis en premier taient e e e peut-tre plus en sant. Cest peut-tre la raison pour laquelle les deux chantillons ont des e e e e moyennes direntes. e Si on souponne quun facteur auxiliaire a un impact sur le rsultat dune exprience c e e on peut incorporer ce facteur dans la plancation pour sassurer que les chantillons soient e balancs pour ce facteur. Ce facteur auxiliaire est appel bloc. Le schma exprimental e e e e est appel un schma randomis avec blocs. e e e

4.2

Est ce que les I chantillons alatoires sont indpendants e e e les uns des autres?

Dans la plus part des situations, la rponse ` cette question dpend la faon avec laquelle on e a e c a rcolt les donnes. Lindpendance des chantillons, appele aussi lindpendance intere e e e e e e chantillonale, est donc une consquence directe du scnario dchantillonage. Une situation e e e e standard dans laquelle cette hypoth`se est viole est le cas des donnes. Cest ` dire lorsque e e e a chaque observation dans un chantillon est relie ` une observation dans chacun des autres e e a chantillon. e e e Exemple 4.1 Un chercheur en sciences mdicales veut comparer deux mdicaments pour rduire le taux de glycmie chez les personnes ages. Il prend des couples de personnes ages e e e e et administre ` chacun de deux membres du couple un des deux mdicaments. Les donnes a e e ainsi rcoltes ne sont clairement pas indpendantes puisque les donnes dun couple sont e e e e relies entre elles. En eet, le couple partage le quotidien. Il se peut quun couple fasse tr`s e e attention ` son alimentation alors quun autre couple mange un peu nimporte quoi. a

4.3

Les observations sont-elles identiquement distribues e ` lintrieur de chaque chantillon? a e e

Ici aussi, cest le plan dexprience qui permet de rpondre ` cette question. En pratique, e e a une situation standard pour laquelle cette hypoth`se nest pas vrie est lorsque les donnes e e e e 3

sont obtenues squentiellement dans le temps: dabord Yi1 , puis Yi2 , ensuite Yi3 , etc. Lorsque e la loi des Yij volue dans le temps, nos donnes ne sont pas identiquement distribues. Pour e e e dtecter cette situation, on peut eectuer un graphe de {Yi1 , Yi2 , , Yini } en fonction de e j = 1, 2, , ni pour i = 1, 2, , I. Si ce graphe montre une tendance quelconque, on peut penser que cette hypoth`se nest pas vrie. e e e

4.4

Est-ce que les observations sont indpendantes les e unes des autres ` lintrieur de chaque chantillon? a e e

Encore une fois, cest le scnario exprimental qui rend cette hypoth`se raisonnable. Le cas e e e o` les donnes sont recoltes squentiellement soul`ve un doute concernant la vracit de u e e e e e e cette hypoth`se. En eet, il se peut que les donnes soient autocorrles; cest-`-dire que e e ee a Yij soit corrle avec Yi(j+1) . On peut dtecter cette situation en traant le nuage de points ee e c (Yij , Yi,j+1 ), j = 1, 2, , ni 1, ou en calculant les coecents dautocorrlation. Pour pouvoir e rpondre positivement ` la question, le nuage de point ne doit montrer aucune tendance et e a les autocorrlations ne doivent pas tre signicativement direntes de 0. e e e

4.5

Est-ce que les observations proviennent dune loi normale?

Lhypoth`se de normalit est cruciale pour lANOVA. En pratique, la validation de cette e e hypoth`se est une tape importante lors de lanalyse. e e Gnralement, lhypoth`se de la normalit` est vrie sur lensemble des donnes et non e e e e e e e pas sur chaque chantillon sparment. Do` la ncssit de ramener toutes les observations ` e e e u e e e a la mme chelle pour avoir une population homog`ne sur laquelle on va eectuer les dirents e e e e tests de normalit. e Pour i = 1, 2, , I, on a Yij N(i , 2 ). Dnissons les rsidus eij par Yij i . On a e e 2 alors eij N(0, ). Ces rsidus sont estims par eij = Yij i = Yij Yi. . e e

4

Clairement, les eij sont normalement distribues puisque cest la dience de deux vari e r ables alatoires normalement distribues. Calculons lesprance et la variance de ces estimae e e teurs des rsidus. e On a : E[ij ] = E[Yij Yi. ] = i i = 0 e Dautre part, on a: V [ij ] = V [Yij Yi. ] e = V [Yij ] + V [Yi. ] 2Cov[Yij , Yi. ] 1 ni = V [Yij ] + V [Yi. ] 2Cov[Yij , Yik ] ni k=1 1 = V [Yij ] + V [Yi. ] 2Cov[Yij , Yij ] ni 1 = V [Yij ] + V [Yi. ] 2 V [Yij ] ni 2 2 2 = 2 + ni ni 1 = 2 (1 ) ni On en dduit que eij N(0, 2 (1 e 1 )), ni

quon peut encore crire: e1 ) ni

eij 2 (1

N(0, 1)

Cette derni`re relation nest malheuseuement pas utilse pour nous puisquen pratique, la e variance thorique 2 est inconnue. Elle est estime par 2 = M SE. Si M SE et eij taient e e e indpendants, on aurait eu: e ij = eij M SE(1 1 ) ni

tN I

Malheuseument, ceci nest pas le cas. En eet, M SE et eij ne sont pas indpendantes. Mais e lorsque les ni sont susament grands, on peut approximer la loi de ij par une normale standard. Les dirents tests de normalit seront alors performs sur lensemble des rsidus studene e e e tiss {ij , i = 1, 2, , I, j = 1, 2, , ni }. e 5

Dirents tests pour vrier la normalit dun ensemble de donnes {X1 , X2 , , Xn } e e e e t2 existent dans la littrature. Certains sont bass sur la densit (t) = e 2 / 2 comme e e e le diagramme en boite, boxplot en anglais, le diagramme en tige et feuilles, sterm and leaf plot en anglais, lhistogramme et les tests dajustement khi-deux. Dautres sont bass sur la e fonction de rpartition (t) = e derni`res. e On dnit la fonction de rpartition dune variable alatoire continue X par F (x) = e e e P (X x). En pratique, cette fonction est estime, ` partir dun chantillon alatoire e a e e {X1 , X2 , , Xn } par la fonction de rpartition empirique dnie par e e nombre dobservations plus petites ou gales ` x e a Fn (x) = n n 1 = 1{Xi x} n i=1 Lorsque n tend vers linni, la fonction de rpartition empirique F () tend vers la vraie e fonction de rpartition en tout point x tel que 0 < F (x) < 1. Soit x un tel rel. Notons que e e pour i = 1, , n, la variable alatoire 1{Xi x} suit une loi de Bernoulli avec un param`tre e e gal ` F (x). Applicons le thor`me central limite sur les Yi = 1{Xi x} . On obtient le rsultat e a e e e asymptotique suivant: n{Fn (x) F (x)} N(0, F (x)(1 F (x)))t

(x)dx. Dans ce chapitre, on prsente un apperu de ces e c

Soit {X(1) , X(2) , , X(n) } lchantillon de statistiques dordre obtenu en ordonnant lchantillon e e initial {X1 , X2 , , Xn }. Par dnition, cet chantillon vrie X(1) < X(2) < < X(n) . Il e e e est facile de voir quon a alors Fn (X(i) ) = i/n pour i = 1, 2, , n.

4.5.1

Les coecients dasymtrie et daplatissement e

Le coecient dasymtrie (skewness) de lchantillon X1 , . . . , Xn est donn par e e e g1 =1 n 1 n n i=1 (Xi n i=1 (Xi

X)33/2

.

X)2

6

Certains logiciels calculent plutt un estimateur corrig pour le biais o e G1 = n (n 1) n2n i=1 (Xi n i=1 (Xi

g1 ,

Le coecient daplatissement (kurtosis) est donn par e g2 =1 n 1 n

X)4 X)22

3.

Certains logiciels calculent un estimateur corrig pour le biais, voir e http://en.wikipedia.org/wiki/Kurtosis.

La valeur thorique de ces deux statistiques sont 0 lorsque les donnes sont normales. e e

4.5.2

La droite dHenry

Ce test visuel est bas sur le nuage de n points (1 (i/(n + 1)), X(i) ). En eet, si lchantillon e e {X1 , X2 , , Xn } provient dune loi normale, on aurait F () = () et (X(i) ) F (X(i) ) = i/n quon peut crire encore 1 [i/n] e logiciel SAS utilise le nuage de points {(1 [ i 3 8 ], X(i) ), i = 1, 2, , n}. n+ 1 4 X(i) . Le nuage de points formera alors ` peu pr`s a e une droite. On utilise i/(n + 1) ` la place de i/n pour viter 1 (0), qui nexiste pas. Le a e

4.5.3

Le test de Shapiro et Wilk

Ce test est une approche plus approfondie du test prcdent. Si le nuage de points {X(i) , 1 [i/(n+ e e 1)]} forme une droite, alors le coecient de corrlation dni par e e r=n i=1 (ui n i=1 (ui

u)(vi v ) n i=1 (vi

u)2

v )2

o` ui = X(i) et vi = 1 [i/(n + 1)], ne sera pas loin de 1.mCeci quivaut ` dire que r2 ne u e a sera pas loin de 1. On rejette alors la normalit si r2 est loin de 1. Il existe des tables pour e 7

la distribution de r2 sous H0 . Ces tables nous servent ` calculer la valeur critique ` un seuill a a donn, par exemple ` 5% et ` calculer la p value associe ` un jeu de donnes. e a a e a e

4.5.4

Le test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov est base sur une distance entre la fonction de rpartition e e () et la fonction de rpartition quon veut tester, ici (). Si lchantillon empirique F e e {X1 , X2 , , Xn } provient dune loi normale, on devrait avoir F (t) (t) pour tout rel t. e En particulier, la statistique D dnie par e D = suptR |Fn (t) (t)| doit tre petite. Le test de Kolmogorov-Smirnov consiste donc ` rejetter la normalit si la e a e statistique D est trop grande. Il existe des tables pour la loi D sous H0 . Ces tables nous servent ` calculer la valeur critique ` un seuill donn, par exemple ` 5% et ` calculer la a a e a a p value associe ` un jeu de donnes. e a e

4.6

Est-ce que les variances thoriques des chantillons e e sont gales ou pas? e

La vrication de lhypoth`se dhomognit des variances est une tape importante lors de e e e e e e la ralisation dune ANOVA. Il existe dans la littrature plusieurs procdures pour eectuer e e e2 2 2 le test H0 : 1 = 2 = = I vs H1 : les variances ne sont pas toutes gales. Cependant, e

plusieurs de ces tests requi`rent la normalit ou lgalit des tailles des chantillons (n1 = e e e e e n2 = = nI ). Dans ce chapitre, on prsente les tests les plus utiliss dans la pratique. e e Dune part parcequils sont programms par SAS et dautres part parque quils sont les moins e restrictifs.

4.6.1

Le test de Levene

Le test de Levene date du dbut des annes soixantes. Il consiste ` eectuer une analyse de e e a la variance sur des donnes transformes. En eet, pour i = 1, 2, , I et j = 1, 2, , ni , e e 8

dnissons Zij par Zij = |Yij Yi. |. Le test de Levene consiste ` eectuer une ANOVA sur e a les variables transformes Zij . Ainsi, on rejette lhypoth`se dhomognit des variances au e e e e e seil si Fobs > F,I1,N I o` Fobs est dni par u e Fobs =I i=1 I i=1

ni (Zi. Z.. )2 /(I 1) . ni 2 j=1 (Zij Zi. ) /(N I)

Ce test est eectu par SAS ` laide de linstruction: e a means traitement / hovtest = LEVENE ; Cest ce test qui est eectu par dfaut. e e

4.6.2

Le test de Brown et Forsythe

Ce test est une variante du test prcdant. Ici, on dnit les Zij par |Yij Yi. | o` Yi. est la e e u mdiane de lchantillon {Yi1 , Yi2 , , Yini }. Le reste de la proc`dure demeure inchang. Ce e e e e test est eectu par SAS ` laide de linstruction: e a means traitement / hovtest = BROWN ;

4.6.3

Le test de Bartlett

Le test de Bartlett, considr comme un test de rapport de vraisemplance est bas sur la ee e statistique L dni par e2 2 2 (S1 ) N I (S2 ) N I (SI ) N I L = n1 1 2 n2 1 2 1 2 S + N I S2 + + nII SI N I 1 Nn1 1 n2 1 nI 1

Remarque 4.1 Le dnominateur et le numrateur de la statistique L dnie par lquation e e e e2 2 2 e e ci-haut sont les moyennes arithmtiques et gomtriques respectives de {S1 , S2 , , SI } pondres e e e

par w1 = (n1 1)/(N I), w2 = (n2 1)/(N I), , wI = (nI 1)/(N I). Ces poids vrient w1 + w2 + + wI = 1. e

9

On rejette lhypoth`se dhomognit des variances si L est trop grand. Il existe des e e e e tables pour la distribution exacte de L. Nanmoins, en pratique on utilise lapproximation e suivante. Posons: B= avec c=1+ (N I) log(L) c (I 1 i=1 ni 1 )

3(I 1)

1 N I

.

Sous H0 , lorsque les tailles des chantillons n1 , n2 , , nI tendent vers linni, on obtient asympe totiquement B 2 . I1 On rejette donc H0 si B > 2 e a I1, . Ce test est eectu par SAS ` laide de linstruction: means traitement / hovtest = BARTLETT ;

4.7

Rsum e e

Il y a donc trois hypoth`ses ` vrier: e a e Lindpendance intra et inter chantillons. e e La normalit des erreurs exprimentales. e e Lgalit des variances. e e Pour la premi`re hypoth`se on cherche ` prciser la planication de lexprience. Sagit-il e e a e e dune exprience compl`tement randomise? Quelles sont les units exprimentales? Peute e e e e tre que lordre dans lequel les donnes ont t rcoltes est associ ` leur valeur. e e ee e e ea L hypoth`se de normalit nest pas cruciale pour la validit du test F dhomognit des e e e e e e moyennes. Si les tailles dchantillons ni sont grandes, la distribution de la statistique F de e la table ANOVA suit approximativement une distribution FI1,ni

mme si les donnes ne e e

sont pas normales. La non normalit des donnes compromet la puissance du test cependant. e e Si cette hypoth`se est viole, le test de Kruskal-Wallis, bas sur les rangs, est souvent plus e e e 10

puissant que le test F de la table ANOVA. Cest le cas lorsque les donnes contiennent e des valeurs extrmes (outliers). On peut galement sassurer que quelques valeurs extrmes e e e nont pas une inuence indue sur les rsultats en refaisant les analyses apr`s avoir exclu ces e e donnes. e Lgalit des variances nest pas vraiment cruciale pour la validit du test F dhomognit. e e e e e e Si lexprience est ` peu pr`s balance et si les tailles dchantillons sont grandes on peut mone a e e e trer que le test F est valide mme si les variance sont ingales. Le test de Welch (disponible e e dans SAS avec means facteur/welch;) tient compte de variances ingales. Certains aue teurs sugg`rent de multipli le seuil observ du test F par 2 sassurer de prserver le seuil e e e e lorsque les variance sont ingales. e Dans une analyse de variance, la variabilit des donnes ne doit pas tre associe ` e e e e a leurs valeurs moyennes. Si les donnes sont des dnombrements avec une loi de Poisson e e alors la variance est ` peu pr`s gale ` la moyenne. Il y a un lien moyenne-variance et a e e a les hypoth`ses sous-jacentes ` lANOVA sont violes. Dans ce cas, deux solutions sont e a e possibles. On peut faire une transformation pour chercher ` stabiliser la variance et traiter a les donnes avec une ANOVA (pour la Poisson la transformation racine care fait le travail). e e On peut galement utiliser un mod`le linaire gnralis construit spciquement pour la e e e e e e e distribution de Poisson. Le mode de variation de certaines variables, que lon dcrit en e termes relatifs plutt quen termes absolus, peut aussi suggrer une transformation. Un o e mod`le ANOVA postule des variations absolues additives. Des variations relatives sont en e fait multiplicatives. Une transformation logarithmique peut alors simposer pour que les hypoth`ses du mod`les ANOVA soient vries. Une transformation complique lanalyse car e e e e cest souvent sur lchelle originale que les rsultats doivent tre interprts. e e e ee La plupart des livres danalyse de variance ont une section ou mme un chapitre sur les e hypoth`ses du mod`le ANOVA et leet de leur violation sur les analyses. Par exemple dans e e Gamst, Meyer et Gaurino, 2008 (voir plan de cours) le chapitre 5 discute de ce sujet.

11