42307367 ANOVA a Un Ou Plusieurs Facteurs

Embed Size (px)

Citation preview

Analyses de Variance un ou plusieurs facteurs Rgressions Analyse de Covariance Modles Linaires Gnraliss

Professeur Patrice [email protected] grande partie des illustrations viennent du site Internet de lUniversit dOttawa (cours de Biostatistiques appliques; Antoine Morin et Scott Findlay)

Quand utiliser lANOVA Pour tester leffet dune variable indpendante discrte Chaque variable indpendante est appele un facteur et chaque facteur peut avoir deux ou plusieurs niveaux ou traitements (ex: niveau d irrigation; temprature d levage; rgion gographique, etc) Une ANOVA teste si toutes les moyennes sont gales, donc H0: galit et H1: au moins une diffrence Si H0 est rejete pour un seuil ", lANOVA ne dit pas o sont les diffrences A utiliser quand le nombre de niveaux est suprieur deux

Pourquoi ne pas utiliser plusieurs tests de t? Pour un nombre de comparaisons k , si H0 est vraie, la probabilit de laccepter pour tous les k est (1 - ")k ex: pour 4 moyennes, (1 - ")k =(0.95)6 = .735; alors, " (pour toutes les comparaisons) = 0.265 En comparant les moyennes des 4 chantillons provenant de la mme population on sattend dtecter des diffrences significatives pour une paire dans 27% des cas

Les diffrents types dANOVA Type I (effets fixes) : les traitements sont dtermins par le chercheur

ANOVA Type I: effet de la temprature sur le taux de croissance de la truite

3 traitements (Temprature) dtermins par le chercheur la variable dpendante est le taux de croissance (8), et le facteur (T) est la temprature T tant contrl, on peut estimer leffet de laugmentation dune unit de T (temprature) sur 8 (le taux de croissance) et prdire 8 pour dautres tempratures

0.20 0.16 Taux de croissance 8 (cm/jour) 0.12 0.08 0.04 0.00 16 20 24 28

Temprature (C)

Les diffrents types dANOVA Type I (effets fixes) : les traitements sont dtermins par le chercheur Type II (effets alatoires) : les traitements ne sont pas sous le contrle de lexprimentateur

ANOVA Type II: poids de lours noir et dispersion gographique280

3 sites (groupes) chantillonns La variable dpendante est le poids et le site est le facteur Pour des sites diffrents les facteurs contrlant la variabilit sont inconnus alors, on ne peut prdire le poids pour dautres sites

240 Poids (kg)

200

160

120 Site 1 Site 2 Site 3

Les diffrents types dANOVA Type I (effets fixes) : les traitements sont dtermins par le chercheur Type II (effets alatoires) : les traitements ne sont pas sous le contrle de lexprimentateur Type III (modle mixte) : au moins un facteur du Type I et au moins un du Type II

Diffrences entre les modles Pour le Type I, les facteurs peuvent tre manipuls par lexprimentateur, pas dans le Type II Le Type I nous permet destimer leffet du traitement, de faire des prdictions, pas le Type II Les calculs pour les deux types sont identiques mais seulement pour lANOVA un critre de classification !

Pourquoi le nom ANOVA? Dans une ANOVA, la variance totale est rpartie en deux composantes: intergroupe : variance des moyennes des diffrents groupes (traitements) intragroupe (erreur) : variance des observations autour de la moyenne du groupe

ProcdureANOVA 1 facteur

Variable dpendante1 continue

Variable(s) indpendante(s)1 discontinue*

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Deuxime phase de lANOVA Si la premire phase de lANOVA (comparaison des variances inter et intragroupes) rejette H0, alors il faut faire des comparaisons multiples de moyennes. Les comparaisons multiples peuvent tre planifies (a priori) ou non planifies (a posteriori). Une comparaison planifie est indpendante des rsultats de lANOVA; la thorie prdit quels traitements devraient tre diffrents.

La croissance dun poisson est compare pour diffrentes tempratures. Si la thorie prvoit quau-dessous de 10 la croissance devient trs faible, voire nulle, les comparaisons se feront donc au-dessus et en dessous de cette valeur seuil (critique).

Deuxime phase de lANOVA Si la premire phase de lANOVA (comparaison des variances inter et intragroupes) rejette H0, alors il faut faire des comparaisons multiples de moyennes. Les comparaisons multiples peuvent tre planifies (a priori) ou non planifies (a posteriori). Une comparaison planifie est indpendante des rsultats de lANOVA; la thorie prdit quels traitements devraient tre diffrents. Une comparaison non planifie est dpendante des rsultats de lANOVA.

La croissance dun poisson est compare pour diffrentes tempratures. Si la thorie prvoit seulement que la croissance baisse quand la temprature baisse, les comparaisons se feront donc entre tous les chantillons.

Deuxime phase de lANOVA Si la premire phase de lANOVA (comparaison des variances inter et intragroupes) rejette H0, alors il faut faire des comparaisons multiples de moyennes. Les comparaisons multiples peuvent tre planifies (a priori) ou non planifies (a posteriori). Une comparaison planifie est indpendante des rsultats de lANOVA; la thorie prdit quels traitements devraient tre diffrents. Une comparaison non planifie est dpendante des rsultats de lANOVA.

Attention : lANOVA est plus fiable et plus robuste que les comparaisons multiples. Une CM ne doit pas tre faite si H0 (1 phase ANOVA) est accepte ! Elle pourrait ventuellement voir des diffrences l o il ny en a pas !!

ANOVA plusieurs facteurs Ce qui a t dit prcdemment concernait 1 seul facteur Si plusieurs facteurs indpendant peuvent agir, il faut utiliser une ANOVA plusieurs facteurs (MANOVA) Contrairement ANOVA 1 facteur, il faut proposer plusieurs H0 Une ANOVA plusieurs facteurs vite de recourir plusieurs ANOVA 1 facteur pour tester la mme chose. En plus, une ANOVA plusieurs facteurs permet de tester les interactions entre facteurs.

ANOVA plusieurs facteursExemple : La croissance dune plante est compare en fonction de la quantit dengrais (E1, E2 et E3) fournie et du niveau dirrigation (I1, I2 et I3). Il est possible de proposer 3 ANOVA 1 facteur (Irrigation) pour chacune des quantits dengrais teste. Il faut donc 3 expriences pour rpondre la mme question. La probabilit d'accepter H0 pour toutes les expriences est de (0.95)3 = 0.86. Donc la probabilit de rejeter au moins une H0 qui est vraie est " = 0.14. En plus les interactions, ventuelles, entre engrais et irrigation ne sont pas testes.

x

Facteur Yx

x

Y1 x Y2x x x x

Facteur X

A

X: pas deffet; Y: faible effet (ou rien si mme ligne); pas dinteraction

B

X: effet important; Y: faible effet; pas dinteraction

C

X: pas deffet; Y: effet important; pas dinteraction

D

X: effet important; Y: effet important; pas dinteraction

x

x

x

x

x

x

x

x

E

X: pas deffet; Y: pas deffet; interaction forte

F

X: effet important; Y: pas deffet; lgre interaction

G

X: pas deffet; Y: effet important; interaction importante

H

X: effet modr; Y: effet important; interaction importante

Les diffrents types dANOVA plusieurs facteurs Type I (effets fixes) : les traitements sont dtermins par le chercheur

Exemple : la croissance en taille dun poisson en fonction du pH et de la temprature de leau, tous deux fixs par lexprimentateur. La variable dpendante est le taux de croissance et les deux facteurs sont le pH et la temprature. Comme les facteurs sont contrls, on peut estimer l'effet de l'accroissement d'une unit de temprature ou de pH sur le taux de croissance et le prdire pour d'autres truites.

Les diffrents types dANOVA plusieurs facteurs Type I (effets fixes) : les traitements sont dtermins par le chercheur Type II (effets alatoires) : les traitements ne sont pas sous le contrle de lexprimentateurExemple : la taille dun lzard en fonction de la rgion et de laltitude, tous deux alatoires (non fixs par lexprimentateur). La variable dpendante est la taille et les deux facteurs sont la rgion et laltitude. Mme si la taille diffre en fonction de la rgion ou de laltitude, on ne savoir quel facteur est responsable de cette variabilit et prdire la taille pour une autre rgion ou une autre altitude.

Les diffrents types dANOVA plusieurs facteurs Type I (effets fixes) : les traitements sont dtermins par le chercheur Type II (effets alatoires) : les traitements ne sont pas sous le contrle de lexprimentateur Type III (modle mixte) : au moins un facteur du Type I et au moins un du Type IIExemple : la taille dun ours en fonction de la rgion (variable alatoire) et du sexe (variable fixe). La variable dpendante est la taille et les deux facteurs sont la rgion et le sexe. Mme si la taille diffre en fonction de la rgion ou du sexe, on ne savoir quel facteur est responsable de cette variabilit et prdire la taille des ours de chaque sexe pour une autre rgion. Par contre, on peut prdire (peut-tre) la diffrence entre les sexes.

Les facteurs fixes versus les facteurs alatoires pour l'ANOVAFacteur fixe Manipulation par lexprimentateur? Estimation de leffet des traitements? Prdiction? Calcul de lANOVA un critre de classification Calcul de lANOVA plusieurs critres de classification Oui Oui Oui Identique Diffrent (trs !) Facteur alatoire Non Non Non

Il faut donc renseigner soigneusement le modle dans le logiciel utilis pour faire les calculs !

ProcdureANOVA 1 facteur

Variable dpendante1 continue

Variable(s) indpendante(s)1 discontinue* 2 ou plus discontinues *

ANOVA n facteurs 1 continue

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Rgression simple Ajustement dune ligne droite travers un nuage de points Test et quantification de leffet dune variable indpendante X sur la variable dpendante Y Lintensit de leffet est donne par la pente (b) de la rgression Limportance de leffet est donn par le coefficient de dtermination (r2)observ

Y

prdit

X

Rgression simple : coefficients de corrlation et de rgression La pente est obtenue par: Le coefficient de corrlation r:

b=

( X i X )(Yi Y )i =1

N

r=

Cov ( X , Y ) X Y

( X i X )2i =1 Alors

N

=

Cov ( X , Y )

X2

X r=b Y

ProcdureANOVA 1 facteur

Variable dpendante1 continue

Variable(s) indpendante(s)1 discontinue* 2 ou plus discontinues * 1 continue 2 ou plus continues

ANOVA n facteurs 1 continue Rgression simple1 continue

Rgression multiple 1 continue

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Rgression et ANOVAComparaison Taille-Poids chez diffrents groupes de Vertbrs Pour une taille donne, il est normal (on sattend ) que le poids dun mammifre soit plus important que celui dun oiseau. Deux rgressions diffrentes simposent. Maintenant imaginons que lon cherche comparer des tailles et des poids sans tenir compte du groupe taxinomique : R serait probablement trs faible (pas de corrlation et donc pas de rgression) !Taille Masse

Taille

Rgression et ANOVAComparaison du Poids dun animal en fonction de diffrents rgime alimentaire Si le rgime alimentaire est riche, il est normal (on sattend ) que le poids de lanimal soit plus lev. Si plus de 2 rgimes alimentaires sont compars, une ANOVA 1 facteur (le rgime) simpose. Mais quelle est la condition respecter ? Le poids dpend de la taille; il faut donc quau dbut de lexprience, avant lapplication du rgime alimentaire test, le poids, donc la taille, de dpart soit identique. Si cette condition nest pas respecte, lexprience est biaise. Si cette condition nest pas ralise, il est possible dintroduire dans le modle la variabilit que lon connat dj : leffet de la taille. Cest donc une ANOVA (1 facteur) avec une co-variable (taille). On parle dANCOVA

Rgression et ANOVAGain en Poids

Une ANOVA classique mettra en vidence une diffrence significative entre les rgimes alimentaires. Par contre, une simple observation du graphique montre que les gains en poids ne sont lis qu aux gammes diffrentes de taille utilises. Rgime 2 Lintroduction de la taille en co-variable ne mettra plus en vidence de diffrence significative entre les rgimes alimentaires !

Rgime 1

Contrle Variable Dpendante : continue Facteur (=var. indp.) : discret (discontinu) Co-variable : continue Taille

Utilisation de lANCOVA Lorsque lon fait ces comparaisons, on suppose que les modles sont qualitativement similaires pour tous les niveaux de la variable discontinue (la covariable) autrement ce serait comme comparer des pommes et des oranges ! ANCOVA est utilise afin de comparer des modles linaires gnralement.

YModles qualitativement similaires

YModles qualitativement diffrents

X1

Les Procdures sont homognesProcdureANOVA 1 facteur

Variable dpendante1 continue

Variable(s) indpendante(s)1 discontinue* 2 ou plus discontinues * 1 continue 2 ou plus continues Au moins 1 discontinue* et au moins une 1 continue

ANOVA n facteurs 1 continue Rgression simple1 continue

Rgression multiple 1 continue ANCOVA1 continue

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Le modle de la rgression simple Le modle de la rgression: Yi

Yi = a + bX i + ei alors, toutes les rgressions simples sont dcrites par 2 paramtres: lordonne lorigine (a) et la pente (b)

ei

a (ordonne lorigine)

Xi Observes Prdites

Modles GLM simplesY Les ordonnes lorigine (a) et les pentes (b) sont diffrentes. Les ordonnes lorigine sont diffrents mais les pentes sont les mmes. Y a diffrents mme b X1 a & b diffrents

X1

Modles GLM simplesY Mmes ordonne lorigine (a) mais les pentes (b) sont diffrentes. Mmes pentes et mmes ordonnes lorigine . Y Mmes a, mmes b X1 Mmes a, diffrents b X1

Y: variable dpendante; X: co-facteur (Prdicteur Continu); G: variable indpendante (Prdicteur Catgoriel; discret). On teste les effets de X, G et X*G (interaction) sur la variable YYGroupe 1 Groupe 2

Cas 1 : X est significatif, G et X*G ne le sont pas. Y change en changeant X, alors X a un effet significatif sur Y. Par contre, les deux points dintersection et les deux pentes sont les mmes.XYGroupe 1 Groupe 2

Cas 2 : G est significatif, X et X*G ne le sont pas. Y ne change pas en changeant X, alors X n'a pas d'effet sur Y. Les points d'intersection des deux groupes sont diffrents, alors G a un effet significatif sur Y. Par contre, les deux pentes sont gales (zro) donc G*X n'a pas d'effet sur Y.X

Y

Groupe 1 Groupe 2

Cas 3 : G et X sont significatifs, X*G ne l'est pas. Y change en changeant X, alors X affecte Y. Les points d'intersection des deux groupes sont diffrents, alors G affecte Y galement. Par contre, les deux pentes sont gales (les lignes sont parallles) donc l'effet de Y sur X ne varie pas en fonction de la valeur de G (c'est--dire, dpendant du groupe). Alors X*G n'est pas significatif. Cas 4 : G, X et X*G sont significatifs. Y change en changeant X, alors X affecte Y. Les points d'intersection des deux groupes sont diffrents, alors G affecte Y galement. En plus, les deux pentes sont diffrentes (les lignes ne sont pas parallles) donc l'effet de Y sur X dpend de la valeur de G (c'est--dire, dpend du groupe). Alors X*G est significatif.X

XYGroupe 1 Groupe 2

Modles GLM simplesIls peuvent donc tre utiliss pour comparer des droites de rgression. Par exemple, pour comparer les droites de rgression entre la taille et le poids pour diffrentes espces : Poids = variable dpendante Taille = variable indpendante = prdicteur continu = co-variable Espce = facteur ou catgorie Analyse : Comparer les pentes Si les pentes ne sont pas statistiquement diffrentes, comparaison des ordonnes lorigine Si les pentes sont statistiquement diffrentes, la comparaison des ordonnes lorigine ne simpose pas.

Tester les pentes revient tester les interactions Tester les ordonnes lorigine revient tester le prdicteur catgoriel

Effets du sexe et de lge sur les esturgeons1.81.9

Mles1.7LFKLLFKL

Femelles1.8

1.7

1.61.6

1.5 1.0

1.1

1.2

1.3 1.4 1.5 LAGE

1.6

1.7

1.5 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 LAGE

1.8

Analyse1.7

MlesLFKL

Log(forklength)(LFKL) est la variable dpendante, log(age) (LAGE) est la variable indpendante continue, et sex (SEX$) est la variable discontinue (2 niveaux) Q1: la pente de la rgression de LFKL sur LAGE est la mme pour les deux sexes?

1.6

1.5 1.0 1.9

1.1

1.2 1.3 1.4 LAGE

1.5 1.6

1.7

1.8LFKL

Femelles

1.7

1.6

1.5 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 LAGE

Effets du sexe et de lge sur les esturgeonsDep Var: LFKL N: 92 Multiple R: 0.835 Squared multiple R: 0.697

Analysis of Variance Source LAGE SEX$ SEX$*LAGE Error Sum-of-Squares df Mean-Square 0.143 0.000 0.000 0.071 1 1 1 88 0.143 0.000 0.000 0.001 F-ratio 176.650 0.504 0.337 P 0.000 0.479 0.563

Conclusion 1 : la pente est la mme pour les deux sexes - p(SEX$*LAGE) > .05 Q2 : lordonne lorigine est-elle la mme?

Effets du sexe et de lge sur les esturgeonsDep Var: LFKL N: 92 Multiple R: 0.834 Squared multiple R: 0.696

Analysis of Variance Source SEX$ LAGE Error Sum-of-Squares df Mean-Square 0.001 0.143 0.072 1 1 89 0.001 0.143 0.001 F-ratio P 0.177 0.000

1.851 178.163

Conclusion 2 : Ordonne lorigine est la mme pour les deux sexes - p(SEX$ > .05) Le meilleur modle est donc la rgression commune.

Effets du sexe et de lge sur les esturgeons

Dep Var: LFKL N: 92 Multiple R: 0.830 Squared multiple R: 0.690 Adjusted squared multiple R: 0.686 Standard error of estimate: 0.029 Effect CONSTANT LAGE Coefficient 1.211 0.336 Std Error 0.031 0.024 Std Coef Tolerance 0.0 0.830 . 1.000 t 39.191 14.144 P(2 Tail) 0.000 0.000

Exemple dAnalyse de Covariance (Statistica)Les rsultats en mathmatiques (Score) sont compars entre diffrents groupes dtudiants recevant chacun des mthodes denseignement diffrentes (Group). Le quotient intellectuel (IQ) est pris comme co-variable.

Dans cet exemple, il ny a pas dinteraction entre le prdicteur catgoriel (Group) et le prdicteur continu (IQ). La mthode denseignement dispense aux diffrents groupes (Group) est suppose indpendante du niveau intellectuel des tudiants (IQ).

Exemple dAnalyse de Covariance (Statistica)

ANOVA 1 facteur

ANCOVA 1 facteur

Exemple dAnalyse de Covariance (Statistica)

Dans Statistica, la dmarche est la suivante :

prendre loption gnrale Homogeneity of Slopes : permet de tester si oui ou non les pentes diffrent (pas da priori) si les pentes diffrent rellement [p(interaction) < 0.05], passer au modle de co-variance pentes spares (Separate-slope model) si les pentes ne diffrent pas [p(interaction) > 0.05], passer au modle traditionnel (Analysis of covariance)