8
Bio-2042 Analyse de covariance 1 Analyse de covariance Scherrer (2007) p.713 ; Sokal et Rohlf (1981) p. 499 L'analyse de covariance procède à la fois de l'analyse de variance et de la régression linéaire simple. Vue de la manière la plus générale possible, c'est une méthode qui permet de modéliser ensemble les influences d'une variable qualitative multiclasse (critère de classification) et d'une variable quantitative sur une variable dépendante quantitative. Cependant, il est utile pour la compréhension de la méthode de hiérarchiser les questions statistiques. Imaginons une situation où plusieurs (g) estimations indépendantes de la pente d'une relation linéaire entre deux variables x et y ont été obtenues. Chaque estimation est issue d'une expérience ou d'un jeu de données différent. Par exemple, on dispose de g = quatre droites de régression décrivant le rendement d'une culture en fonction de la quantité d'un nouvel engrais. Les droites ont été obtenues sur la base d'expériences réalisées respectivement sur sol sableux (1), argileux (2), brun forestier récemment défriché (3), et tourbeux acide (4). On a donc trois variables au total: la variable dépendante quantitative "Rendement", la variable explicative quantitative "Quantité d'engrais", et la variable explicative qualitative multiclasse "Type de sol" (ici à 4 classes, g=4). On peut se poser une question préliminaire: les g droites obtenues sont-elles égales? Autrement dit, explique-t-on plus ou moins la même quantité de variation en regroupant les données des g groupes et en calculant une seule régression qu'en calculant g régressions? Cette hypothèse serait notre H 0 préliminaire: les droites de régression sont confondues. Voir plus bas les formules de calcul. Si cette H 0 est rejetée, donc s'il existe une différence significative entre les g droites de régression, on peut affiner l'analyse. Les questions biologiques se posent alors à trois niveaux:

ANCOVA

Embed Size (px)

Citation preview

Page 1: ANCOVA

Bio-2042 Analyse de covariance 1

Analyse de covariance

Scherrer (2007) p.713 ; Sokal et Rohlf (1981) p. 499

L'analyse de covariance procède à la fois de l'analyse de variance etde la régression linéaire simple. Vue de la manière la plus généralepossible, c'est une méthode qui permet de modéliser ensemble lesinfluences d'une variable qualitative multiclasse (critère declassification) et d'une variable quantitative sur une variabledépendante quantitative. Cependant, il est utile pour lacompréhension de la méthode de hiérarchiser les questionsstatistiques.

Imaginons une situation où plusieurs (g) estimations indépendantesde la pente d'une relation linéaire entre deux variables x et y ont étéobtenues. Chaque estimation est issue d'une expérience ou d'un jeude données différent. Par exemple, on dispose de g = quatre droitesde régression décrivant le rendement d'une culture en fonction de laquantité d'un nouvel engrais. Les droites ont été obtenues sur la based'expériences réalisées respectivement sur sol sableux (1), argileux(2), brun forestier récemment défriché (3), et tourbeux acide (4). Ona donc trois variables au total: la variable dépendante quantitative"Rendement", la variable explicative quantitative "Quantitéd'engrais", et la variable explicative qualitative multiclasse "Type desol" (ici à 4 classes, g=4).On peut se poser une question préliminaire: les g droites obtenuessont-elles égales? Autrement dit, explique-t-on plus ou moins lamême quantité de variation en regroupant les données des g groupeset en calculant une seule régression qu'en calculant g régressions?Cette hypothèse serait notre H0 préliminaire: les droites de régressionsont confondues. Voir plus bas les formules de calcul.Si cette H0 est rejetée, donc s'il existe une différence significativeentre les g droites de régression, on peut affiner l'analyse.Les questions biologiques se posent alors à trois niveaux:

Page 2: ANCOVA

Bio-2042 Analyse de covariance 2

1. Le taux d'engraissement influence-t-il le rendement(indépendamment du type de sol)?

2. Le type de sol influence-t-il le rapport entre engraissement etrendement? Ou encore, le taux d'engraissement influence-t-ille rapport entre type de sol et rendement?

3. Le type de sol influence-t-il le rendement (indépendammentdes engrais)?

La question 1 sera testée à l'aide d'une série de g régressionslinéaires simples (puisque rendement et engraissement sont desvariables quantitatives dans cet exemple).Pour répondre à la question 2, qui traite de l'interaction entre typede sol et engraissement, il faudra tester si les pentes des g droites derégression diffèrent entre elles ou si les droites sont parallèles (auxfluctuations aléatoires près). Des droites parallèles signifieraient que lerapport entre rendement et engrais ne dépend pas du type de sol.Si les droites sont parallèles, alors on testera la question 3 envérifiant si les droites (parallèles) sont situées à des hauteursdifférentes (donc, si leur ordonnée à l'origine diffère) ou si lesdroites sont confondues en une seule (aux fluctuations aléatoiresprès). Des droites situées à des hauteurs différentes signifieraient quele sol influence le rendement indépendammant de l'effet des engrais.

Les étapes de calcul, détaillées dans Scherrer (p. 713-717), sont lessuivantes:

1. Chaque droite de régression produit une erreur résiduelle, c'est-à-dire la somme des carrés des écarts; on les calcule (SCE1 à SCEg).2. On additionne les g erreurs résiduelles obtenues ci-dessus(SCEgD); cette quantité représente toute la variation qui n'est pasexpliquée par les g droites de régression ajustées indépendammentles unes des autres dans chacun des g groupes.3. On calcule une régression unique regroupant toutes les données.Cette régression produit une erreur appelée SCEDC. La différenced'erreur entre une seule droite et g droites indépendantes est donc:SCEDD = SCEDC – SCEgD

Page 3: ANCOVA

Bio-2042 Analyse de covariance 3

4. Hypothèse préliminaire: H0: les g droites des régression sontconfondues. Si H0 est vraie, alors la variable auxiliaire

fDD =SCEDD 2(g −1)SCEgD (n − 2g)

Scherrer éq. 18.47

suit une distribution F de Fisher-Snedecor à ν1 = 2(g–1) et ν2 = 2(n–2g).

5. Si H0 est rejetée ci-dessus, on aborde la suite de l'analyse.

6. On construit une série de g droites de régression parallèles entreelles, dont la pente est égale à la pente moyenne (pondérée par lenombre d'observations de chacun des jeux de données) des droitesajustées sur chacun des groupes; on en calcule les erreursrésiduelles et on les additionne (SCEPE); cette quantité représentetout ce qui n'est pas expliqué par g droites dont les origines sontajustées en fonction de chaque groupe de données, mais dont lapente est identique.

7. On calcule l'erreur résiduelle due à la variation des pentes, c'est-à-dire la différence entre les deux sommes d'erreurs résiduelles ci-dessus (SCEPD = SCEPE – SCEDD).

8. On vérifie si l'erreur résiduelle due à la variation des pentes esttrop grande pour être due aux fluctuations aléatoires. Sous H0, lavariable auxiliaire suit une loi de F de Fisher-Snedecor à ν1 = (g–1)et ν2 = (n–2g) d.l.:

fPD =SCEPD (g −1)

SCEgD (n − 2g)=

SCEPD × n − 2g( )SCEgD × g −1( )

Scherrer éq. 18.51

fPD =Erreur résid. due à la variation des pentes/(g –1)

Erreur résid. tot.sur droites régr. séparées/(n − 2g)

(n = nombre total d'observations; g = nombre de droites comparées)

Page 4: ANCOVA

Bio-2042 Analyse de covariance 4

9. Si l'hypothèse nulle H0 du point 8 est rejetée, donc si les pentes nesont pas parallèles, on en conclut que les relations mesurées diffèrentd'une expérience à l'autre, et que ça n'a donc pas de sens de lesregrouper pour estimer une pente et une ordonnée à l'origineuniques. On renonce dans ce cas aux points 9, 10 et 11.Si, et seulement si, l'hypothèse H0 d'égalité des pentes n'est pasrejetée, on peut comparer les ordonnées à l'origine:- on combine les données de tous les g échantillons et on calcule unedroite de régression commune (voir point 3). On ajuste donc uneseule pente et une ordonnée unique à toutes les données;- on calcule l'erreur résiduelle par rapport à cette droite (SCEDC).

10. L'erreur résiduelle due aux différences d'ordonnées à l'origine estla différence entre l'erreur ci-dessus (étape 9) et l'erreur résiduelle parrapport à des droites parallèles (SCEOOD = SCEDC – SCEPE).

11. On teste si l'erreur résiduelle due aux différences d'ordonnées àl'origine est trop grande pour être due au hasard. La variableauxiliaire suit (sous H0) une loi de F de Fisher-Snedecor à ν1 = (g–1)et ν2 = (n–g–1) d.l.:

fOOD =SCEOOD (n −1)

SCEPE (n − g −1)=

SCEOOD × n − g −1( )SCEPE × g −1( )

fOOD =Erreur résid. due aux diff. d' ordonnées à l'orig./(g –1)

Erreur résid. par rapp. à des droites parallèles/ (n − g −1)

Le point de vue dont l'ANCOVA a été présentée ci-dessus estsurtout celui d'une comparaison de droites de régression. Il fauttoutefois remarquer que l'usage de cette méthode dépasse largementce cadre. Par exemple, on aurait pu aussi présenter l'exemplerendement-engrais-type de sol sous un autre angle:"On dispose de quatre groupes de données de rendement d'uneculture obtenus sur quatre types de sol: sableux, argileux, brunforestier récemment défriché, et tourbeux acide. Toutefois, dans ces

Page 5: ANCOVA

Bio-2042 Analyse de covariance 5

quatre groupes, les réplicats ont été mesurés sur des sols qui ont reçudes doses très variables d'engrais. Ici, l'engrais est donc considérécomme une covariable, et avant de tester l'effet du sol sur lerendement (égalité ou non des ordonnées à l'origine), il faut d'abords'assurer que l'effet de l'engrais sur le rendement est le même quelque soit le type de sol (parallélisme des pentes)."

Ci-dessous: illustration graphique des étapes principales d'uneANCOVA.

Page 6: ANCOVA

Bio-2042 Analyse de covariance 6

Page 7: ANCOVA

Bio-2042 Analyse de covariance 7

L'exemple graphique ci-dessous présente quatre situations possiblesavec diverses combinaisons de pentes et d'ordonnées à l'origine. Onétudie la biomasse végétale en fonction de la quantité d'engrais dansquatre prés croissant sur sols différents. La biomasse (variablequantitative) est la variable dépendante (à expliquer), le type de sol(variable qualitative multiclasse) est le facteur (ou effet) principal, etla quantité d'engrais (variable quantitative) est la covariable.

Page 8: ANCOVA

Bio-2042 Analyse de covariance 8

Les questions biologiques qu'on se pose sont les suivantes (dans cetordre!):1. La biomasse change-t-elle en fonction de la quantité d'engrais? (4

régressions linéaires simples)2. Le type de sol influence-t-il le rapport entre la biomasse et

l'engraissement? (test du parallélisme des pentes, donc test del'interaction)

3. Si on a répondu "non" à la question 2, le type de sol influence-t-illa biomasse (test de l'ordonnée à l'origine)?

Les situations de l'exemple sont les suivantes (de manièredescriptive, sans que les tests aient été faits en réalité):A. Les pentes semblent significatives et positives, ce qui indique une

réponse de la végétation à la quantité d'engrais. Pentes différentes:cela indique une interaction entre sol et engraissement. Dans cecas, on constate que la manière dont la biomasse réagit àl'engraissement dépend du type de sol. Ce dernier agit donc sur larelation biomasse-engrais. Le test sur les ordonnées à l'origine nepeut pas se faire, parce que les ordonnées à l'origine dépendent àla fois du taux d'engraissement et du type de sol.

B. Pentes et ordonnées à l'origine différentes: comme A: uneinteraction est présente, donc le test de l'effet principal (sol) ne sefait pas. Cette situation est la même qu'en A, en fait!

C. Pentes parallèles (donc, pas d'interaction sol-engrais), donc effetprincipal sol testable (et probablement significatif: au moins uneordonnée à l'origine diffère des autres). Dans ce cas, les pentesparallèles indiquent une réponse identique de la végétation auxengrais quelle que soit la nature du sol. Ce dernier n'agit pas sur larelation biomasse-engrais. Par conséquent, la différence d'ordonnéeà l'origine peut être interprétée directement comme un effet de lanature du sol sur la biomasse, indépendamment de l'effet del'engraissement.

D. Pentes et ordonnées à l'origine identiques: ni interaction ni effetprincipal "sol" significatifs. Seuls les engrais influencent labiomasse.