49
Cours 6 – Analyse de Covariance Antoine GODICHON-BAGGIONI INSA – GM4 – Cours de Statistique 2017–2018 A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 1 / 49

Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Cours 6 – Analyse de Covariance

Antoine GODICHON-BAGGIONI

INSA – GM4 – Cours de Statistique

2017–2018

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 1 / 49

Page 2: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

1. Introduction

L’analyse de covariance (ANCOVA) se situe dans le cadre general dumodele lineaire. Elle peut etre vue comme un melange d’ANOVA et demodele lineaire. Elle permet :

d’expliquer une variable quantitative Y

par plusieurs variables explicatives de type a la fois quantitatives etqualitatives.

Dans les cas les plus complexes, on peut avoir

plusieurs facteurs avec une structure croisee ou hierarchisee

plusieurs variables quantitatives intervenant de maniere lineaire oupolynomiale.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 2 / 49

Page 3: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

L’objectif sera de tenir compte, lors de l’etude,

des effets des facteurs sur la variable Y ,

et des effets possibles de la ou des variables quantitatives annexes ouconcomitantes, appelees covariables.

En particulier, on essaiera

d’estimer les modeles ”intra-groupes”

de faire apparaıtre (tester) les effets ”inter-groupes”

Ainsi, dans le cas le plus simple, ou seulement une variable, parmi lesvariables explicatives, est quantitative, on sera amener a tester

l’heterogeneite des constantes

et celle des pentes

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 3 / 49

Page 4: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

2. Quelques exemples2.1 Regimes alimentaires sur le gain de poids de porcelets

On veut comparer l’effet de deux regimes alimentaires sur le gain de poidsde porcelets.

Pour cela, on constitue par tirage aleatoire, deux lots de porcelets. Chacunde ces lots est soumis a un des deux regimes.

En fin d’experience, on mesure le poids Yij de chaque animal. On obtient

Regime A B

Poids final (kg) 40.0 46.0 51.5 45.0 51.0 56.5Poids moyen final (kg) 45.83 50.83

Poids initial (kg) 35.0 40.0 45.0 40.0 45.0 50.0Gain (kg) 5.0 6.0 6.5 5.0 6.0 6.5

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 4 / 49

Page 5: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 5 / 49

Page 6: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Modele d’Analyse de variance a 1 facteur

Yij = µ + αi + εij

ou

αi modelise l’effet du regime alimentaire

εij est un terme d’erreur qui modelise la variabilite du poids duporcelet j par rapport au poids moyen des porcelets qui recoivent leregime alimentaire i

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 6 / 49

Page 7: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Modele d’Analyse de la Covariance

Yij = µ + αi + γ(Xij − X ..

)︸ ︷︷ ︸Effet du poids

initial des porcelets

+ εij

avec

Xij : poids initial des porcelets

X .. : poids initial moyen des porcelets

γ : pente de la regression entre Yij et Xij

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 7 / 49

Page 8: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Remarque 1

Dans le modele d’Anova 1, on teste l’egalite a 0 des parametres α1 etα2, ou pouvaient intervenir a la fois un effet du regime alimentaire etun effet du poids initial des porcelets si les poids initiaux moyens parlot n’etaient pas exactement identiques.

Dans le modele d’ANCOVA, on teste aussi l’egalite a 0 desparametres α1 et α2, mais cette fois-ci on teste l’existence d’un effetspecifique du regime alimentaire.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 8 / 49

Page 9: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Remarque 2

L’interet du modele d’ANCOVA, c’est qu’il permet de

1 separer l’effet specifique du facteur etudie (ici le regime alimentaire)de l’effet de la covariable (ici le poids initial)

2 reduire la variance residuelle, ce qui augmente la puissance du test dufacteur etudie

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 9 / 49

Page 10: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

2.2 Etude de la croissance d’huitres

On cherche a savoir si des conditions de temperature et d’oxy- genationinfluencent l’evolution du poids des huitres.

On dispose de n = 20 paniers de 10 huitres.

On place pendant un mois ces 20 paniers de facon aleatoire dans p = 5emplacements differents d’un canal de refroidissement d’une centraleelectrique a raison de r = 4 paniers par emplacement.Ces emplacements se differencient par leurs temperatures et oxygenations.

Pour chaque sac, on dispose de

son poids avant l’experience (variable Pds Init),

son poids apres l’experience (variable Pds Final)

son emplacement (variable Traitement), code de 1 a 5.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 10 / 49

Page 11: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Les donnees sont les suivantes :

Obs Traitement Repetition Pds Init Pds Final1 1 1 27.2 32.62 1 2 32.0 36.63 1 3 33.0 37.74 1 4 26.8 31.05 2 1 28.6 33.86 2 2 26.8 31.77 2 3 26.5 30.78 2 4 26.8 30.49 3 1 28.6 35.210 3 2 22.4 29.111 3 3 23.2 28.912 3 4 24.4 30.213 4 1 29.3 35.014 4 2 21.8 27.015 4 3 30.3 36.416 4 4 24.3 30.517 5 1 20.4 24.618 5 2 19.6 23.419 5 3 25.1 30.320 5 4 18.1 21.8

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 11 / 49

Page 12: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Objectif : on cherche a expliquer la variable Pds Final (variablequantitative) a partir

d’une variable quantitative Pds Init

d’une variable qualitative Traitement.

et on veut savoir si l’evolution du poids des huitres est differente selon letraitement c’est a dire l’emplacement.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 12 / 49

Page 13: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Echantillon Variable N Mean Std Dev Minimum MaximumGlobal Pds Init 20 25.760 4.038 18.1 33.0

Pds Final 20 30.845 4.345 21.8 37.7

Traitement 1 Variable N Mean Std Dev Minimum MaximumPds Init 4 29.750 3.206 26.8 33.0Pds Final 4 34.475 3.189 31.0 37.7

Traitement 2 Variable N Mean Std Dev Minimum MaximumPds Init 4 27.175 0.960 26.5 28.6Pds Final 4 31.650 1.537 30.4 33.8

Traitement 3 Variable N Mean Std Dev Minimum MaximumPds Init 4 24.65 2.759 22.4 28.6Pds Final 4 30.85 2.956 28.9 35.2

Traitement 4 Variable N Mean Std Dev Minimum MaximumPds Init 4 26.425 4.050 21.8 30.3Pds Final 4 32.225 4.298 27.0 36.4

Traitement 5 Variable N Mean Std Dev Minimum MaximumPds Init 4 20.800 3.021 18.1 25.1Pds Final 4 25.025 3.699 21.8 30.3

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 13 / 49

Page 14: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Le modele de covariance s’ecrit :

Yij = µi + βi xij + εij , εij iid N (0, σ)

ou

i est l’indice du traitement (numero de l’emplacement) ;

j , l’indice de repetition, est le numero du sac d’huıtres pour sonemplacement ;

Yij le poids aleatoire final du j”eme sac d’huitres de l’emplacement i ;

xij le poids initial du j”eme sac d’huitres de l’emplacement i ;

µi est la valeur du poids final pour un sac de poids initial nul pourl’emplacement i (ordonnee a l’origine) ;

βi est la pent de regression pour l’emplacement i ;

σ2 est la variance residuelle (identique pour tous les traitements).

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 14 / 49

Page 15: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On pourra comparer differents (sous-)modeles, comme :

le modele constant, ie.

Yij = µ + εij

le modele ou il n’y a que l’effet emplacement, ie.

Yij = µi + εij

le modele de regression simple, ie.

Yij = µ + β xij + εij

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 15 / 49

Page 16: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Comme pour l’analyse de la variance a deux facteurs, on peut introduireles termes differentiels en decomposant pour tout i = 1, · · · , p,

µi en µ+ αi avec∑αi = 0 ou

I µ represente l’effet global du traitementI et αi represente l’effet specifique du niveau i du traitement.

βi en β + γi∑γi = 0 ou

I β represente un effet globalI et γi un effet specifique du niveau i du traitement.

Le modele s’ecrit alors

Yij = µ + αi + β xij + γi xij + εij , εij iid N (0, σ)

Le dernier terme γi xij peut-etre considere comme un terme d’interactionentre le facteur emplacement et la variable quantitative Pds Init.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 16 / 49

Page 17: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

2.3 Etude de la taille de fillettes

Supposons que l’on veuille expliquer la taille de fillettes de 6 a 10 ans enfonction de leur age.

On mesure annee par annee entre 6 et 10 ans (variable Age) la taille encm (variable Taille) de 7 fillettes (chaque variable etant une modalite dufacteur individu ind).

ind 6 ans 7 ans 8 ans 9 ans 10 ans1 116 122 126.6 132.6 137.62 117.6 123.2 129.3 134.5 138.93 121 127.3 134.5 139.9 145.44 114.5 119 124 130 135.15 117.4 123.2 129.5 134.5 1406 113.7 119.7 125.3 130.1 135.97 113.6 119.1 124.8 130.8 136.3

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 17 / 49

Page 18: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Quel modele envisager ?

Pour une fillette donnee, dans la plage d’age consideree, un modelelineaire est tout a fait raisonnable.

En revanche, il est bien connu, qu’il y a des individus plus grands qued’autres et des individus dont la taille va augmenter plus vite. Il n’estdonc pas raisonnable d’envisager un modele lineaire unique.

Soit Yij la taille de l’individu i a l’age j et soit agej cet age, aveci = 1, · · · , 7 et j = 1, · · · , 5.

On suppose que Yij verifie le modele suivant :

Yij = µi + βi ∗ agej + εij

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 18 / 49

Page 19: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On pourra comparer differents (sous-)modeles, comme :

le modele constant, ie.

Yij = µ + εij

le modele ou il n’y a que l’effet individu, ie.

Yij = µi + εij

le modele de regression simple, ie.

Yij = µ + β xij + εij

le modele avec heterogeneite des constantes, ie.

Yij = µi + β xij + εij

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 19 / 49

Page 20: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

3. ANCOVA a 1 facteur et 1 covariable3.1 Le modele

Le modele est explicite dans le cas ou une variable quantitative Y estexpliquee par

un facteur F a p niveaux

une variable quantitative X , appelee covariable.

Pour chaque niveau i = 1, · · · , p de F , on observe

ni mesures de X notees xij .

et ni mesures de Y notees yij

On notera n la taille de l’echantillon : n =

p∑i=1

ni .

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 20 / 49

Page 21: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Remarque

En pratique, avant de lancer une procedure de modelisation et/ou de test,on commence par effectuer une demarche exploratoire

s’appuyant sur une representation en couleur (une par modalite i deF ) du nuage de points croisant Y et X

et associant les droites des moindres carres

Cette demarche permet de se faire une idee sur les effets respectifs desvariables :

parallelisme des droites,

etirement des sous-nuages,

imbrication des sous-nuages.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 21 / 49

Page 22: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Le modele. Pour tout (i , j), nous supposons que la donnee yij est unerealisation d’une variable aleatoire Yij liee a xij par :

Yij = µ+ αi + γ xij + βi xij + εij

ou les variables (εij) sont iid de loi N(0, σ2

).

En notant

Y le vecteur aleatoire (Yij |i = 1, · · · , p; j = 1, · · · , ni )′

ε le vecteur aleatoire (εij |i = 1, · · · , p; j = 1, · · · , ni )′

θ le vecteur des parametres (µ, α1, · · · , αp, γ, β1, · · · , βp)′

le modele peut se mettre sous la forme

Y = X θ + ε, ε ∼ N(0 , σ2In

)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 22 / 49

Page 23: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Remarque

La matrice X n’est pas de rang plein, autrement dit la matrice X ′Xn’est pas inversible.

L’estimation du parametre θ ne pourra se faire qu’en ajoutant deuxcontraintes d’identifiabilite, a savoir

p∑i=1

niαi =

p∑i=1

niβi = 0

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 23 / 49

Page 24: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Dans la suite, et pour simplifier, nous restreindrons notre etude au cas duModele ”sans interaction” (les βi sont tous nuls),

Yij = µ+ αi + γ xij + εij

qu’on prefere ecrire sous la forme

Yij = µ+ αi + γ (xij − x..) + εij

ou les variables (εij) sont iid de loi N(0, σ2

).

Ce modele devient identifiable en ajoutant la contrainte

p∑i=1

niαi = 0

Ce modele est donc de dimension (p + 2)− 1. Nous le noterons donc(Mp+1).

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 24 / 49

Page 25: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

3.2 Les tests

Dans le cadre du modele d’ANCOVA sans interaction

Yij = µ+ αi + γ (xij − x..) + εij , εijiid∼N

(0, σ2

)on cherchera a tester

plus particulierement, l’absence d’effet du facteur F : pour cela ontestera

H0 : « α1 = . . . = αp = 0 » vs. H1 : « ∃ i , tq αi 6= 0 »

et parfois, l’absence d’effet de la covariable : pour cela on testera

H0 : « γ = 0 » vs. H1 : « γ 6= 0 »

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 25 / 49

Page 26: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

3.2.1 Test de l’absence d’effet du facteur

On veut tester l’absence d’effet du facteur F . Pour cela nous allons donctester

H0 : « α1 = . . . = αp = 0 » vs. H1 : « ∃ i , tq αi 6= 0 »

ce qui revient a comparer le sous-modele

(M2) : Yij = µ+ γ (xij − x..) + εij , εijiid∼N

(0, σ2

)de dimension 2, au modele complet

(Mp+1) : Yij = µ+ αi + γ (xij − x..) + εij , εijiid∼N

(0, σ2

)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 26 / 49

Page 27: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Dans le modele (M2) (MLG simple),

on estime les parametres µ et γ par

µ = Y.. et γ =

∑pi=1

∑nij=1(xij − x..)(Yij − Y..)∑p

i=1

∑nij=1(xij − x..)2

les residus sont definis par

ε(M2)ij = Yij −

(µ+ γ(xij − x..)

)= Yij − Y.. − γ(xij − x..)

la somme des carres residuelle vaut

SCR(M2) =

p∑i=1

ni∑j=1

(Yij − Y.. − γ(xij − x..)

)2=

p∑i=1

ni∑j=1

(Yij − Y..)2 − γ2p∑

i=1

ni∑j=1

(xij − x..)2

on estime la variance σ2 par S2(M2)

=SCR(M2)

n − 2

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 27 / 49

Page 28: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Dans le modele (Mp+1),

on estime le vecteur des parametres θ =(µ, α1, · · · , αp, γ

)′a l’aide

de la methode des moindres carres :on cherche donc a minimiser

p∑i=1

ni∑j=1

(yij − µ− αi − γ(xij − x..)

)2= ‖Y − Xθ‖2

sous la contrainte

p∑i=1

niαi = C ′θ = 0, ou C est le vecteur de Rp+2

defini par C = (0, n1, · · · , np, 0)′.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 28 / 49

Page 29: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Si θ designe l’estimateur de θ, alors θ est solution de{(X ′X ) θ = X ′Y

C ′θ = 0

On montre facilement que

X ′X =

n n1 n2 · · · np

=0︷ ︸︸ ︷p∑

i=1

ni∑j=1

(xij − x..)

n1 n1 0 · · · 0 n1(x1. − x..)n2 0 n2 · · · 0 n2(x2. − x..)...

......

np 0 0 · · · np np(x2. − x..)0 n1(x1. − x..) · · · np(xp. − x..)

∑pi=1

∑nij=1(xij − x..)2

cette matrice n’etant pas inversible.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 29 / 49

Page 30: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On a alors {(X ′X ) θ = X ′Y

C ′θ = 0⇐⇒

nµ+

p∑i=1

ni αi = nY..

n1µ+ n1α1 + n1(x1. − x..)γ = n1Y1.n2µ+ n2α2 + n2(x2. − x..)γ = n2Y2.

...npµ+ npαp + np(xp. − x..)γ = npYp.

p∑i=1

ni (x i. − x..)αi + γ

p∑i=1

ni∑j=1

(xij − x..)2 =

p∑i=1

ni∑j=1

(xij − x..)Yij

p∑i=1

ni αi = 0

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 30 / 49

Page 31: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On obtient alors

µ = Y..α1 = Y1. − Y.. − γ(x1. − x..)α2 = Y2. − Y.. − γ(x2. − x..)

...αp = Yp. − Y.. − γ(xp. − x..)

avec γ solution de l’equation

p∑i=1

ni (x i. − x..)αi + γ

p∑i=1

ni∑j=1

(xij − x..)2 =

p∑i=1

ni∑j=1

(xij − x..)Yij

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 31 / 49

Page 32: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

En remplacant alors chaque αi par son expression, on obtient

γ(

p∑i=1

ni∑j=1

(xij − x i.)2

︷ ︸︸ ︷p∑

i=1

ni∑j=1

(xij − x..)2 −p∑

i=1

ni (x i. − x..)2)

=

p∑i=1

ni∑j=1

(xij − x..)(Yij − Y..) −p∑

i=1

ni (x i. − x..)(Y i. − Y..)︸ ︷︷ ︸p∑

i=1

ni∑j=1

(xij − x i.)(Yij − Y i.)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 32 / 49

Page 33: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

En conclusion, dans le modele (Mp+1),

on estime le vecteur θ =(µ, α1, · · · , αp, γ

)′par

µ = Y..αi = Y i. − Y.. − γ(x i. − x..) pour tout i = 1, · · · , p

γ =

p∑i=1

ni∑j=1

(xij − x i.)(Yij − Y i.)p∑

i=1

ni∑j=1

(xij − x i.)2

les residus sont definis par

ε(Mp+1)ij = Yij −

(µ+ αi + γ(xij − x..)

)= Yij − Y i. − γ(xij − x i.)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 33 / 49

Page 34: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

la somme des carres residuelle vaut

SCR(Mp+1) =

p∑i=1

ni∑j=1

(Yij − Y i. − γ(xij − x i.)

)2=

p∑i=1

ni∑j=1

(Yij − Y i.

)2 − γ2 p∑i=1

ni∑j=1

(xij − x i.)2

on estime la variance σ2 par

S2(Mp+1)

=SCR(Mp+1)

n − p − 1

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 34 / 49

Page 35: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

De plus, comme dans le cadre du MLG multiple, on peut montrer que

SCR(M2) = SCR(Mp+1) +

p∑i=1

ni∑j=1

(ε(M2)ij − ε(Mp+1)

ij

)2︸ ︷︷ ︸

SCR(M2)−SCR(Mp+1)

SCR(Mp+1)

σ2∼ χ2

n−p−1

SCR(M2)

σ2∼H0

χ2n−2

Le theoreme de Cochran et le procede de contruction d’une Fisher, nousdonne alors

(SCR(M2)− SCR(Mp+1)) / (p − 1)

SCR(Mp+1) / (n − p − 1)∼H0

F (p − 1 ; n − p − 1)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 35 / 49

Page 36: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Pour tester, au risque δ, l’absence d’effet du facteur,

on utilise la statistique de test

Z =(SCR(M2)− SCR(Mp+1)) / (p − 1)

SCR(Mp+1) / (n − p − 1)∼H0

F (p − 1 ; n − p − 1)

on definit la zone de rejet du test par{Z > fδ

}ou fδ est tq

P[F (p − 1; n − p − 1) ≤ fδ

]= 1 − δ

on calcule la valeur z de Z sur les donnees

z =(scr(M2)− scr(Mp+1)) / (p − 1)

scr(Mp+1) / (n − p − 1)

et on adopte la strategie suivante :I si z ≤ fδ alors on accepte H0 au risque δ et on considere que le

facteur F n’a pas d’influence reelle sur Y ;I si z > fδ alors on rejette H0 au risque δ et on considere que le

facteur F influe de maniere significative sur Y .

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 36 / 49

Page 37: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

3.2.2 Test de l’absence d’effet de la Covariable

On veut tester l’absence d’effet de la covariable X .Pour cela, dans le modele (Mp+1), nous allons tester

H0 : « γ = 0 » vs. H1 : « γ 6= 0 »

ce qui revient a comparer le sous-modele

(Mp) : Yij = µ+ αi + εij , εijiid∼N

(0, σ2

)de dimension p, au modele complet

(Mp+1) : Yij = µ+ αi + γ (xij − x..) + εij , εijiid∼N

(0, σ2

)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 37 / 49

Page 38: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On a vu dans le paragraphe precedent que γ est estime par

γ =

p∑i=1

ni∑j=1

(xij − x i.)(Yij − Y i.)

p∑i=1

ni∑j=1

(xij − x i.)2=

p∑i=1

ni∑j=1

(xij − x i.)Yij

p∑i=1

ni∑j=1

(xij − x i.)2

En procedant comme pour la loi de A dans le MLG simple, on montre que

γ ∼ N(γ ,

σ2∑pi=1

∑nij=1 (xij − x i.)2

)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 38 / 49

Page 39: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

En combinant ce resultat avec la loi de SCR(Mp+1) et le fait que γ etSCR(Mp+1) sont independants, on deduit que(

γ − γ)2∑p

i=1

∑nij=1 (xij − x i.)2

SCR(Mp+1) / (n − p − 1)∼ F (1 ; n − p − 1)

et par consequent sous H0,

γ2∑p

i=1

∑nij=1 (xij − x i.)2

SCR(Mp+1) / (n − p − 1)∼H0

F (1 ; n − p − 1)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 39 / 49

Page 40: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Remarque

Le dernier resultat est bien evidemment faux sous H1.

La quantite

γ2p∑

i=1

ni∑j=1

(xij − x i.)2

represente la difference entre la somme des carres residuelle dumodele (Mp), ie.

SCR(Mp) =

p∑i=1

ni∑j=1

(Yij − Y i.

)2et celle du modele (Mp+1).

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 40 / 49

Page 41: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Pour tester, au risque δ, l’absence d’effet de la Covariable,

on utilise la statistique de test

Z =γ2∑p

i=1

∑nij=1 (xij − x i.)2

SCR(Mp+1) / (n − p − 1)∼H0

F (1 ; n − p − 1)

on definit la zone de rejet du test par{Z > fδ

}ou fδ est tq

P[F (1; n − p − 1) ≤ fδ

]= 1 − δ

on calcule la valeur z de Z sur les donnees

z =γ2∑p

i=1

∑nij=1 (xij − x i.)2

scr(Mp+1) / (n − p − 1)

et on adopte la strategie suivante :I si z ≤ fδ alors on accepte H0 au risque δ et on considere que la

covariable X n’a pas d’influence reelle sur Y ;I si z > fδ alors on rejette H0 au risque δ et on considere que la

covariable X a une influence significative sur Y .

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 41 / 49

Page 42: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

3.3 Illustration sur un exemple

On souhaite etudier la croissance de 3 varietes de Leucaena Leucocephala(Cassie Blanc ou faux mimosa) sur une periode de 4 mois (FichiersMimosa R.txt, Mimosa.csv).

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 42 / 49

Page 43: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Chaque variete est cultivee dans 10 parcelles d’une station experimentale.On dispose des hauteurs moyennes initiales et finales de chaque parcelle(basees sur 40 observations chacunes).

Variete 1 Variete 2 Variete 3H Init H Finale H Init H Finale H Init H Finale

18 145 27 161 31 18022 149 28 164 27 15826 156 27 172 34 18319 151 25 160 32 17515 143 21 166 35 19525 152 30 175 36 19616 144 21 156 35 18728 154 30 175 23 14723 150 22 158 34 18424 151 25 165 32 184

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 43 / 49

Page 44: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On notera

xij la hauteur moyenne initiale de la parcelle j (1 ≤ j ≤ 10) cultiveeavec la variete i (1 ≤ i ≤ 3),

yij la hauteur moyenne finale de la parcelle j cultivee avec la variete i .

n le nombre total de donnees, ie. n = 30.

Nous allons modeliser ces donnees avec un modele de covariance a 1Facteur (Variete) et 1 Covariable (Hauteur initiale).

On suppose donc que pour tout (i , j) la donnee yij est une realisation de lavariable aleatoire Yij definie par :

Yij = µ+ αi + γ(xij − x..) + εij , (εij)iid∼N (0, σ2)

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 44 / 49

Page 45: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

On obtient les estimations suivantes :

Parametre Estimation

µ 164.5333α1 -3.3645α2 2.5435α3 0.82107γ 2.0124σ2 38.959

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 45 / 49

Page 46: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Par ailleurs, on trouve

p∑i=1

ni∑j=1

(xij − x..)2 = 966.9667

p∑i=1

ni (x i. − x..)2 = 539.266

=⇒p∑

i=1

ni∑j=1

(xij − x i.)2 = 427.70

p∑i=1

ni∑j=1

(yij − y..)2 = 7073.467

p∑i=1

ni (y i. − y..)2 = 4328.467

=⇒p∑

i=1

ni∑j=1

(yij − y i.)2 = 2745

p∑i=1

ni∑j=1

xijyij − n x..y.. = 2367.13

p∑i=1

nix i.y i. − n x..y.. = 1506.43

=⇒p∑

i=1

ni∑j=1

(xij − x i.)(yij − y i.) = 860.7

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 46 / 49

Page 47: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Pour savoir si il y a un effet ”variete” significatif, on va tester aurisque 5%, l’hypothese nulle

H0 : « α1 = α2 = α3 = 0 » vs. H1 : « ∃ i = 1, 2, 3, tq αi 6= 0 »

On utilise la statistique de test

Z =(SCR(M2)− SCR(Mp+1)) / (p − 1)

SCR(Mp+1) / (n − p − 1)

qui suit sous H0 une loi F (p − 1; n − p − 1), ie. F (2, 26).

La zone de rejet du test est definie par{Z > 3.37

}.

La valeur z de Z sur les donnees vaut

z =(scr(M2)− scr(Mp+1)) / (p − 1)

scr(Mp+1) / (n − p − 1)=

(1 278.73− 1 012.93)/2

1 012.93/26

Puisque z = 3.41 > 3.37 (p-value = 0.0484), on rejette H0 au risque5% et on considere que la variete des Leucaena influe de manieresignificative sur leur croissance.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 47 / 49

Page 48: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Pour savoir si il y a un effet significatif de la hauteur initiale, onva tester au risque 5%, l’hypothese nulle

H0 : « γ = 0 » vs. H1 : « γ 6= 0 »

On utilise la statistique de test

Z =γ2∑p

i=1

∑nij=1 (xij − x i.)2

SCR(Mp+1) / (n − p − 1)

qui suit sous H0 une loi F (1; n − p − 1), ie. F (1, 26).

La zone de rejet du test est definie par{Z > 4.23

}.

La valeur z de Z sur les donnees vaut

z =γ2∑p

i=1

∑nij=1 (xij − x i.)2

scr(Mp+1) / (n − p − 1)=

2.01242 ∗ 427.7

1 012.93/26

Puisque z = 44.46 > 4.23, on rejette H0 au risque 5% et on considereque la hauteur initiale des Leucaena influe de maniere significative surleur croissance.

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 48 / 49

Page 49: Cours 6 Analyse de Covariance - Antoine Godichon …godichon.perso.math.cnrs.fr/GM4Stat6.pdfMod ele d’Analyse de variance a 1 facteur Y ij = + i + "ij ou i mod elise l’e et du

Avec Matlab. on utilise la procedure aoctool de la boıte a outil stats.

Sur les donnees de notre exemple, on execute

aoctool(X( :),Y( :),F,0.05,’HautInit’,’HautFinal’,’Variete’,’on’,4)

ou

X (:) =(x1,1, · · · , x1,n1 , x2,1, · · · , x2,n2 , x3,1, · · · , x3,n3

)′Y (:) =

(y1,1, · · · , y1,n1 , y2,1, · · · , y2,n2 , y3,1, · · · , y3,n3

)′F =

(1, · · · , 1︸ ︷︷ ︸

n1

, 2, · · · , 2︸ ︷︷ ︸n2

, 3, · · · , 3︸ ︷︷ ︸n3

)′

A. Godichon-Baggioni (INSA de Rouen) Analyse de Covariance 2017–2018 49 / 49