6

Click here to load reader

statsichap3

Embed Size (px)

Citation preview

  • Statistique appliquee aux sciences de lingenieur-Chapitre 3 Analyse de la Variance

    C. BLANCHET-SCALLIET

    2007-2008

  • Lanalyse de la variance consiste a` expliquer une variable quantitative Y par des variablesqualitatives ou crite`res.

    0.1 Analyse de la variance a` un facteur

    0.1.1 Mode`le statistique

    La methode de collecte des donnees nous permet de propose le mode`le suivant :-Yij : la varaible aleatoire representant la hauteur du j-e`me arbre de la foret i. -i : la hauteurmoyenne de la foret i (valeur theorique).

    On poseYij = i + ij

    o ij sont des v.a ; independantes de meme loi que la variable Hypothe`ses : E() = 0, V () =2 et N (0, )

    Test : H0 : 1 = 2 = 3Lidee du test est de comparer le mode`le complet avec le mode`le reduit suivant ou` lhy-

    pothe`se H0 est vraieYij = + ij

    Dans le mode`le complet,on estime

    Yij = Yi. = mi =1

    ni

    j

    Yij

    La somme des carrees resisuelle ou somme des carres des erreurs est egale a` SSe =ij ij

    2 =

    ij(Yij Yi.)2.

    Dans le mode`le reduit, on estime par Y = 1n1+n2+n3

    ij Yij La somme des carrees

    resisuelle dans le mode`le reduit est la somme des carres totale du mode`le complet. Elle estegale a` SST =

    ij(Yij Y )2.

    On a par Pythagore que SSR = SST SSe =

    ij(Yi. Y )2Tableau danalyse de la variance

    source de variation Somme des carres DF Carre moyen

    Expliquee par la regression SSR I-1 MSR = SSRDF

    Residuelle SSE n-I MSE = SSEDF

    totale SST n-1

    1

  • On definit F = SSTSSeSSe

    nII1 la statistique du test. Elle suit une loi de fF (I 1, n I)

    On calcule f la realisation de F et on compare au quantile f(I1,nI),1.

    Un estimateur sans biais de la variance est 2 =i,j(Yi,.Yi,j)2

    nI

    0.2 Deux facteurs croises

    Soit Y une v.a. et deux facteurs A et B, on ecrit le mode`le general suivant

    Yijk = + i + j + ij + ijk (1)

    ou` 1 i I, 1 j J et 1 k nij, nij est le nombre dexperience Ai BjEcriture matricielle :

    Y = X +

    ou` par exemple pour I = 2, J = 3, nij = 1

    X =

    1 1 0 1 0 01 0 1 1 0 01 1 0 0 1 01 0 1 0 1 01 1 0 0 0 11 0 1 0 0 1

    et

    =

    12123

    On impose les conditions suivantes

    i

    i = 0,j

    j = 0,i

    ij = 0,j

    ij = 0

    Definition 0.2.1. Soit le mode`le 1, lorsque les parame`tres dinteraction ij sont nuls pourtout (i, j) 1, ..., I 1, ..., J , le mode`le est additif. Sinon, on dit que le mode`le est avecinteraction. Enfin, onparle deffet principaux pour tout ce qui est relatif aux parame`tres iet j.

    2

  • 0.2.1 Mode`le avec interaction dans le cas equirepete

    On va supposer que chaque combinaison linaire (i, j) des differentes modalites des deuxfacteurs est experimentee le meme nombre de fois K.

    Dans le cas equirepete, on peut facilement estimer les parame`tres , et . i est estime par Yi.. Y . Cest leffet differentiel du 1er facteur. j est estime par Y.j. Y . Cest leffet differentiel du 2eme facteur. ij est estime par Yij. Yi Yj + Y .

    On obtient les estimations a` partir de ces estimateurs en remplcant dans les formules pardes petits y. La notation . a` la place dun indice dune variable signale que lon a effectueune moyenne sur toutes les valeurs possibles de cet indice.

    On veut tester les differentes hypothe`ses stipulant la presence ou non dun des effetsprincipaux ou de linteraction. On definit

    H01 : i = 0 pour tout i. H02 : j = 0 pour tout j. H03 : ij = 0 pour tout i,j.Tableau danalyse de la variance

    source de variation Somme des carres DF Carre moyen F-statistics

    Facteur A SSA =

    ijk(yi.. y)2 I-1 MSA = SSADF fA = MSAMSeFacteur B SSB =

    ijk(y.j. y)2 J-1 MSB = SSBDF fB = MSBMSe

    Fact A *Fact B SSAB =

    ijk(yij. yi.. y.j. + y)2 (I-1)(J-1) MSAB = SSABDF fAB = MSABMSeResiduelle SSE =

    ijk(yijk yij.)2 n-IJ MSe = SSEDF

    Toutes les sommes sont exprimees en fonction des trois indices pour les memoriser plusfacilement. On aurait pu ecrire

    SSA =ijk

    (yi.. y)2 = J.K.i

    (yi.. y)2

    0.2.2 Mode`le additif-Cas equirepte

    Linteraction napparait plus et par des proprietes dorthogonalite des sous-espace vecto-riel la ligne de linteraction se somme avec la ligne residuelle dans le tableau precedent pourobtenir la nouvelle somme carres des des erreurs.

    3

  • source de variation Somme des carres DF Carre moyen F-statistics

    Facteur A SSA =

    ijk(yi.. y)2 I-1 MSA = SSADF fA = MSAMSeFacteur B SSB =

    ijk(y.j. y)2 J-1 MSB = SSBDF fB = MSBMSe

    Residuelle SSE =

    ijk(yijk yi.. y.j. + y)2 n-I-J+1 MSe = SSEDF

    0.2.3 Quel mode`le choisir ?

    1er cas : Linteraction est significative, alors on garde les deux facteurs quel que soit leresultat des tests sur les effets principaux.2eme cas : Lintroduction nest pas significative, on teste les effets principaux dans le mode`legeneral (et non pas additif comme il serait naturel). Ceci afin de garder comme estimateur

    de 2 lestimateur du mode`le complet. (rappel : pour tout mode`le MSe est un estimateur de2

    0.2.4 Donnees non equirepetees

    Il ny a plus unicite dans la definition des effets principaux et de la table de lanalysede la variance. La decomposition que lon a fait precedemment est celle usuelle et la plusnaturelle. Elle porte le nom de type III.

    0.3 Extensions

    0.3.1 Comparaison 2 a` 2

    Il existe plusieurs methodes pour faire des comparaisons 2 a` 2. On retiendra les suivantes Methode de Tukey adaptee au cas equirepete : Elle fournit des I.C. simultannes pour

    les differences entre parame`tres i j,1 i j n. Le risque est globale sur lesI(I 1)/2 comparaisons.

    Methode de Bonferroni : cette methode est la plus simple et peut etre appliquee danstous les cas. Si on a I(I 1)/2 comparaisons a` faire et que lon veut un niveau derisque globale de , on fait toutes les comparaisons deux a` deux avec un test classiquede student de comparaison de deux moyennes, mais au niveau

    =

    I(I 1)/2 .

    Cette methode est particulie`rement adapte au cas desequilibre.

    4

  • 0.3.2 Plusieurs facteurs, facteurs croises et hierarchises

    Dans le cas ou` lanalyse porte sur plus de 2 facteurs, on decompose la reponse en : effetprincipaux, interactions doubles, interactions triples. Il existe un cas particulier : facteurshierarchises.

    Definition 0.3.1. Deux facteurs sont dits croises si chacun deux a un sens independammentde lautre.Le facteur B est dit hierarchise au facteur A si un indice du facteur B ne signifie rien tantque lon ne connait pas lindice de A.

    Exemple : Bloc/sousbloc. Dans ce cas le mode`le est

    Yijk = + i + ij + ijk

    0.3.3 Test dinhomogeneite des variances

    On peut tester linhomogeneite des variances de manie`re visuelle avec le graphe desresidus. (Mise en evidenc e dune plsu grande dispersion).On peut aussi realiser le test de Levene : Il consiste en une analyse de la variance sur 2ij(Caa` un facteur. Si la variance est homoge`ne, on a E(2ij) =

    2, sinon leur moyenne varie enfonction de i. Dans le cas a` plusieurs facteurs, on peut tester les differents effets principaux.

    0.4 Analyse de la covariance

    Lanalyse de la covariance est le fait que parmi les predicteurs, il y ait des variablesquantitatives et qualitatives.

    5

    0.1 Analyse de la variance un facteur0.1.1 Modle statistique

    0.2 Deux facteurs croiss0.2.1 Modle avec interaction dans le cas quirpt0.2.2 Modle additif-Cas quirpt0.2.3 Quel modle choisir ?0.2.4 Donnes non quirptes

    0.3 Extensions0.3.1 Comparaison 2 20.3.2 Plusieurs facteurs, facteurs croiss et hierarchiss0.3.3 Test d'inhomognit des variances

    0.4 Analyse de la covariance