of 50/50
M1 IMAT, Année 2009-2010 MODELES LINEAIRES C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

MODELES LINEAIRES

  • View
    232

  • Download
    1

Embed Size (px)

Text of MODELES LINEAIRES

  • M1 IMAT, Anne 2009-2010

    MODELES LINEAIRES

    C.ChouquetLaboratoire de Statistique et Probabilits - Universit Paul Sabatier - Toulouse

  • Table des matires

    1 Prambule 1

    1.1 Dmarche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Un exemple introductif pour la modlisation linaire dune variable quantitative . . 2

    1.2.1 Description de la population dtude . . . . . . . . . . . . . . . . . . . . . . 21.2.2 Relation entre variables quantitatives . . . . . . . . . . . . . . . . . . . . . . 31.2.3 Relation entre variable quantitative et variables qualitatives . . . . . . . . . 41.2.4 Modlisation dune variable quantitative en fonction de variables quantita-

    tives et qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2 Prsentation du modle linaire gaussien 6

    2.1 Le modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Le modle linaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2.1 Ecriture gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2.2 Le modle de rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.3 Le modle factoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    3 Estimation 9

    3.1 Mthodes destimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.1.1 Principe des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . 93.1.2 Principe du Maximum de Vraisemblance . . . . . . . . . . . . . . . . . . . . 9

    3.2 Estimation de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Valeurs ajustes et rsidus calculs . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4 Estimation de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.5 Erreurs standard de j , yi, ei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.6 Construction de lintervalle de confiance de j . . . . . . . . . . . . . . . . . . . . . 123.7 Dcomposition de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    4 Test de Fisher 13

    4.1 Hypothse teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.1.2 Calculs sous H0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    4.2 Le test de Fisher-Sndcor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2.2 La statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2.3 Fonctionnement du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    4.3 Cas particulier o q=1 : le test de Student . . . . . . . . . . . . . . . . . . . . . . . 15

    5 La Rgression linaire 16

    5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165.1.1 La problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165.1.2 Le modle de rgression linaire simple . . . . . . . . . . . . . . . . . . . . . 165.1.3 Le modle de rgression linaire multiple . . . . . . . . . . . . . . . . . . . . 17

    5.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    1

  • IUP SID L3 - Modles linaires 2

    5.2.1 Rsultats gnraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175.2.2 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185.2.3 Le coefficient R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185.2.4 Augmentation mcanique du R2 . . . . . . . . . . . . . . . . . . . . . . . . 19

    5.3 Tests et Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205.3.1 Test de nullit dun paramtre du modle . . . . . . . . . . . . . . . . . . . 205.3.2 Test de nullit de quelques paramtres du modle . . . . . . . . . . . . . . . 205.3.3 Test de nullit de tous les paramtres du modle . . . . . . . . . . . . . . . 205.3.4 Intervalle de confiance de j , de Y i et de Y 0 . . . . . . . . . . . . . . . . . . 215.3.5 Intervalle de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    5.4 Slection des variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.4.1 Les critres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.4.2 Les mthodes de slection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    5.5 Validation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235.5.1 Contrle de lajustement du modle . . . . . . . . . . . . . . . . . . . . . . 235.5.2 Etude des colinarits des variables explicatives . . . . . . . . . . . . . . . . 24

    6 Lanalyse de variance 26

    6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.2 Lanalyse de variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    6.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.2.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.2.3 Paramtrage centr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276.2.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276.2.5 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286.2.6 Intervalles de confiance et tests dhypothses sur leffet facteur . . . . . . . 296.2.7 Comparaisons multiples : Mthode de Bonferroni . . . . . . . . . . . . . . . 29

    6.3 Analyse de variance deux facteurs croiss . . . . . . . . . . . . . . . . . . . . . . 306.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306.3.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306.3.3 La paramtrisation centre . . . . . . . . . . . . . . . . . . . . . . . . . . . 316.3.4 Estimations des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . 316.3.5 Le diagramme dinteractions . . . . . . . . . . . . . . . . . . . . . . . . . . . 326.3.6 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326.3.7 Tableau danalyse de la variance deux facteurs croiss dans le cas dun

    plan quilibr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    7 Analyse de covariance 35

    7.1 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357.3 La seconde paramtrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357.4 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    8 Quelques rappels de Statistique et de Probabilits 38

    8.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388.2 Indicateurs statistiques pour variables quantitatives . . . . . . . . . . . . . . . . . . 39

    8.2.1 Moyenne empirique dune variable . . . . . . . . . . . . . . . . . . . . . . . 398.2.2 La covariance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398.2.3 Variance empirique et cart-type empirique . . . . . . . . . . . . . . . . . . 408.2.4 Cfficient de corrlation linaire empirique . . . . . . . . . . . . . . . . . . 408.2.5 Interprtation gomtrique de quelques indices statistiques . . . . . . . . . . 408.2.6 Expressions matricielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    8.3 Rappels sur quelques lois de probabilit . . . . . . . . . . . . . . . . . . . . . . . . 428.3.1 La distribution Normale N(, 2) . . . . . . . . . . . . . . . . . . . . . . . . 42

  • IUP SID L3 - Modles linaires 3

    8.3.2 La distribution n-Normale Nn(,) . . . . . . . . . . . . . . . . . . . . . . . 428.3.3 La distribution de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438.3.4 La distribution de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438.3.5 La distribution de Fisher-Sndcor . . . . . . . . . . . . . . . . . . . . . . . 44

    8.4 Rappels de statistique infrentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 448.4.1 Estimation ponctuelle, estimation par intervalle de confiance . . . . . . . . . 448.4.2 Notions gnrales sur la thorie des tests paramtriques . . . . . . . . . . . 44

  • Chapitre 1

    Prambule

    1.1 Dmarche statistique

    Population tudie

    Nombre dindividus,variables observes

    quantitatives/qualitatives

    Analyse univarie

    Tableau de frquences,moyenne, cart-type, mdiane,

    diagramme en btons,histogramme, box-plot

    Analyse bivarie

    Tableau crois, 2,comparaison de moyennes,coefficient de corrlation,

    nuage de points

    Analyse multivarie

    uukkkk

    kkkk

    kkkk

    kkkk

    kkk

    ))RRR

    RRRR

    RRRR

    RRRR

    RRRR

    RRRR

    RR

    Synthtiser linformationissue de plusieurs variables

    pour mieux lexpliquer

    Structurer et simplifier les donnesissues de plusieurs variables,

    sans privilgier lune dentre ellesen particulier

    Expliquer une variable laidede plusieurs autres variables

    uullll

    llll

    llll

    llll

    llll

    lll

    Une variable expliquerquantitative

    Une variable expliquerqualitative

    Analyse de DonnesMultidimensionnelle(ACP, AFC, ACM)

    ModlisationLinaire :

    Rgression Linaire simpleRgression Linaire multiple

    Analyse de varianceAnalyse de covariance

    Modlisationnon-linaire

    (logistique, ...)

    1

  • IUP SID L3 - Modles linaires 2

    1.2 Un exemple introductif pour la modlisation linaire dune

    variable quantitative

    Pour illustrer la dmarche statistique et les problmatiques auxquelles peuvent rpondre les mo-dles linaires, nous prsentons dans cette partie un exemple simple, mais complet dune analysestatistique. Cette feuille de bord, constitue de tableaux et de graphiques, a pour objectif derappeler les principaux outils de statistique descriptive simple et dintroduire les diffrents typesde modles linaires que nous verrons dans cet enseignement.

    Dans une entreprise, on a relev les salaires des 32 employs (mensuel en euros, not sal), ainsique certaines caractristiques socio-dmographiques telles que lanciennet dans lentreprise (enannes, note anc), le nombre dannes dtudes aprs le bac (not apbac), le sexe (1 = F/2 = M ,not sex), le type demplois occups (en 3 catgories codes de 1 3, not emp). Un extrait desdonnes est prsent ci-dessous :

    num anc sal sex apbac emp

    1 7 1231 1 3 2

    2 15 1550 1 3 2

    ... ... ... ... ... ...

    33 12 1539 2 2 1

    34 13 1587 2 2 2

    Lobjectif principal de cette tude est dvaluer leffet ventuel des caractristiques socio-dmographiques sur le salaire des employs.

    1.2.1 Description de la population dtude

    Les variables sont analyses diffremment selon leur nature : quantitative ou qualitative. Lesvariables quantitatives sont rsumes sous forme dindicateurs (moyenne, cart-type, ....), commedans le tableau ci-dessous, et sont prsentes graphiquement sous forme dhistogramme et debotes moustache ou box-plot (Figure 1).

    Variable n Moyenne Ecart-type Mdiane Minimum Maximum

    Anciennet 32 10.0 6.1 12 1.0 20.0Salaire 32 1365.4 308.0 1357 926.0 2024.0Nombre dannes dtudes 32 2.3 1.5 2.0 0.0 5.0

    Fig. 1.1 Box-plot et histogramme reprsentant la distribution des variables quantitatives : lesalaire, lanciennet dans lentreprise et le nombre dannes dtudes aprs le bac

  • IUP SID L3 - Modles linaires 3

    Pour les variables qualitatives, on rsume les donnes sous forme de tableau de frquences (commeci-dessous) et on les prsente graphiquement par des diagrammes en btons (Figure 2).

    Variable Modalits Effectif Frquence(%)

    Sexe Fminin (1) 21 65.6%Masculin (2) 11 34.4%

    Type demplois 1 10 31.3%2 17 53.1%3 5 15.6%

    Fig. 1.2 Diagramme en btons reprsentant la distribution des variables qualitatives : le sexe(1=F, 2=M) et le type demplois occups (1, 2 ou 3)

    1.2.2 Relation entre variables quantitatives

    Etant donn lobjectif de ltude, nous allons nous intresser dans cette partie aux relations entrele salaire et les autres variables renseignes. L encore, selon la nature des variables, les mthodesdanalyse sont diffrentes.

    Pour tudier la relation entre deux variables quantitatives (par exemple, entre le salaire etlanciennet, et entre le salaire et le nombre danne dtudes), on peut tracer un nuage de points(Figure 3) et calculer le cfficient de corrlation linaire entre ces deux variables :

    Pearson Correlation Coefficients, N = 32

    Prob > |r| under H0: Rho=0

    anc apbac

    sal 0.85559 0.42206

  • IUP SID L3 - Modles linaires 4

    Le nuage de points peut tre rsum par une droite que lon appellera la droite de rgressionlinaire simple. Cest le cas le plus simple de modle linaire, qui permet dexpliquer une variablequantitative en fonction dune autre variable quantitative. Par exemple, la droite de rgressionlinaire rsumant la relation entre le salaire et lanciennet a pour quation :

    sali = 934.5 constante lorigine

    + 42.9pente du salaire sur lanciennet

    anci + ei

    La constante lorigine correspond au salaire moyen des employs au moment de lentre danslentreprise. La pente reprsente la variation moyenne de salaire par anne danciennet. La pentegale 42.9 est significativement diffrente de 0, montrant que le salaire et lanciennet sont lis defaon significative. Il en est de mme pour la rgression linaire du salaire sur le nombre dannedtudes. Dans cet enseignement, on verra comment estimer les paramtres du modle et testerleur nullit.

    Il peut tre galement intressant de modliser une variable en fonction de plusieurs autresvariables, par un modle de rgression linaire multiple. Par exemple, on peut modliserle salaire en fonction de lanciennet et du nombre dannes dtudes, ce qui donne lquationsuivante :

    sali = 858.9 + 40.2 anci + 45.3 apbaci + ei

    1.2.3 Relation entre variable quantitative et variables qualitatives

    Il est possible dtudier la relation entre une variable quantitative et une variable qualitative,par exemple entre le salaire et le sexe, ou entre le salaire et le type demplois. Cette relation estreprsente graphiquement par des box-plots parallles (Figure 4).

    Fig. 1.4 Box-plots parallles reprsentant la relation entre le salaire et les deux variablesqualitatives : le sexe (1=F, 2=M) et le type demplois occups (1, 2 ou 3)

    Intuitivement, pour comparer le salaire des hommes et celui des femmes, on va calculer le salairemoyen -entre autre- pour chaque groupe. De la mme faon pour tudier les diffrences ventuellesentre les trois types demplois au niveau du salaire, on peut calculer le salaire moyen pour chaquetype demplois.Statistiquement, on modlise le salaire en fonction du sexe en mettant en uvre un modledanalyse de variance un facteur qui scrit sous la forme :

    sali = 1315.7 salaire moyen des femmes

    11sexei=1 + 1460.3 salaire moyen des hommes

    11sexei=2 + ei

    Il est galement possible dtudier leffet conjoint du sexe et du type demplois sur le salaire.Intuitivement, on peut tudier les moyennes par classe, en croisant les deux variables qualitatives,

  • IUP SID L3 - Modles linaires 5

    comme dans le tableau ci-dessous :

    Sexe F M Tous sexes confondus

    Type demplois 1 1182.3 1111.2 1153.92 1312.8 1750.4 1441.53 1593.7 1433.0 1529.4

    Tous types confondus 1315.7 1460.3

    Pour tudier leffet combin du sexe et du type demplois sur le salaire, on met en uvreun modle danalyse de variance deux facteurs croiss. Ce modle nous permettradtudier leffet de chaque facteur (sexe et type demplois) sur le salaire, mais aussi de dtecterdes combinaisons entre le sexe et le type demplois qui donneraient un salaire particulirementdiffrent des autres classes.

    1.2.4 Modlisation dune variable quantitative en fonction de variables quan-

    titatives et qualitatives

    Sur notre exemple, on peut tenter dexpliquer le salaire selon lanciennet (variable quantitative)et le sexe (variable qualitative). Dans ce cas, on peut reprsenter deux nuages de points entrele salaire et lanciennet, lun pour les femmes et lautre pour les hommes, comme le montre lafigure 5.

    Fig. 1.5 Nuages de points reprsentant la relation entre le salaire et lanciennet selon le sexe

    On peut ainsi comparer leffet de lanciennet sur le salaire, selon le sexe. Cela nous amne mettre en uvre un modle danalyse de la covariance permettant de modliser le salaire enfonction de lanciennet et du sexe.

  • Chapitre 2

    Prsentation du modle linaire

    gaussien

    2.1 Le modle linaire

    Dfinition :On appelle modle linaire un modle statistique qui peut scrire sous la forme

    Y =k

    j=1

    jXj + E

    On dfinit les quantits qui interviennent dans ce modle : Y est une v.a.r. que lon observe et que lon souhaite expliquer et/ou prdire ; on lappelle

    variable expliquer ou variable rponse ; on suppose que la variance de Y est constante :cest ce quon appelle lhypothse dhomoscdasticit.

    Les k variables X1, ...,Xk sont des variables relles ou dichotomiques, non alatoires etgalement observes ; lcriture de ce modle suppose que lensemble des Xj est censexpliquer Y par une relation de cause effet ; les variables Xj sont appeles variablesexplicatives ou prdicteurs.

    Les j (j = 1, ..., k) sont les paramtres du modle, non observs et donc estimer par destechniques statistiques appropries.

    E est le terme derreur dans le modle ; cest une v.a.r. non observe pour laquelle on poseles hypothses suivantes :

    E(E) = 0 ; V ar(E) = 2 > 0

    o 2 est un paramtre inconnu, estimer. Les hypothses poses sur E impliquent les caractristiques suivantes sur Y :

    E(Y ) =k

    j=1

    jXj ; V ar(Y ) = 2

    En moyenne, Y scrit donc comme une combinaison linaire des Xj : la liaison entre les Xj

    et Y est de nature linaire. Cest la raison pour laquelle ce modle est appel modle linaire.

    Lestimation des paramtres de ce modle est base sur n observations simultanes des variablesXj et Y ralises sur n individus supposs indpendants. Pour la i-me observation, les valeursobserves des variables sont notes yi, x

    1i , ..., x

    ki , de sorte que le modle scrit :

    yi =k

    j=1

    jxji + ei

    6

  • IUP SID L3 - Modles linaires 7

    Introduisons maintenant : y le vecteur de IRn compos des valeurs y1, ...yn, X la matrice (n,k) de rang k, contenant les valeurs observes des k variables explicatives

    disposes en colonnes, le vecteur de IRk contenant les k paramtres du modle, e le vecteur de IRn des erreurs du modle.

    On peut donc crire le modle sous forme matricielle :

    y = X + e

    Selon la forme de la matrice X, on est dans le cas de la rgression linaire (X est alors composede la variable constante 1 et des p variables explicatives) ou dans le cas du modle factoriel (Xest compose des variables indicatrices associes aux niveaux du (ou des) facteur(s)).

    2.2 Le modle linaire gaussien

    On reprend la dfinition prcdente du modle linaire en ajoutant une hypothse de normalitdes rsidus. Lide sous-jacente rside dans le fait quil existe une vraie valeur inconnue . Quandon ralise une srie dexpriences, on obtient, comme pour les moyennes, les proportions ou lesrpartitions, une estimation , cest--dire une valeur approche de la vraie valeur . Cette esti-mation de est diffrente selon les chantillons obtenus. Daprs le Thorme Centrale Limite,cette estimation tend en moyenne vers la vraie valeur de . est donc une variable alatoire donton va chercher la distribution. Une fois pose la distribution de , la question est de savoir silapproximation obtenue est bonne ? Peut-on dterminer un intervalle du type [j j ; j + j ]qui contienne trs probablement (avec un risque derreur petit) la vraie valeur j ?

    Lhypothse de normalit des rsidus revient poser que les n composantes e1, ..., en du vecteur esont des observations indpendantes dune variable alatoire E distribue selon une loi N(0, 2),avec 2 inconnu.

    2.2.1 Ecriture gnrale

    On appelle modle linaire gaussien la donne dun vecteur y de IRn tel que :

    y = X + e o X est une matrice (n, k) de rang k,

    est un vecteur inconnu de IRk,e est un vecteur de n ralisations indpendantes dune v.a.

    normale de moyenne 0 et de variance 2 inconnue.

    Cette nouvelle formulation du modle linaire a pour consquences : e est une ralisation dune variable alatoire E de distribution Nn(0,

    2In) ; on peut direaussi que ei est une observation de la v.a. Ei distribue selon une loi N(0,

    2) et les n v.a.relles Ei sont indpendantes.

    y est une observation de Y = X + E de distribution Nn(X, 2In) : yi est lobservation

    de Yi de distribution N((X)i, 2) et ces n variables alatoires sont indpendantes.

    En faisant intervenir les v.a. Y et E, le modle linaire gaussien peut aussi scrire sous la forme :

    Y = X + E avec E Nn(0, 2In) o Y IRn,X M(n,k), connue, dterministe, de rang k, IRk, inconnu,2 IR+, inconnue.

  • IUP SID L3 - Modles linaires 8

    Il en dcoule la normalit de Y :Y Nn(X, 2In)

    Lhypothse de normalit des rsidus peut se justifier :

    1. par un argument thorique : les rsidus sont caractrisables comme des erreurs de mesure.Ceux sont une accumulation de petits alas non-matrisables et indpendants. Par exemple,la mesure du poids dun animal peut tre soumise des fluctuations dues des erreurs demesure la pese, ltat de sant de lanimal, son bagage gntique, leffet individuel delanimal prendre plus ou moins du poids. Daprs le Thorme Central Limite, si tous ceseffets sont indpendants de mme moyenne nulle et de mme petite variance, leur sommetend vers une variable Normale. La distribution gaussienne modlise assez bien toutes lessituations o le hasard est la rsultante de plusieurs causes indpendantes les unes desautres ; les erreurs de mesure suivent gnralement assez bien la loi gaussienne.

    2. par un argument pratique : il est facile de contrler si une variable alatoire suit une loiNormale. En tudiant a posteriori la distribution des rsidus calculs et en la comparant la distribution thorique (Normale), on constate souvent quelle peut tre considre commesapprochant de la loi gaussienne.

    2.2.2 Le modle de rgression linaire

    On cherche modliser une variable quantitative Y en fonction de variables explicatives quanti-tatives x1, x2, ..., xp. Sous lhypothse gaussienne, le modle de rgression linaire scrit :

    yi = 0 + 1x1i + ...+ px

    pi + ei

    avec 0, 1, ..., p inconnus, et e1, ..., en n observations indpendantes dune loi N(0, 2) avec 2

    inconnue.

    2.2.3 Le modle factoriel

    On cherche modliser une variable quantitative Y en fonction dune (ou de plusieurs) variable(s)explicative(s) qualitative(s) (appele facteur). Sous lhypothse gaussienne, le modle un facteurscrit :

    yij = i + eij i = 1, ...I ; j = 1, ..., ni

    avec 1, ..., I inconnus, et e11, ..., eInI n observations indpendantes dune loi N(0, 2) avec 2

    inconnue.

  • Chapitre 3

    Estimation

    est le vecteur des paramtres estimer. Dans le cas gnral que nous tudions dans ce chapitre, est un vecteurs k composantes : 1, 2, ..., k. On note :Y la variable alatoire expliquer,y une ralisation de cette v.a. Y , la vraie valeur thorique du vecteur des paramtres du modle, lestimateur de ,(y) une ralisation de la v.a. (ou une estimation de partir des donnes observes).

    3.1 Mthodes destimation

    3.1.1 Principe des moindres carrs

    La mthode des moindres carrs consiste estimer en minimisant la somme des carrs desrsidus (SSR), telle que

    ((y)) = min

    n

    i=1

    (ei)2 = min

    n

    i=1

    (yi yi)2

    Le critre des moindres carrs peut scrire aussi de la faon suivante :

    ||e||2 = ||y X||2 = InfIRk

    ||y X||2

    Cette mthode destimation ne ncessite pas que lon pose lhypothse de normalit des rsidus.

    3.1.2 Principe du Maximum de Vraisemblance

    Lestimation par maximum de vraisemblance est base sur la vraisemblance du modle linairegaussien :

    L(; y) =n

    i=1

    f(yi; )

    o f(yi; ) est la densit de la loi Normale sur Y .

    Pour obtenir lestimateur du maximum de vraisemblance, on maximise sa log-vraisemblanceselon en rsolvant le systme dquations du maximum de vraisemblance :

    jln L(1, ..., k; y) = 0 pour j = 1, ..., k.

    dont (y) est solution, sous rserve que la condition de seconde ordre soit vrifie. On pourragalement obtenir lestimateur du MV de 2 en maximisant la log-vraisemblance selon 2.

    Remarque : Les estimateurs du Maximum de Vraisemblance de sont quivalents aux estimateursdes Moindres Carrs de . On pourra le montrer dans le cas de la rgression linaire. En revanche,certaines proprits ne sont possibles que sous lhypothse de normalit des rsidus.

    9

  • IUP SID L3 - Modles linaires 10

    3.2 Estimation de

    Si y est la ralisation de Y , lestimation de , (y), est lunique lment de IRk tel que

    X(y) = y.

    On a donc

    (y) = (X X)1X y

    (y) est lobservation de la v.a. = (X X)1X Y : est la transforme de Y par la.l. (X X)1X .

    Proprits

    est un estimateur sans biais de .

    a pour matrice de variance-covariance b = 2(X X)1.

    suit une loi Gaussienne dans IRk.

    On peut donc crire que : Nk(;2(X X)1)

    3.3 Valeurs ajustes et rsidus calculs

    Les yi sappellent les valeurs ajustes ou valeurs prdites par le modle : yi est une valeur appro-che de yi. On estime galement les rsidus ei.

    y = X(X X)1X ye = y y

    y = X(y) est le vecteur des valeurs ajustes.y est lobservation de la v.a. Y = X(X X)1X

    H

    Y avec Y Nn(X;2H).

    H = X(X X)1X est appele la matrice chapeau ou Hat Matrix.

    e = y y est le vecteur des rsidus calculs.e est lobservation de la variable alatoire E = Y Y = (In H)Y avec E Nn(0;2(In H)).

    Proprits : Y et E sont deux v.a. indpendantes ; E et sont deux v.a. indpendantes.

    3.4 Estimation de 2

    On note :2 la vraie valeur thorique de la variance des rsidus,

    2 lestimateur de 2,

    et 2(y) la ralisation de la v.a. 2 (ou une estimation de 2 partir des donnes observes).

    Dfinition

    2 est la variance thorique des rsidus, on lappelle variance rsiduelle. Une autre dfinition de2 est donne par la variance de Y pour X fix, cest--dire la variance de Y autour de la droitede rgression thorique. Cette dfinition de 2 suggre que son estimation est calcule partir

  • IUP SID L3 - Modles linaires 11

    des carts entre les valeurs observes y et les valeurs ajustes y.Lestimateur de 2 est :

    2 =1

    n k ||E||2 =

    1

    n k ||Y Y ||2

    Lestimation de 2 est donc

    2(y) =1

    n k ||e||2 =

    1

    n k ||y y||2 =

    ||y||2 ||y||2n k

    Le dnominateur (n k) provient du fait que lon a estim k paramtres dans le modle.

    Rappelons que : ||y||2 =n

    i=1

    y2i et que ||y||2 = (y)(X y).

    Proprits

    (n k)2

    2 2nk (Somme des carrs de n v.a. N(0, 1) qui vrifient k relations linaires).

    2 est un estimateur sans biais de 2 et de variance 24

    n k .

    Y et 2 sont deux v.a. indpendantes ; et 2 sont deux v.a. indpendantes.

    3.5 Erreurs standard de j, yi, ei

    La matrice de variance-covariance de note b = 2(X X)1 est estime par :

    b = 2(X X)1.

    V ar(j) est donc estime par 2(XX)1jj .

    Lerreur standard de j(y) note sej est donc :

    sej =

    2(y)(X X)1jj

    Remarque : Lestimation de la matrice de variance-covariance 2(y)(X X)1 est note cov b parSAS.

    La matrice des corrlations de (y) a pour lment j,j :

    r(j(y), j(y)) =2(y)(X X)1jj

    sej sej=

    (X X)1jj(X X)1jj (X

    X)1jj

    Remarque : Lestimation de la matrice des corrlations de est note cor b par SAS.

    V ar(Y ) = 2H est estime par 2(y)H.2(y)Hii est lerreur standard de yi.

    2(y)(1 Hii) est lerreur standard de ei.ei2(y)

    est le rsidu standardis.

    ei2(y)(1 Hii)

    est le rsidu studentis.

  • IUP SID L3 - Modles linaires 12

    3.6 Construction de lintervalle de confiance de j

    Selon les proprits de , on a crit que : Nk(;2(X X)1) soit j N(j;2(X X)1jj )

    La v.a.j j2(X X)1jj

    est distribue selon une loi N(0; 1) et la v.a.(n k)2

    2est distribue selon

    une loi 2nk.Ces deux v.a. tant indpendantes, on peut crire que :

    T =j j2(X X)1jj

    /

    (n k)2(n k)2 =

    j j2(X X)1jj

    Student(n k)

    Si on note t(12) est le (1 2 )-quantile de la distribution de Student(n k), lintervalle de

    confiance de j de scurit 1 est dfini par :

    IC1(j) =

    [j(y) t(1

    2)

    2(y)(X X)1jj

    ]=[j(y) t(1

    2)sej

    ]

    3.7 Dcomposition de la variance

    La mise en uvre dun modle linaire a pour objectif dexpliquer la variabilit dune variable ypar dautres variables.

    On note :

    SST =

    n

    i=1

    (yi y)2 = n.V ar(y) la variabilit totale de y,

    SSL =n

    i=1

    (yi y)2 = n.V ar(y) la variabilit de y explique par le modle, cest--dire par

    les prdicteurs,

    SSR =

    n

    i=1

    (ei)2 = n.V ar(e) la variabilit rsiduelle non explique par le modle.

    La variance totale de y admet la dcomposition :

    V ar(y) = V ar(y) + V ar(e)

    soit :SST = SSL+ SSR

    On verra par la suite que selon le modle tudi (rgression linaire ou analyse de variance), cettedcomposition amne des dfinitions spcifiques chaque modle.

    Daprs le critre des moindres carrs utilis pour estimer les paramtres, on cherche minimiserla Somme des Carrs des rsidus SSR, et donc maximimser la Somme des Carrs explique parle modle SSL.

    Pour juger de la qualit dajustement du modle aux donnes, on dfinit le critre R2 qui reprsentela part de variance de y explique par le modle :

    R2 = SSL/SST = V ar(y)/V ar(y)

  • Chapitre 4

    Test de Fisher

    4.1 Hypothse teste

    4.1.1 Principe

    On considre un modle linaire gaussien

    Y = X + E avec E Nn(0, 2In)

    et on sintresse examiner la nullit de certaines composantes de ou de certaines combinaisonslinaires des composantes de , telles que : j = 0 ; j = k = 0 ou j = k. Ces hypothsesreposent sur la notion de modles embots : deux modles sont dits embots si lun peut treconsidr comme un cas particulier de lautre. Cela revient comparer un modle de rfrence un modle rduit ou contraint.

    Pour spcifier la nullit de certaines composantes de , on introduit la matrice Q dordre (q, k) ok est le nombre de paramtres dans le modle de rfrence et q le nombre de contraintes linairestestes (1 6 q 6 k) telle que :

    H0 : Q M(q,k) | Q = 0Par exemple, supposons un modle k = 3 paramtres

    Tester lhypothse H0 : 2 = 0 revient poser Q = 0 avec Q = (0 0 1), q = 1. H0 : 1 = 2 Q = 0 avec Q = (0 1 1) ou Q = (0 1 1), q = 1. H0 : 1 = 2 = 0 Q = 0 avec Q =

    (0 1 00 0 1

    ), q = 2.

    4.1.2 Calculs sous H0

    Lhypothse nulle tant dfinie, on a donc pos un modle contraint que lon va estimer en sup-posant H0 vraie.

    On a not lestimateur de correspondant au modle de rfrence. On note 0 lestimateur de sous H0, pour le modle contraint. On peut obtenir, sous H0, les valeurs prdites y0 et les rsidusestims e0. Le test de Fisher consiste comparer les estimations du modle de rfrence et cellessous H0.

    4.2 Le test de Fisher-Sndcor

    4.2.1 Principe

    Le test de Fisher-Sndcor ou test de Fisher est la rgle de dcision qui permet de dcider si onrejette ou ne rejette pas H0 : Q = 0 :

    13

  • IUP SID L3 - Modles linaires 14

    Rejeter H0, cest dcider que Q 6= 0, cest--dire que certaines composantes de Q ne sontpas nulles.

    Ne pas rejeter H0, cest ne pas exclure que toutes les composantes de Q sont nulles.

    On suppose que H0 est vraie, cest--dire que Q = 0. On r-estime par 0 caractrisant lemodle contraint (not M0). Le vecteur des valeurs ajustes est y0 et le vecteur des rsidus este0 = y y0.

    4.2.2 La statistique de test

    On utilise la statistique de test suivante :

    Fcal =(||e0||2 ||e||2)/q||e||2/(n k)

    Le numrateur reprsente lerreur commise en supposant H0 vraie, sachant que de faon vidente :||e0||2 > ||e||2. Fcal est donc lerreur relative due H0. Si Fcal est grand, on peut rejeter H0.Une notation usuelle pour la somme des carrs des rsidus est SSR. Dans ce cas, on dfinit :

    SSR0 = ||e0||2 et SSR1 = ||e||2

    do lexpression de Fcal :

    Fcal =SSR0 SSR1

    SSR1 (n k)

    q F (q, n k)

    On peut galement montrer que

    Fcal =(||y||2 ||y0||2)/q

    2(y)

    On peut crire la statistique du test de Fisher-Sndcor sous une autre forme :

    Fcal =Q(Q(X X)1Q)1Q

    q 2 F (q, n k)

    permettant de tester H0 :Q = 0 contre H1 :Q 6= 0. Cette expression a lavantage de ne pasncessiter lestimation du modle contraint.

    4.2.3 Fonctionnement du test

    Il faut dfinir une valeur limite F1 au dessus de laquelle Fcal sera considr comme grand. Dansce cas, la limite F1 est le (1 )-quantile de la distribution de Fisher de degrs de libert q etn k :

    P [v.a. de Fisher < F1] = 1 P [v.a. de Fisher > F1] =

    | || |0 Limite F1 Fcal

    Zone de non-rejet de H0

    Zone de rejet de H0

    Le risque de premire espce du test de Fisher cest--dire la probabilit de rejeter H0 alors queH0 est vraie, vaut :

    P [Rejeter H0 | H0 vraie] = En effet, on a montr que Fcal est distribu selon une loi F (q, nk) donc selon la rgle de dcision,la probabilit de rejeter H0 est la probabilit que Fcal > F1 si Fcal F (q, n k).

  • IUP SID L3 - Modles linaires 15

    La ralit (la vrit)H0 vraie H0 fausse

    H0 non rejete Bonne dcision Mauvaise dcisionDcision (risque de 2me espce)

    H0 rejete Mauvaise dcision Bonne dcision(risque de 1re espce)

    4.3 Cas particulier o q=1 : le test de Student

    Dans le cas particulier o lon teste la nullit dune seule combinaison linaire des composantesde (q=1), la matrice Q est dordre (1, k) et lhypothse nulle scrit :

    H0 : c = 0 = 0avec Q = c

    .On a donc Q(X X)1Q = c(X X)1c = l(c) (cf 2.6.2)

    Fcal =(y)2

    2(y)l(c) F (1, n k)

    Or une proprit de la distribution de la loi de Fisher-Sndcor est quune distribution de Fisher-Sndcor 1 et m2 degrs de libert est le carr dune distribution de Student m2 degrs delibert (cf 1.3.5) :

    P [F (1, n k) > F1] = = P [(T (n k))2 > F1] F1 = t21/2

    On rejette H0 si Fcal > F1

    |(y)| > t1/22(y)l(c)

    t1/22(y)l(c) < (y) < +t1/2

    2(y)l(c).

    Or lintervalle de confiance de (dfini au 2.6.3) est

    [(y) t1/22(y)l(c)]

    Le test consiste donc rejeter H0 ssi 0 nappartient lintervalle de confiance de .

  • Chapitre 5

    La Rgression linaire

    5.1 Introduction

    5.1.1 La problmatique

    La rgression est un des mthodes les plus connues et les plus appliques en statistique pourlanalyse de donnes quantitatives. Elle est utilise pour tablir une liaison entre une variablequantitative et une ou plusieurs autres variables quantitatives, sous la forme dun modle. Si onsintresse la relation entre deux variables, on parlera de rgression simple en exprimant unevariable en fonction de lautre. Si la relation porte entre une variable et plusieurs autres variables,on parlera de rgression multiple. La mise en uvre dune rgression impose lexistence dunerelation de cause effet entre les variables prises en compte dans le modle.

    Cette mthode peut tre mise en place sur des donnes quantitatives observes sur n individus etprsentes sous la forme :

    une variable quantitative y prenant la valeur yi pour lindividu i {i = 1, ...n}, appelevariable expliquer ou variable rponse,

    p variables quantitatives x1, x2, ..., xp prenant respectivement les valeurs x1i , x2i , ...xpi pour

    lindividu i, appeles variables explicatives ou prdicteurs ; si p = 1, on est dans le casde la rgression simple ; lorsque les valeurs prises par une variable explicative sont choisiespar lexprimentateur, on dit que la variable explicative est contrle.

    Considrons un couple de variables quantitatives (X,Y ). Sil existe une liaison entre ces deuxvariables, la connaissance de la valeur prise par X change notre incertitude concernant laralisation de Y . Si lon admet quil existe une relation de cause effet entre X et Y , le phnomnealatoire reprsent par X peut donc servir prdire celui reprsent par Y et la liaison scritsous la forme y = f(x). On dit que lon fait de la rgression de y sur x.Dans le cas dune rgression multiple de y sur x1, x2, ..., xp, la liaison scrit y = f(x1, x2, ..., xp).

    Dans les cas les plus frquents, on choisit lensemble des fonctions affines (du type f(x) = ax+ bou f(x1, x2, ...xp) = a0 + a1x

    1 + a2x2 + ...+ apx

    p) et on parle alors de rgression linaire.

    5.1.2 Le modle de rgression linaire simple

    Soit un chantillon de n individus. Pour un individu i (i = 1, ...n), on a observ yi la valeur de la variable quantitative y, xi la valeur de la variable quantitative x.

    On veut tudier la relation entre ces deux variables, et en particulier, leffet de x (variableexplicative) sur y (variable rponse). Dans un premier temps, on peut reprsenter graphiquementcette relation en tracant le nuage des n points de coordonnes (xi, yi). Dans le cas o le nuage depoints est de forme linaire, on cherchera ajuster ce nuage de points par une droite.

    16

  • IUP SID L3 - Modles linaires 17

    La relation entre yi et xi scrit alors sous la forme dun modle de rgression linaire simple :

    yi = 0 + 1xi + ei i = {1, ..., n} (5.1)

    o ei est une ralisation de Ei N(0, 2), et les n v.a. Ei sont indpendantes.La premire partie du modle 0 + 1xi reprsente la moyenne de yi sachant xi, et la secondepartie ei, la diffrence entre cette moyenne et la valeur observe yi. Le nuage de points est rsumpar la droite dquation y = 0 + 1x.

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    Poids du courrier

    Nom

    bre

    de le

    ttres

    100 150 200 250 300 350 400

    5000

    1000

    0

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    **

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    **

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    **

    *

    *

    *

    *

    *

    *

    *

    1500

    0

    *

    2000

    0

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    **

    *

    *

    *

    **

    *

    *

    *

    *

    *

    *

    *

    **

    *

    *

    *

    *

    *

    *

    droite de rgression de y sur x

    i

    ei

    yi

    yi

    erreur

    xi

    Valeur observe

    Valeur prdite

    Pour un xi donn, correspondent donc yi la valeur observe et 0 + 1xi la valeur prdite par ladroite.

    5.1.3 Le modle de rgression linaire multiple

    On dispose dun chantillon de n individus pour chacun desquels on a observ yi, la valeur de la variable rponse y quantitative, x1i , ..., x

    pi , les valeurs de p autres variables quantitatives x

    1, ...,xp,pour i = {1, ..., n}.On veut expliquer une variable quantitative y par p variables quantitatives x1, ...,xp.Le modle scrit :

    yi = 0 + 1x1i + ...+ px

    pi + ei i = {1, ..., n} (5.2)

    o ei est une ralisation de Ei N(0, 2) et o les n v.a. Ei sont indpendantes.

    5.2 Estimation

    5.2.1 Rsultats gnraux

    Les paramtres du modle de rgression linaire sont estims par :

    (y) = (X X)1X y

  • IUP SID L3 - Modles linaires 18

    Dans le cas de la rgression linaire simple sous la forme yi = 0 + 1xi + ei, on peut estimer 0et 1 en utilisant aussi les formules suivantes :

    0(y) = y 1(y) x 1(y) =cov(x, y)

    var(x)

    On sait que Np+1(, 2(X X)1).

    yi = 0(y) +p

    j=1

    j(y)xji est la valeur ajuste de yi.

    ei = yi yi est le rsidu calcul.

    Une estimation de 2 est :

    2(y) =

    n

    i=1

    (ei)2

    n p 1On dduit les erreurs standard des paramtres estims 0(y), ..., p(y), des valeurs ajustes et desrsidus calculs :

    erreur standard de j(y) : se de j(y) =2(y)(X X)1j+1,j+1

    erreur standard de yi : se de yi =

    2(y)(X(X X)1X )ii =

    2(y)Hii

    erreur standard de ei : se de ei =

    2(y)(1 Hii)

    5.2.2 Proprits

    1. e = 0,

    2. y = y,

    3. La droite de rgression passe par le point de coordonnes (x, y)

    4. Le vecteur des rsidus nest pas corrl avec la variable explicative : cov(x, e) = 0

    5. Le vecteur des rsidus nest pas corrl avec la variable ajuste Y : cov(y, e) = 0

    6. La variance de Y admet la dcomposition :

    var(y) = var(y) + var(e). (5.3)

    7. Le carr du coefficient de corrlation de x et de y scrit sous les formes suivantes :

    r2(x,y) =var(y)

    var(y)= 1 var(e)

    var(y)

    On en dduit que la variance empirique de y se dcompose en somme dune part de varianceexplique (var(y)) et dune variance rsiduelle (var(e)), et que le carr de r(x,y) est le rapportde la variance explique sur la variance de la variable expliquer.

    5.2.3 Le coefficient R2

    On dduit de cette dcomposition que le coefficient R2, dfini comme le carr du coefficient decorrlation de x et y est une mesure de qualit de lajustement, gale au rapport de la varianceeffectivement explique sur la variance expliquer :

    R2 = r2(x,y) =var(y)

    var(y)0 6 R2 6 1

    Le R2 est la proportion de variance explique par la rgression.

  • IUP SID L3 - Modles linaires 19

    Pour calculer le R2, on utilise galement les expressions :

    R2 = 1 var(e)var(y)

    = 1 SSRn var(y)

    La plupart des logiciels nutilise pas la dcomposition (5.3), mais plutt la dcomposition obtenueen multipliant cette expression par n :

    SST = SSL+ SSR

    o :

    SST =n

    i=1

    (yi y)2 est la somme totale des carrs corrigs de y,

    SSL =

    n

    i=1

    (yi y)2 est la somme des carrs explique par le modle,

    SSR =

    n

    i=1

    (ei)2 est la somme des carrs des rsidus.

    La proprit (5) ci-dessus montre que la variance de la variable expliquer (ou totale) sedcompose en somme de la variance explique par le modle (var(y)) et de la variance rsiduelle(var(e)). On note encore R2 le rapport de la variance explique sur la variance totale, soit :

    R2 =var(y)

    var(y)= 1 var(e)

    var(y)

    Dfinition : On appelle coefficient de corrlation multiple de y avec x1, ...,xp, et on noter(y, (x1, ...,xp)) le coefficient de corrlation linaire empirique de y avec y :

    r(y, (x1, ...,xp)) = r(y, y)

    Proprit : Le coefficient R2 de la rgression multiple est gal au carr du coefficient decorrlation linaire empirique r(y, (x1, ...,xp)).

    5.2.4 Augmentation mcanique du R2

    Lorsquon ajoute une variable explicative un modle, la somme des carrs des rsidus diminueou au moins reste stable. En effet, si on considre un modle p 1 variables :

    yi = 0 + 1x1i + . . .+ jx

    ji + . . .+ p1x

    p1i + ei,

    alors les coefficients (0, 1, . . . , j , . . . , p1) estims minimisent

    (0, 1, . . . , j , . . . , p1) =

    n

    i=1

    (yi (0 + 1x1i + . . .+ jxji + . . . + p1x

    p1i )

    )2.

    Si on rajoute une nouvelle variable explicative (la variable xp) au modle, on obtient

    yi = 0 + 1x1i + . . .+ jx

    ji + . . . + p1x

    p1i + px

    pi + ei,

    et les coefficients estims, nots (0, 1, . . . , j , . . . , p1, p) minimisent la fonction :

    (0, 1, . . . , j , . . . , p1, p) =n

    i=1

    (yi (0 + 1x1i + . . .+ jxji + . . .+ p1x

    p1i + px

    pi ))2,

    qui est par construction telle que

    (0, 1, . . . , j , . . . , p1, 0) = (0, 1, . . . , j , . . . , p1).

    Do lingalit :

    (0, 1, . . . , j , . . . , p1, p) 6 (0, 1, . . . , j , . . . , p1, 0) = (0, 1, . . . , j , . . . , p1).

    do le rsultat. On verra par la suite quaugmenter ainsi mcaniquement le R2 nest pasforcment synonyme damlioration de modle.

  • IUP SID L3 - Modles linaires 20

    5.3 Tests et Intervalles de confiance

    5.3.1 Test de nullit dun paramtre du modle

    On tudie leffet de la prsence dune variable explicative Xj dans le modle en testant lhypothsenulle :

    H0 : j = 0

    o j est le paramtre associ la variable explicative Xj .

    Lhypothse H0 de nullit dun paramtre du modle peut tre teste au moyen de lastatistique de Student :

    Tcal =j

    se de j Student(n p 1)

    comparer avec la valeur limite t(np1),(12).

    Si |Tcal| > t(np1),(12) alors on rejette H0.

    Si |Tcal| < t(np1),(12) alors on ne peut pas rejeter H0.

    5.3.2 Test de nullit de quelques paramtres du modle

    Soit un modle de rfrence p variables explicatives. On veut tudier linfluence de q variablesexplicatives (avec q 6 p) sur la variable expliquer. Cela revient tester lhypothse de nullitde q paramtres du modle :

    H0 : 1 = 2 = ... = q = 0 avec q 6 p

    Sous lhypothse alternative, au moins un des paramtres 1, ..., q est non-nul.

    Ce test peut tre formul comme la comparaison de deux modles embots, lun p+1 paramtreset lautre p+ 1 q paramtres :

    yi = 0 + 1x1i + ...+ px

    pi + ei sous H1

    versus yi = 0 + q+1xq+1i + ...+ px

    pi + ei sous H0

    Lhypothse H0 peut tre teste au moyen de la statistique :

    Fcal =SSR0 SSR1

    SSR1 n p 1

    q F (q, n p 1)

    o SSR0 est la somme des carrs des rsidus du modle rduit sous H0 et SSR1 est la sommedes carrs des rsidus du modle de rfrence.

    On compare Fcal la valeur limite F1(q, np1) : si Fcal > F1(q, np1) alors on rejetteH0.

    Remarque : dans le cas o q=1, on teste la nullit dun seul paramtre du modle. Etant laproprit selon laquelle une v.a. distribue selon une loi F (1,m2) est le carr dune v.a. de Student m degrs de libert (cf 1.1.5), le test de Fisher-Sndcor ci-dessus et le test de Student (vu auparagraphe prcdent) donnent les mmes conclusions.

    5.3.3 Test de nullit de tous les paramtres du modle

    Tester lhypothse de nullit de tous les paramtres du modle (associs aux variables explica-tives) :

    H0 : 1 = 2 = ... = p = 0

  • IUP SID L3 - Modles linaires 21

    revient comparer la qualit dajustement du modle de rfrence celle du modle blanc.Cette hypothse compose de p contraintes signifie que les p paramtres associs aux p variablesexplicatives sont nuls, cest--dire quaucune variable explicative prsente dans le modle nepermet dexpliquer Y .Sous H0, le modle scrit :

    yi = 0 + ei avec 0 = y

    et la somme des carrs des rsidus (SSR0) est gale la somme des carrs totale (SST ).

    La statistique de Fisher-Sndcor permettant de tester la nullit des p paramtres du modlepeut donc scrire :

    Fcal =SSL1SSR1

    n p 1p

    =R2

    1 R2 n p 1

    p F (p, n p 1)

    o SSL1 est la somme des carrs du modle de rfrence avec SST = SSL1 +SSR1, et R2 est le

    critre dajustement du modle de rfrence.

    On compare Fcal la valeur limite F1(p, np1) : si Fcal > F1(p, np1) alors on rejetteH0 et on conclut quil existe au moins un paramtre non nul dans le modle.

    5.3.4 Intervalle de confiance de j, de Y i et de Y 0

    Lintervalle de confiance du paramtre j au risque (ou de scurit 1 ) est de la forme :

    IC1(j) =[j(y) tnp1,1/2 se de j(y)

    ]

    On note Y i la rponse moyenne de Yi associe au jeu de valeurs (x1i , x2i , ..., xpi ) des variables

    explicatives : Y i = (X)i = 0 +

    j

    jxji . On lestime par : yi = 0(y) +

    j

    j(y)x

    ji .

    Lintervalle de confiance de Y i au risque est :

    IC1(Yi) =[yi tnp1,1/2 se de yi

    ]

    Pour des valeurs donnes x10, x20, ..., xp0 des variables explicatives, la rponse moyenne est :

    Y 0 = 0 + 1x10 + ...+ px

    p0 = X

    0 o X

    0 = (1 x

    10 x

    20 ... x

    p0)

    Lestimateur de Y 0 est :0 = X

    0

    et la variance de cet estimateur est :

    V ar(Y 0) = V ar(X0) =

    2X 0(XX)1)X0

    Lestimation de Y 0 est y0 = X0(y) do on dduit lintervalle de confiance de Y 0 au risque :

    IC1(Y 0) =

    [y0 tnp1,1/2

    2(y)(X 0(X

    X)1X0)

    ]

  • IUP SID L3 - Modles linaires 22

    5.3.5 Intervalle de prdiction

    Avant toute chose, il est important de comprendre la diffrence entre lintervalle de confiancede Y0 et lintervalle de prdiction. Dans les deux cas, on suppose un jeu de valeurs donnes desvariables explicatives. Dans le premier cas, on veut prdire une rponse moyenne correspondant ces variables explicatives alors que dans le second cas, on cherche prdire une nouvelle valeurindividuelle. Par exemple, si on tudie la liaison entre le poids et lge dun animal, on peutprdire la valeur du poids 20 jours soit comme le poids moyen danimaux 20 jours, soit commele poids 20 jours dun nouvel animal. Pour le nouvel animal, on doit prendre en compte la varia-bilit individuelle, ce qui augmente la variance de lestimateur et donc la largeur de lintervalle.

    La prdiction est nouveau donne par y0 = X0(y). En revanche, la variance de la prdiction

    devient :V ar(Y 0) + V ar(E0) =

    2(1 +X 0(XX)1X0)

    Lintervalle de prdiction de scurit 1 est donn par :[y0 tnp1,1/2

    2(y)(1 +X 0(X

    X)1X0)

    ]

    5.4 Slection des variables explicatives

    En prsence de p variables explicatives dont on ignore celles qui sont rellement influentes, on doitrechercher un modle dexplication de Y la fois performant (rsidus les plus petits possibles) etconomique (le moins possible de variables explicatives).

    5.4.1 Les critres

    Pour obtenir un compromis satisfaisant entre un modle trop simple (grands rsidus) et un modlefaisant intervenir beaucoup de variables (donc trs instable), on dispose de plusieurs critres quine donnent pas ncessairement le mme rsultat :

    choisir, parmi tous les modles, le modle pour lequel 2(y) est minimum ; choisir, parmi tous les modles, celui pour lequel le R2 ajust est maximum avec

    R2adj =(n 1)R2 pn (p + 1)

    o p est le nombre de variables explicatives dans le modle ; choisir le modle pour lequel Cp de Mallows est minimum avec

    Cp =

    (ei)

    2

    2(y)+ 2p n

    choisir le modle pour lequel le critre PRESS (Prediction Sum of Squares) de Allen estminimum :

    PRESS =

    i

    (yi yi)2

    o yi est obtenu de la faon suivante : on retire lobservation i du jeu de donnes, est alors estim par (i), yi est la prdiction de yi daprs cette estimation de .

  • IUP SID L3 - Modles linaires 23

    5.4.2 Les mthodes de slection

    Toutes les mthodes de slection ncessitent la donne dun des critres cits prcdemment quipermet de comparer des modles ayant des nombres de paramtres diffrents. On choisit donc uncritre de qualit optimiser, la variable expliquer y et un ensemble de p variables candidates lexplication de y. Pour k fix, on cherche le groupe de k variables, qui, parmi les p variables,explique le mieux y. Comme la recherche du maximum du R2 sur tous les ensembles de k variablesprises parmi p peut prendre trop longtemps (ils sont au nombre de Ckp ) et peut amener desartfacts (un bon rsultat qui nen est pas un), on utilise souvent des mthodes pas pas, quisont soit ascendantes, descendantes ou stepwise :

    1. Les mthodes ascendantes : On cherche dabord la variable qui explique le mieux y au sensdu R2 (R2 maximum), puis on cherche celle qui, ajoute la premire, augmente le plus leR2, etc. Un critre darrt de la procdure peut-tre obtenu en utilisant des critres du typeR2 ajust, Cp de Mallows ou critre AIC : par exemple, on arrte le processus lorsque le R

    2

    ajust commence dcrotre.

    2. Les mthodes descendantes : On part du modle utilisant les p variables explicatives et oncherche, parmi les p variables, celle qui peut tre supprime en occasionnant la plus fortecroissance du critre. Cette variable tant supprime, on itre le processus tant que le R2

    ajust ne dcrot pas.

    3. Les Mthodes stepwise : Partant dun modle donn, on opre une slection dune nouvellevariable (comme avec une mthode ascendante), puis on cherche si on peut liminer unedes variables du modle (comme pour une mthode descendante) et ainsi de suite. Il fautdfinir pour une telle mthode un critre dentre et un critre de sortie.

    4. On peut citer la mthode des s best subsets (ou s meilleurs sous-ensembles) : on cherchede faon exhaustive parmi les sous-ensembles de s variables, les s meilleurs, au sens ducritre considr.

    5.5 Validation du modle

    5.5.1 Contrle de lajustement du modle

    Une fois le modle mis en uvre, on doit vrifier a posteriori le bien-fond statistique de cemodle du point de vue de la normalit des rsidus et de ladquation de la valeur ajuste yi lavaleur observe yi et de labsence de donnes aberrantes. Pour se faire un ide sur ces questions,on peut tudier :

    1. les rsidus standardiss : ri =ei2(y)

    .

    2. les rsidus studentiss : ti =ei

    se de eidont on compare la rpartition la distribution

    N(0; 1) (tout en tant conscient que les n rsidus ne sont pas indpendants mais lis parp + 1 relations linaires) en tracant le P-P Plot ou le Q-Q Plot (droite de Henry) et encomparant la proportion des rsidus compris entre 1 et +1, entre 2 et +2, entre 2.6et +2.6 respectivement 70%, 95% et 99%. De grands rsidus signalent plutt des valeursatypiques de la variable expliquer.

    3. le graphe des n points (yi, yi) qui doivent tre peu prs aligns selon la droite de pente1.

    4. le graphe des n points (ei, yi) qui doit correspondre celui de deux variables non-corrles.

    5. leffet levier par les lments diagonaux de la matrice H. En effet, lestimation des paramtresest trs sensible la prsence de points extrmes pouvant modifier de faon substantielle lesrsultats. Une observation est influente si llment diagonal de la matrice H correspondant cette observation est grand. Leffet levier apparait principalement pour des observationsdont les valeurs prises par les variables explicatives sont loignes de la moyenne.

  • IUP SID L3 - Modles linaires 24

    6. les mesures dinfluence peuvent aussi permettre de dceler des points atypiques avec ladistance de Cook Di pour lindividu i : ( (i))T T ( (i)) o T est le vecteur desrsidus studentiss. Cette distance conclut une infuence de lobservation i lorsque la valeurde Di dpasse 1.

    5.5.2 Etude des colinarits des variables explicatives

    Le problme

    Lestimation des paramtres et de leurs variances ncessite le calcul de linverse de la matrice(X X). On dit que (X X) est mal conditionne si son dterminant est proche de 0. La matrice(X X)1 sera alors trs grande. Cette situation se produit lorsque les variables explicatives sonttrs corrles entre-elles. On parle alors de multi-colinarit et cela conduit des estimationsbiaises des paramtres avec des variances importantes.

    Remarque : Dans le cas extrme o certaines variables explicatives sont des constantes ou sont descombinaisons linaires des autres, alors les colonnes de la matrice X sont des vecteurs linairementlies et X X est singulire. Dans ce cas, SAS limine certaines variables en leur affectant dautoritun cfficient nul.

    Les critres de diagnostic

    Il sagit de diagnostiquer ces situations critiques puis dy remdier. Une des techniques (la plussimple, mais pas la plus rapide) est de dtecter les fortes liaisons entre variables explicativesen faisant la rgression de chaque variable explicative sur les autres variables explicatives et enmesurant les liaisons par le R2 de chacune des ces rgressions. Un autre critre de diagnosticpermet de dtecter les problmes de multi-colinarit entre variables : le facteur dinflation de lavariance (V IF ).Soit X la matrice des donnes observes centres (cest--dire la matrice X prive de la colonne11 et centre) et S la matrice diagonale contenant les cart-types empiriques des variables Xj , onpeut dfinir R la matrice des corrlations sous la forme :

    R =1

    nS1X XS1

    On note le vecteur des paramtres associes aux p variables explicatives centres. On peut

    montrer que et V ar() peuvent sexprimer en fonction de X :

    = (X X)1X Y et V ar() = (X X)12

    et on peut en dduire une nouvelle expression de V ar() :

    V ar() =

    2

    nS1R1S1

    Si on note V ar(j) le jme lment diagonal de la matrice de variance-covariances de

    et Vj le

    jme lment diagonal de la matrice R1 alors

    V ar(j) =2

    n

    VjV ar(Xj)

    .

    Vj est appel facteur dinflation de la variance (VIF) : plus Vj est grand, plus la variance de jest grande. Vj peut sexprimer comme :

    Vj =1

    1 R2j

  • IUP SID L3 - Modles linaires 25

    o Rj est le cfficient de corrlation multiple obtenu en rgressant Xj sur les p1 autres variablesexplicatives. On appelle tolrance 1 R2j . Une tolrance et un facteur dinflation de la variancequi tendent vers 1 signifient une absence de multicolinarit entre les variables explicatives. Enrevanche, si la tolrance tend vers 0 et le facteur dinflation de la variance vers , alors on dtecteun problme de multicolinarit entre les variables explicatives.

    Une premire solution : la rgression ridge

    Une faon dviter ce problme dinversibilit et donc de rduire les inconvnients de variablesexplicatives fortement corrles est de remplacer par

    = (X X + cIp)1X Y

    o c est une rel choisi par lutilisateur de la faon suivante : nest plus un estimateur sans biais de, mais il est de variance plus petite que . On calcule lerreur quadratique de (variance+biais2)et on choisit c de faon que lerreur quadratique de soit minimum.

    Une seconde solution : la rgression sur composantes principales

    Cest une autre faon de grer les colinarits des variables explicatives : on fait lA.C.P. des variables explicatives et on considre les composantes principales ; on

    note C la matrice des composantes principales : C = (x1|x2|...|xp)M ; on remplace les variables explicatives par les composantes principales qui sont non corrles

    de variances dcroissantes : on crit donc le modle sous la forme y = X + e avecX = (11|C) = XB donc = B ;

    on estime par = (X X)1Xy. Comme les dernires composantes de sont petites et degrandes se, on les remplace par 0 ce qui donne qui est un estimateur biais de , donc = B est un estimateur biais de de plus petite variance que . On calcule lerreurquadratique de et on choisit le nombre de composantes principales que lon nglige defaon minimiser lerreur quadratique de .

  • Chapitre 6

    Lanalyse de variance

    6.1 Introduction

    On applique des modles factoriels quand on dispose : dune variable quantitative expliquer, dune ou de plusieurs variables qualitatives explicatives, appeles facteurs.

    Dfinition dun facteur1. Un facteur est dit contrl si ses valeurs ne sont pas observes mais fixes par lexprimen-

    tateur.

    2. Les modalits des variables qualitatives explicatives sont appeles niveaux du facteur.

    Dfinition dun plan dexprience1. On appelle cellule dun plan dexprience une case du tableau, associe une combinaison

    des facteurs contrls.

    2. Un plan est dit complet sil a au moins une observation dans chaque cellule.

    3. Un plan est dit rpt sil y a plus dune observation par cellule.

    4. Un plan est dit quilibr si chaque cellule comporte le mme nombre dobservations.

    5. Un plan quilibr et rpt est dit quirpt.

    6.2 Lanalyse de variance un facteur

    6.2.1 Notations

    On appelle plan un facteur un plan dexpriences dfini par un seul facteur ; on dispose doncdune variable quantitative expliquer et dune seul facteur explicatif. On note

    i lindice du groupe ou de la "cellule", dfinie par le facteur explicatif, I le nombre de groupes (i = 1, . . . , I), ni le nombre dexpriences dans le groupe i, j = 1, . . . , ni lindice de lexprience dans le groupe i, enfin n =

    Ii=1 ni le nombre total dexpriences.

    Une exprience (ou encore un "individu") est repre par deux indices, le numro de la cellule(i) et le numro de lobservation dans la cellule (j). Ainsi on note yij la valeur de la rponsequantitative pour lexprience j du niveau i.

    6.2.2 Le modle

    On modlise une variable quantitative en fonction dun facteur I niveaux. y est la variable expliquer qui prend la valeur yij pour lindividu j du niveau i du facteur. Le modle scrit :

    26

  • IUP SID L3 - Modles linaires 27

    yij = i + eij avec i = 1, ..., I ; j = 1, ..., ni et n =

    I

    i=1

    ni

    o eij est une ralisation de Eij N(0, 2) et o les n v.a. Eij sont indpendantes.

    Le modle peut galement scrire sous la forme :

    y = (111|112|...|11I)

    12...I

    + e avec E N(0,

    2In)

    o 11i est lindicatrice du niveau i. Ce modle contient I paramtres estimer.

    6.2.3 Paramtrage centr

    Pour des raisons dinterprtation, on peut sintresser un changement de paramtrage. Il sagitdun changement de variables dans la fonction minimiser dont les variables sont les paramtresdu modle. Soulignons que les nouvelles quations que nous allons dfinir ci-aprs correspondenttoujours celles dun modle un facteur. Si on veut comparer les effets des niveaux du facteur,on peut prendre comme rfrence un effet moyen, et examiner les carts des effets des diffrentsniveaux cet effet moyen.

    Introduisons quelques nouvelles notations : =

    i iI

    = . leffet moyen gnral et i = i leffet diffrentiel (centr) du niveau i. Le modle initial peut scrire sous la forme :

    yij = + i + eij avec

    I

    i=1

    i = 0

    ou bien :

    y = 11 +

    I1

    i=1

    i(11i 11I) + e

    6.2.4 Estimation

    On note yi. la moyenne des observations yij dans la cellule i :

    yi. =1

    ni

    ni

    i=1

    yij

    Les coefficients i sont estims par les moyennes yi. des observations dans les cellules :

    i(y) = yi. =

    Ij=1 yij

    ni

    On les appelle les effets principaux des facteurs. Leur variance est estime par :

    V ar(i) =2

    ni

    Pour les deux autres paramtrisations : (y) =

    ni=1 yi.I

    = y.. ; i = yi. y..Les valeurs ajustes yij dans la cellule i sont constantes et sont gales aux moyennes yi. desobservations dans la cellule i :

    yij = yi.

  • IUP SID L3 - Modles linaires 28

    dont on dduit les rsidus estims :eij = yij yi.

    Lestimation de 2 est donne par :

    2(y) =

    i

    j(yij yi.)2

    n I

    6.2.5 Proprits

    On a les proprits suivantes analogues celles de la rgression linaire :

    1. La moyenne des rsidus par cellule est nulle : pour tout i = 1, . . . , I, ei. = 0

    2. La moyenne gnrale des rsidus est nulle : e = 0

    3. La moyenne des valeurs ajustes est gale la moyenne des valeurs observes : y = y

    4. cov(e, y) = 0

    5. var(y) = var(y) + var(e)

    La dernire proprit nous amne dfinir les quantits suivantes : On appelle variance inter-groupe la quantit var(y), qui scrit encore :

    var(y) =1

    n

    I

    i=1

    ni(yi. y)2

    Cest la variance des moyennes par cellule, pondres pour les poids des cellules ni/n. On appelle variance intra-groupe, ou variance rsiduelle, la quantit var(e), qui scrit

    encore :

    var(e) =1

    n

    I

    i=1

    ni

    j=1

    (yij yi.)2 =1

    n

    I

    i=1

    niV ari(y)

    o V ari(y) est la variance des valeurs observes dans le niveau i : V ari(y) =1

    ni

    ni

    j=1

    (yijyi.)2

    var(e) est donc la moyenne des variances des observations dans les cellules. La relation var(y) = var(y) + var(e) scrit ici

    Variance totale = variance inter + variance intra

    On dfinit galement le coefficient R2 comme le rapport de la variance inter-groupe sur la variancetotale :

    R2 =var(y)

    var(y)= 1 var(e)

    var(y))

    On lappelle rapport de corrlation empirique entre la variable quantitative y et le facteurconsidr. Cest une mesure de liaison entre une variable qualitative et une variable quantitative.On peut mentionner les deux cas particuliers suivants :

    R2 = 1 e = 0 yij = yi.i, j = 1, . . . , niy est constante dans chaque cellule

    R2 = 0 var(y) = 0 yi. = y i = 1, . . . , I,La moyenne de y est la mme dans chaque cellule

  • IUP SID L3 - Modles linaires 29

    6.2.6 Intervalles de confiance et tests dhypothses sur leffet facteur

    Dans le cadre gnral du modle gaussien, on a montr que les estimateurs des paramtres dumodle sont distribus selon une loi gaussienne. Cette proprit peut sappliquer au modle unfacteur pour lequel on a pos lhypothse de normalit des rsidus.On a montr prcdemment que :

    E(i) = i et V ar(i) =2

    ni

    do on dduit :

    i N(i;2

    ni)

    On peut en dduire un intervalle de confiance de i de scurit 1 de la forme :

    IC1(i) =

    i(y) t(nI),(1/2)

    2(y)

    ni

    On veut tudier leffet du facteur sur la variable y en posant lhypothse dgalit de tous lesparamtres du modle :

    H0 : 1 = 2 = ... = I = i i = 0

    vs H1 : (i, i) tel que i 6= i

    Sous H0, tous les paramtres i sont gaux et le modle scrit :

    yij = 0 + eij avec 0(y) = y =1

    n

    i

    j

    yij

    On teste lhypothse dgalit des paramtres i du modle partir de la statistique de Fisher-Sndcor :

    Fcal =

    i

    j(yi. y)2

    i

    j(yij yi.)2

    n II 1 =

    SSL

    SSR n II 1 F (I 1, n I)

    o SSL est la somme des carrs inter-groupes et SSR est la somme des carrs intra-groupes.Toutes ces estimations peuvent tre prsentes sous la forme dun tableau danalyse de la variance un facteur :

    Source ddl Somme des Carrs Moyenne des Carrs Fcal F1

    Facteur I 1I

    i=1

    ni(yi. y)2 = SSLSSL

    I 1 = MSLMSL

    2(y)F1(I 1, n I)

    Rsiduel n II

    i=1

    ni

    j=1

    (yij yi.)2 = SSRSSR

    n I = 2(y)

    Total n 1I

    i=1

    ni

    j=1

    (yij y)2 = SST

    6.2.7 Comparaisons multiples : Mthode de Bonferroni

    Si on rejette lhypothse dgalit de tous les paramtres i avec le test prcdent, on conclutquau moins deux paramtres i et i sont diffrents. On peut donc chercher identifier lescouples (i, i) pour lesquels i 6= i . Il y a donc I(I1)/2 comparaisons possibles. Pour identifierces couples, il est possible de tester les hypothses i i = 0 avec un test de Student tel que le

  • IUP SID L3 - Modles linaires 30

    risque de premire espce conjoint soit .

    Ceci consiste donc dterminer un intervalle de confiance de i i de scurit 1 avec = 2/I(I 1) :

    IC1(i i) =[(yi. yi.) tnI,1/2

    2(y)(

    1

    ni+

    1

    ni)

    ]

    Les couples pour lesquels 0 nappartient pas lintervalle de confiance sont ceux pour lesquelsi 6= i . La scurit conjointe de ces intervalles est au moins gale 1 .

    Dans le cas particulier o le facteur est compos de deux niveaux, le problme se rsume lacomparaison de deux moyennes 1 et 2 de deux distributions gaussiennes de mme variance. Letest de comparaison de 1 et 2 est un test de Student bas sur la statistique :

    Tcal =|y1. y2.|

    (1

    n1+

    1

    n2)2(y)

    Student(n 2)

    avec 2(y) =1

    n 2

    2

    i=1

    n

    j=1

    (yij yi.)2

    Lorsque lhypothse de normalit des distributions nest pas raliste, mais que lon peut accepterque les deux distributions sont identiques un paramtre de position prs , on peut utiliser le testdes rangs pour comparer 0 : le test de Wilcoxon pour le cas de deux chantillons indpendants,le test de Mann-Whitney pour le cas de donnes apparis. Le test de Kruskall-Wallis est unegnralisation du test de Wilcoxon dans le cas de plusieurs chantillons (cest--dire dun facteur plus de deux niveaux).

    6.3 Analyse de variance deux facteurs croiss

    6.3.1 Notations

    On appelle cellule une case du tableau, facteur ligne le facteur qui dfinit les lignes du tableau,facteur colonne celui qui dfinit les colonnes du tableau. De plus, on note par :i = 1, . . . , I les indices des niveaux du facteurs ligne

    (le facteur ligne a I niveaux),j = 1, . . . , J les indices des niveaux du facteurs colonne

    (le facteur colonne a J niveaux),nij le nombre dobservations pour le niveau i du facteur ligne

    et pour le niveau j du facteur colonne(on dit encore nombre dobservations dans la cellule (i, j),

    l = 1, . . . , nij les indices des observations dans la cellule (i, j),yijl la l-ime observation dans la cellule (i, j),yij. la moyenne des observations dans la cellule (i, j),

    (yij. = 1/nij

    l yijl).

    6.3.2 Le modle

    Le modle deux facteurs croiss scrit sous la forme :

    yijl = ij + eijl avec i = 1, ..., I; j = 1, ..., J ; l = 1, ..., nij

    o eijl est une ralisation de Eijl N(0, 2), n v.a. indpendantes.Deux autres paramtrisations permettent de dcomposer ij afin de dfinir des quantits, fonctionsdes ij , qui mesurent les effets spars des deux facteurs et les effets conjoints.

  • IUP SID L3 - Modles linaires 31

    6.3.3 La paramtrisation centre

    Cette premire paramtrisation dcompose ij par rapport un effet moyen gnral. On dfinitainsi les nouveaux paramtres qui interviennent dans cette dcomposition :

    =1

    IJ

    i

    j

    ij = .. = effet moyen gnral,

    i. =1

    J

    j

    ij = effet moyen du niveau i du facteur ligne,

    Li = i. .. = effet diffrentiel du niveau i du facteur ligne,

    .j =1

    I

    i

    ij = effet moyen du niveau j du facteur colonne,

    Cj = .j .. = effet diffrentiel du niveau j du facteur colonne,

    ij = iji..j+.. = interaction du niveau i du facteur ligne et du niveau j du facteur colonne.

    Ces paramtres vrifient les conditions suivantes :

    i

    Li = 0 ;

    j

    Cj = 0 ; i

    j

    ij = 0 ; j

    i

    ij = 0

    Le modle complet scrit alors sous la forme :

    yijl = + Li +

    Cj + ij + eijl

    Les I.J paramtres ij sont donc redfinis en fonction de : : un paramtre de centrage gnral, Li : I 1 paramtres qui caractrisent globalement sur j les I niveaux du facteur ligne, Cj : J 1 paramtres qui caractrisent globalement sur i les J niveaux du facteur colonne, ij : (I1)(J 1) paramtres qui prennent en compte que les effets des niveaux du facteur

    ligne varie selon le niveau du facteur colonne.

    6.3.4 Estimations des paramtres

    ij est estim par ij(y) =1

    nij

    nij

    l=1

    yijl = yij. avec ij N(ij,2

    nij)

    On en dduit i. = yi.. =1

    J

    J

    j=1

    yij., .j = y.j. =1

    I

    I

    i=1

    yij. et = y... =1

    IJ

    I

    i=1

    J

    j=1

    yij.

    Valeurs ajustes et rsidus estims : yijl = ij = yij. et eijl = yijl yij.

    2(y) = 1n IJ

    ijk

    (eijl)2 =

    1

    n IJ

    ijk

    (yijl yij.)2 avec n =

    ij

    nij

    Des estimations de ij, on dduit les estimations de , Li , Cj et ij en remplacant ij par sonestimation dans les dfinitions de , Li ,

    Cj et ij .

    Comme dans lanalyse de variance un facteur, la variabilit totale de y se dcompose en unevariabilit inter-cellule explique par le modle (note SSL) et une variabilit intra-cellule nonexplique par le modle (note SSR) :

    SST =

    I

    i=1

    J

    j=1

    nij

    l=1

    (yijl y)2

  • IUP SID L3 - Modles linaires 32

    SSL =

    I

    i=1

    J

    j=1

    nij(yij. y)2

    SSR =

    I

    i=1

    J

    j=1

    nijV arij(y) o V arij(y) =1

    nij

    nij

    l=1

    (yijl)2 (yij.)2

    6.3.5 Le diagramme dinteractions

    Le diagramme dintractions permet de visualiser graphiquement la prsence ou labsence dint-ractions. Pour chaque j fix, on reprsente dans un repre othogonal les points (i, j) de coordonnes(i, ij), et on trace les segments joignant les couples de points ((i 1), j), (i, j). On obtient ainsipour chaque j fix une ligne brise.

    ij

    i=1 2 3 4

    j

    1

    3

    Fig. 6.1 Construction dun diagramme dinteractions

    Proprit : Si lhypothse de non-interaction est vraie, alors les lignes brises dans le diagrammedinteraction sont parallles.En, effet, la ligne brise associe au niveau j joint les points (1, 1j), (2, 2j), . . ., (I, Ij). Sil ny apas dinteractions, alors ces points ont pour coordonnes (1, u1 + vj), (2, u2 + vj), . . . , (I, uI + vj),et les lignes brises associes au niveaux j et j se correspondent par une translation verticaledamplitude vj vj .On lit sur ce diagramme leffet principal des modalits j (le niveau moyen dune ligne brise),leffet principal des modalits i (la moyenne des ordonnes des points abcisse fixe). En ce quiconcerne les interactions, on obtiendra rarement des lignes brises strictement parallles. Le pro-blme sera alors de savoir si leur non-paralllisme traduit une interaction significative. Ce seralun des points de la partie sur le modle linaire gaussien.

    6.3.6 Tests dhypothses

    Trois hypothses sont couramment considres : lhypothse dabsence dinteractions entre les deux facteurs ou hypothse dadditivit des

    deux facteurs :HL,C0 : i, j, ij = 0

    qui impose (I 1)(J 1) contraintes ; lhypothse dabsence deffet du facteur ligne :

    HL0 : i, Li = 0

    qui impose (I 1) contraintes ;

  • IUP SID L3 - Modles linaires 33

    lhypothse dabsence deffet du facteur colonne :

    HC0 : j, Cj = 0

    qui impose (J 1) contraintes.Pour ces trois hypothses, le calcul de la statistique consiste r-estimer les paramtres sous lacontrainte que lhypothse est vraie, en dduire les nouvelles estimations des ij, les valeursajustes et les rsidus calculs sous cette hypothse. On en dduit la statistique du test.

    Une remarque trs importante porte sur la dmarche de ces tests dhypothses : Sil existe desinteractions entre les deux facteurs, alors les deux facteurs qui constituent cette in-

    teraction doivent imprativement tre introduits dans le modle ; dans ce cas, il est

    donc inutile de tester leffet de chacun des deux facteurs. En effet, la prsence dinterac-tions entre les deux facteurs signifie quil y a un effet combin des deux facteurs, et donc un effetde chaque facteur.

    Tester lhypothse de non-interaction entre les deux facteurs consiste comparerle modle complet (avec interactions) et le modle additif (sans interactions) en utilisant lastatistique de Fisher :

    Fcal =SSRL,C SSR/(I 1)(J 1)

    SSR/n IJ =SSI

    SSR n IJ

    (I 1)(J 1) F ((I 1)(J 1), n IJ)

    o SSRl,c est la somme des carrs des rsidus du modle additif, SSR est la somme des carrsdes rsidus du modle complet et SSI la somme des carrs corrigs de leffet dinteraction entreles deux facteurs.

    Tester lhypothse dabsence deffet du facteur ligne est intressant si le test prcdenta permis de montrer labsence dinteractions. En effet, si les termes dinteractions sont introduitsdans le modle, les facteurs qui constituent cette interaction doivent galement apparatre dansle modle. Cette remarque est galement valable pour lhypothse dabsence deffet du facteurcolonne. Pour tudier leffet du facteur ligne, on pose lhypothse HL0 ce qui revient comparerle modle additif ( I + J 1 paramtres)

    yijl = + Li +

    Cj + eijl

    et le modle un facteur ( J paramtres)

    yijl = + Cj + eijl

    Le test est bas sur la statistique de Fisher-Sndcor :

    Fcal =(SSRC SSRL,C)/(I 1)SSRL,C/n (I + J 1)

    F (I 1, n (I + J 1))

    o SSRC est la somme des carrs des rsidus du modle un facteur (le facteur colonne) etSSRL,C est la somme des carrs des rsidus du modle additif ( deux facteurs sans interaction).

    Pour tudier leffet du facteur colonne, on compare le modle deux facteurs sans interactionau modle un facteur ( I paramtres) :

    yijl = + Li + eijl

    et on teste lhypothse dabsence deffet du facteur colonne HC0 partir de la statistique :

    Fcal =(SSRL SSRL,C)/(J 1)SSRL,C/n (I + J 1)

    F (J 1, n (I + J 1))

    o SSRL,C est la somme des carrs des rsidus du modle additif et SSRL est la somme descarrs des rsidus du modle un facteur (le facteur ligne).

  • IUP SID L3 - Modles linaires 34

    6.3.7 Tableau danalyse de la variance deux facteurs croiss dans le cas dun

    plan quilibr

    Dans le cas du modle deux facteurs croiss, la variance inter-cellule (explique par le modle)peur tre dcompose en une variance explique par le premier facteur, une variance expliquepar le second facteur et par une variance explique par les interactions entre les deux facteurs.Dans le cas dun plan quilibr deux facteurs (o (i, j), nij = n0), on dfinit les quantitssuivantes :

    SS1, la somme des carrs corrigs de leffet diffrentiel du premier facteur (Ligne) :

    SS1 = n0JI

    i=1

    (yi.. y...)2 = n0JI

    i=1

    (Li )2

    SS2, la somme des carrs corrigs de leffet diffrentiel du second facteur (Colonne) :

    SS2 = n0I

    J

    j=1

    (y.j. y...)2 = n0IJ

    j=1

    (Cj )2

    SSI, la somme des carrs corrigs de leffet dinteraction entre les deux facteurs :

    SSI = n0

    I

    i=1

    J

    j=1

    (yij. yi.. y.j. + y...)2 = n0I

    i=1

    J

    j=1

    (ij)2

    On peut montrer que :SSL = SS1 + SS2 + SSI

    On peut ainsi dresser le tableau danalyse de la variance dun plan quilibr deux facteurscroiss :

    Somme Moyenne

    Source ddl des Carrs des Carrs Fcal F1

    Ligne I 1 SS1SS1

    I 1= MS1

    MS1

    c2(y)F1(I 1, n IJ)

    Colonne J 1 SS2SS2

    J 1= MS2

    MS2

    c2(y)F1(J 1, n IJ)

    Interaction (I 1)(J 1) SSISSI

    (I 1)(J 1)= MSI

    MSI

    c2(y)F1((I 1)(J 1), n IJ)

    Rsiduel n IJ SSRSSR

    n IJ= c2(y)

    Total n 1 SST

  • Chapitre 7

    Analyse de covariance

    7.1 Les donnes

    Sur un chantillon de n individus, on observe deux variables quantitatives x et y, et une variablequalitative T . La variable quantitative y est la variable rponse que lon cherche expliquer enfonction de la variable quantitative x et de du facteur T J niveaux.Chaque individu de lchantillon est repr par un double indice (i, j), j reprsentant le niveau dufacteur T auquel appartient lindividu et i correspondant lindice de lindividu dans le niveauj. Pour chaque individu (i, j), on dispose dune valeur xij de la variable x et dune valeur yij dela variable y.

    Pour chaque niveau j de T (avec j = 1, ..., J), on observe nj valeurs x1j , ..., xnjj et nj valeursy1j, ..., ynjj de Y .

    n =J

    j=1 nj est le nombre dobservations.

    Ces donnes peuvent tre reprsentes conjointement sur un mme graphique permettant devisualiser la relation ventuelle entre y, x et T . Il sagit de tracer un nuage de points de coordonnes(xij , yij), o tous les points du niveau j (j=1,...,J) sont reprsents par le mme symbole.

    7.2 Le modle

    Le modle est explicit dans le cas simple o une variable quantitative Y est explique par unevariable qualitative T J niveaux et une variable quantitative, appele covariable X. Le modlescrit :

    yij = 0j + 1jxij + eij avec i = 1, ..., nj et j = 1, ...J.

    Cela revient estimer une droite de rgression linaire de Y sur X pour chaque niveau j dufacteur T . Pour le niveau j, on estime les paramtres 0j , constante lorigine de la droite dergression, et 1j , pente de la droite de rgression.

    7.3 La seconde paramtrisation

    Comme pour les modles factoriels, SAS opre une reparamtrisation faisant apparatre des effetsdiffrentiels par rapport un niveau de rfrence, en gnral le dernier niveau du facteur. Lemodle associ cette nouvelle paramtrisation scrit :

    yij = 0J + (0j 0J) 0j

    +1Jxij + (1j 1J) 1j

    xij + eij avec i = 1, ..., nj et j = 1, ...J 1.

    Le dernier niveau est considr comme le niveau de rfrence caractris par 0J et 1J . Lesautres paramtres 0j et 1j reprsentent respectivement, pour chaque niveau j, lcart entre les

    35

  • IUP SID L3 - Modles linaires 36

    constantes lorigine des niveaux j et J , et lcart entre les pentes de rgression des niveaux j et J .

    Cette paramtrisation permet de faire apparatre : un effet dinteraction entre la covariable X et le facteur T (1j) ; un effet diffrentiel du facteur T sur la variable Y (0j) ; un effet diffrentiel de la covariable X sur la variable Y (1J).

    7.4 Tests dhypothses

    Comme pour le modle factoriel, il est important de suivre une dmarche logique dans la miseen place des tests dhypothses. La premire tape doit consister tester lhypothse de non-interaction entre le facteur T et la covariable X :

    H i0 : 11 = 12 = ... = 1J 11 = 12 = ... = 1J1 = 0

    en comparant le modle dit complet :

    yij = 0J + 0j + 1Jxij + 1jxij + eij avec i = 1, ..., nj et j = 1, ...J 1.

    au modle sans interaction :

    (i) yij = 0J + 0j + 1Jxij + eij

    Si on rejette cette hypothse, on conclut la prsence dinteractions dans le modle. Il est alorsinutile de tester labsence deffet du facteur T ou de la covariable X sur Y , car toute variableconstituant une interaction doit appatre dans le modle.En revanche, si ce premier test montre que lhypothse H i0 est vraisemblable et quil nexiste pasdinteraction entre T et X (les J droites de rgression partagent la mme pente de rgression),on peut alors valuer leffet de la covariable X sur Y et celui du facteur T sur Y .

    On peut tester deux hypothses en comparant le modle sans interaction :

    yij = 0J + 0j + 1Jxij + eij avec i = 1, ..., nj et j = 1, ...J 1.

    chacun des modles rduits suivants :

    (ii) yij = 0J + 0j + eijcorrespondant lhypothse dabsence deffet de la covariable X sur Y

    H ii0 : 11 = 12 = ... = 1J = 0

    Seul le facteur T explique Y , on met en place un modle un facteur.

    (iii) yij = 0J + 1Jxij + eijcorrespondant lhypothse dabsence deffet du facteur T sur Y

    H iii0 : 01 = 02 = ... = 0J 01 = 02 = ... = 0J1 = 0

    Les J droites de rgression partagent la mme constante lorigine, seule la covariable Xexplique Y : on met en place un modle de rgression linaire simple.

    Ces diffrentes hypothses sont testes en comparant le modle complet au modle rduit par lastatistique de Fisher-Sndcor :

    Fcal =(SSR0 SSR1)/q

    SSR1/ddl F (q, ddl)

    o :

  • IUP SID L3 - Modles linaires 37

    SSR1 est la somme des carrs des rsidus du modle complet, SSR0 est la somme des carrs des rsidus du modle contraint, q est le nombre de contraintes poses sous lhypothse nulle, cest--dire le nombre de

    paramtres dans le modle complet - le nombre de paramtres dans le modle comtraint, ddl est le nombre de degrs de libert associ aux rsidus du modle complet, cest--dire le

    nombre dobservations - le nombre de paramtres dans le modle complet.Cette statistique est comparer la valeur limite F(q, ddl). Si Fcal est suprieure cette valeurlimite, on rejette lhypothse nulle.

  • Chapitre 8

    Quelques rappels de Statistique et de

    Probabilits

    8.1 Gnralits

    Dfinition : Une unit statistique est un individu ou objet sur lequel on effectue des mesuresou observations. Les units statistiques sont numrotes de 1 n ; on note I = {1, . . . , n} cetensemble dindices.

    Lensemble des individus pourra tre un chantillon (une partie) dune population plus grande.Sous des hypothses fondes sur la thorie du calcul des probabilits, il sera possible de dduiredobservations sur lchantillon des conclusions applicables lensemble de la population. Cestlobjet de la statistique infrentielle. On parlera alors de variable alatoire, et une valeur observesera appele une ralisation de la variable alatoire.Lensemble des observations pourra aussi concerner toute la population. On parle alors de donnesexhaustives. Dans ce cas, et mme dans le cas dobservations partielles, on peut avoir comme seulobjectif de dcrire les donnes observes, sans chercher tablir de loi valable pour des cas nonobservs. Cest le but de la statistique descriptive.

    Dfinition : On appelle variable statistique (ou simplement variable) un ensemble de n obser-vations de mme type effectues sur les n individus.

    Typologie des variables statistiques

    On dit quune variable est quantitative quand elle prend ses valeurs dans lensemble des rels. Si elle prend ses valeurs dans un ensemble dont le nombre dlments est fini, on dit quelleest qualitative (on dit aussi catgorielle ou nominale). Pour ce type de variable, dans le cadre dumodle linaire, on parle de facteurs. Lensemble des valeurs dune variable qualitative est appellensemble des modalits de la variable ; pour un facteur, on parle de lensemble des niveaux dufacteur. Si lensemble des modalits possde une structure dordre, on parle de variable ordinaleou qualitative ordonne.

    Notations des variables quantitatives

    On note yi lobservation relative lindividu i. La variable quantitative y est identifie au vecteurde IRn de coordonnes yi. Tous les vecteurs sont par convention reprsents en colonne et not encaractres latin minuscule gras. Un scalaire est dsign par un caractre grec (ou latin) ordinaire,une matrice par une lettre majuscule. On note donc dans la suite :

    y =

    y1. . .yi. . .yn

    IRn

    38

  • IUP SID L3 - Modles linaires 39

    une variable observe sur les n individus. On parlera aussi du vecteur des observations. Lorsquily a plusieurs variables, elles sont indices par j (j = 1, . . . , p, indice plac en haut), et on note yj

    la j-me variable. Ainsi pour p variables :

    y1 =

    y11. . .y1i. . .y1n

    , . . .yj =

    yj1. . .

    yji. . .

    yjn

    , . . .yp =

    yp1. . .ypi. . .ypn

    .

    Lespace IRn est appel espace des variables.

    8.2 Indicateurs statistiques pour variables quantitatives

    8.2.1 Moyenne empirique dune variable

    Dfinition : La moyenne empirique dune variable y est dfinie par :

    y =1

    n

    n

    i=1

    yi

    Proprit caractristique : a IR est la moyenne empirique de la variable y n

    i=1

    (yi a) = 0

    Proprit : Lapplication qui une variable y de IRn associe sa moyenne empirique est uneforme linaire sur IRn (application linaire de IRn dans IR).

    Dfinition : Une variable de moyenne nulle est dite centre ; soit 1n le vecteur de IRn dont toutes les coordonnes sont gales 1, alors :

    y1 y...

    yi y...

    yn y

    = y y1n

    est appele variable centre de y . Ses valeurs sont les carts la moyenne de la variable y.

    8.2.2 La covariance empirique

    Dfinition : La covariance empirique de y et z scrit :

    cov(y, z) =1

    n

    n

    i=1

    (yi y)(zi z) =1

    n

    n

    i=1

    yizi yz.

    Proprit : La covariance empirique possde les proprits suivantes : cov(y, z) = cov(z,y) cov(y, z) = 1

    2n2n

    i=1

    iI(yi yi)(zi zi)

    La covariance est une forme bilinaire : linarit droite : pour tous rels , , pour toutes variables z et t :

    cov(y, z + t) = cov(y, z) + cov(y, t),

    linarit gauche : sobtient de la mme manire par permutation. La covariance dune variable avec une constante est nulle.

  • IUP SID L3 - Modles linaires 40

    8.2.3 Variance empirique et cart-type empirique

    Dfinition : La variance empirique de y est :

    var(y) = cov(y,y) =1

    n

    n

    i=1

    (yi y)2 =1

    n

    n

    i=1

    y2i y2

    Lcart-type empirique est y =var(y).

    Proprit : La variance possde les proprits suivantes : var(y) = 0 i I, yi = y y est une variable constante. var(y) = 1

    2n2n

    i=1

    iI(yi yi)2

    et IR :var(y + 1n) = var(y) =

    2var(y)

    La transformation y y + 1n correspond un changement de lorigine de lchelle desmesures, et la transformation y y correspond un changement dunit.

    Dfinition : On appelle variable centre rduite associe y la variable z = (zi)ni=1 telle que :

    zi =(yi y)y

    Proprit : z est une variable centre rduite si et seulement si z = 0 et var(z) = 1 .

    8.2.4 Cfficient de corrlation linaire empirique

    Dfinition : Le cfficient de corrlation linaire empirique de y1 et y2 est :

    r(y1,y2) =cov(y1,y2)var(y1)var(y2)

    Proprit : Le cfficient de corrlation linaire vrifie les proprits suivantes : r(y,y) = 1 ; r(y1,y2) = r(y2,y1) ; r(y1,y2) [1,+1] r(y1,y2) = 1 et | i I : y1i = y2i + avec signe() = signe(r) . , , , IR, r(y1 + 1n, y2 + 1n) = signe() r(y1,y2).

    Deux