33
6. RÉGRESSION AVEC PLUS DE 2 VARIABLES

6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

6. RÉGRESSION AVEC

PLUS DE 2 VARIABLES

Page 2: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Plusieurs variables indépendantes :

régression multiple

• But : expliquer une variable dépendante par plusieurs variables indépendantes

• Permet la prise en compte de l’effet de variables confondantes

Y = f(X1, X2, ..., Xn)

Page 3: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Y = b + a1X1 + a2X2 + ... + akXk

• 2 variables indépendantes : plan ; au-delà : hyperplan

• ai (coefficient de régression partielle) : contribution de

la variable Xi à l'explication de la variable Y, quand les

variables explicatives sont tenues constantes

Régression linéaire multiple

Page 4: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• 2 variables indépendantes (explicatives) : plan

Page 5: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• R2 global = coefficient de détermination multiple : donne la proportion de variance expliquée par toutes les variables

• r2 partiels = coefficients de détermination partiels : donnent la proportion de variance expliquée par chacune des variables en contrôlant l’effet des autres

• Les deux peuvent être testés (mêmes conditions que pour la régression simple)

Page 6: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Test du coefficient de détermination multiple R2

FRM = R2(n - p)/((1 - R2)(p - 1))

• où p est le nombre total de variables (incluant Y), et n celui des observations

• FRM suit une loi de F à (p - 1) et (n - p) ddl

Page 7: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

R2 ajusté

• Problèmes du R2 : augmente avec le nombre de variables, même aléatoires

• Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes

• Le R2 ajusté tient compte du nombre de variables et diminue d’autant la valeur du R2

R2 ajusté = 1 - ((n - 1)/(n - p))(1 - R2)

Page 8: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• On peut également calculer et tester les r2, des variables individuelles (avec donc chacune une p-value)

• Significativité de chaque variable sur les variations de Y, en tenant compte des autres variables X

i

• Les p-value et ri

2 tiennent compte des liens entre

les variables Xi et changent en fonction de la

présence ou l’absence des Xi (sauf si elles sont

totalement indépendantes)

Page 9: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives

• Elimination descendante (backward elimination)

• Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés

• Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés

• Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives

Sélection des variables X

Page 10: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Sélection ascendante (forward selection)

• Même chose mais en ajoutant les variables une à une d’après leur corrélations partielles avec Y, en commençant par la plus significative individuellement

• Procédure pas à pas (stepwise procedure)

• Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d’une élimination descendante pour voir si une des variables incluse jusque là n’est plus significative

• On peut y ajouter un critère qui évalue l’ajustement des données au modèle, éventuellement en prenant en compte le nombre de paramètres : AIC (Akaike Information Criterion), BIC (Bayesien), etc.

Page 11: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Effet de deux variables X1 et X2 sur une variable Y

• Exemple : effet de la température (X1) et de l’humidité

(X2) sur la croissance (Y) d’un organisme

• La température et l’humidité ont chacune une influence sur la croissance

• La température et l’humidité sont ici corrélées : redondance dans l’explication de la variation

Partitionnement de la variation

Page 12: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

100 % de la variation de Y

Variation expliquée par X1 = R21

Variation expliquée par X2 = R22

Variation inexpliquée

da b c

Avec a+b+c+d = 100 %

a, b, c, et d sont déduits par soustraction

= a+b

= b+c

= a+b+c

= d

Variation expliquée à la fois par X1 et X2 = R21,2

Page 13: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Etude de l’effet d’une variable X1 sur une autre, X2,

tout en contrôlant l’effet d’une troisième, X3 (la

covariable)

• Consiste à régresser X2 sur X3 puis à étudier ensuite

le lien entre les résidus de cette régression (la variation de X2 qui n’est pas expliqué par X3) et X1

• Cela revient à tenir X3 constante

• Exemples : contrôle de l’effet de l’échantillonnage, de la taille des hôtes, du temps, ...

Régression partielle

Page 14: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Exemple• Relation entre l’abondance d’une espèce de

nématode et la longévité de l’hôte, tout en contrôlant la taille de l’hôte

02,5

57,510

12,515

17,520

22,5

Abon

danc

e

0 20 40 60 80 100 120 140Longévité

Y = 6,191 + ,106 * X; R^2 = ,392

Graphe de régression

1 177,695 177,695 7,094 ,022111 275,536 25,04912 453,231

DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total

Tableau d’ANOVAAbondance vs Longévité

Page 15: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

02,5

57,510

12,515

17,520

22,5

Abon

danc

e

-30 -25 -20 -15 -10 - 5 0 5 10 15 20Résidus Longévité

Y = 12,538 - ,05 * X; R^2 = ,009

Graphe de régression

0

20

40

60

80

100

120

140

Long

évité

25 50 75 100 125 150 175 200 225 250Taille

Y = -16,966 + ,563 * X; R^2 = ,892

Graphe de régression

1 4,246 4,246 ,104 ,753111 448,984 40,81712 453,231

DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total

Tableau d’ANOVAAbondance vs Résidus Longévité

Page 16: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Régression polynomiale

• Permet d’ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X

• 1 variable X : courbe

• 2 variables X : surface (plan) plus ou moins “bosselée”

• > 2 variables X : hyperplan “bosselé”

Page 17: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Variante de la régression multiple : ajout de variables supplémentaires par l’intermédiaire des variables originales élevées à différents ordres (carré, cube, ...)

• Exemple avec une variable X : ajout de X2, X3, ...

Y = b + a1X + a

2X2 + a

3X3 +...

• Les variables à différents ordres sont sélectionnées par les procédures habituelles

Page 18: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Chaque ordre ajoute un “pli” à la courbe

Ordre 1 (X) Ordre 2 (X2)

Ordre 3 (X3) Ordre 4 (X4)

Page 19: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Plus l’ordre est élevé, plus on perd de degrés de liberté, plus l’explication biologique est difficile

• Il faut trouver un bon compromis

• Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile

• Les organismes ont souvent des préférences situées autour d’un optimum : distribution unimodale

Page 20: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• On peut ajuster une courbe

• r2 = 0,875

• Calcul de l’optimum u et de la tolérance t (= 1 unité d'écart-type)

a1 a2

u

t

Page 21: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Relation régression et analyse de variance : utilisation de

variables muettes

• En ANOVA, les variables indépendantes sont qualitatives (facteurs)

• Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables)

• Le tableau d'ANOVA de la régression donne ainsi le même résultat qu'une ANOVA

Page 22: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Le recodage se fait avec des 0 et 1

• Exemple : Mâle = 0 ; Femelle = 1

• On pourrait estimer : Taille = f(Poids, Âge, Sexe)

• Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe

• Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme

Taille Poids Âge Sexe162 54 25 1185 83 32 0178 65 22 0157 62 43 1175 63 39 1189 91 31 0168 72 27 1

Page 23: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• On procède de même avec des facteurs à plus de 2 niveaux

• Exemple : couleur des cheveux

• On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000)

• On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA

Brun 1 0 0 0

Blond 0 1 0 0

Châtain 0 0 1 0

Roux 0 0 0 1

Page 24: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Variables indépendantes quantitative et qualitative :

Analyse de covariance

Page 25: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• ANCOVA : mélange d’ANOVA à un facteur et de régression linéaire simple

• 1 variable dépendante quantitative Y

• 2 variables indépendantes

• 1 quantitative X

• 1 qualitative Z

• Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative)

• Exemple : relation entre dose d’engrais et croissance dans plusieurs types de sols

Page 26: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Hypothèses testées

• 3 questions se posent

1. Influence de X sur Y

2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction

3. Influence de Z sur Y

Page 27: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

Tests• Tests des 3 hypothèses

1. k régressions linéaires simples

2. Tests des différences entre les pentes des k régressions

3. Si les droites sont parallèles, test des différences entre les ordonnées à l’origine (a-t-on affaire à plusieurs droites ?)

Page 28: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Régressions linéaires de Y sur X

• On répond à la question 1 : Y a-t-il une relation (linéaire) significative entre ces deux variables ?

Procédure détaillée

Page 29: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET

Page 30: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d’origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP

Page 31: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET

• On teste si l’erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles ?

• Rapport de variances : on utilise une statistique F

Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k))

avec k-1 et n-2k ddl

• Si rejet de H0 (= pas de différence) : relations

différentes d’un groupe à l’autre (présence d’une interaction) et fin du test

Page 32: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• Si les droites sont parallèles, on teste si les ordonnées à l’origine sont différentes. C’est la question 3.

• On combine toutes les données et on mesure l’erreur résiduelle globale de la droite de régression commune = SCEEC

• On soustrait à cette quantité l’erreur résiduelle des droites parallèles séparées : erreur due aux écarts d’ordonnées à l’origine : SCEEVOO = SCEEC - SCEEDP

Page 33: 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50 75 100 125 150 175 200 225 250 Taille Y = -16,966 + ,563 * X; R^2 = ,892 Graphe

• On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F

Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1))

avec k-1 et n-k-1 ddl

• Si l’hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y

• On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l’interaction.