41
1 Régression linéaire simple et multiple

Régression linéaire simple et multiple

  • Upload
    sal

  • View
    36

  • Download
    2

Embed Size (px)

DESCRIPTION

Régression linéaire simple et multiple. Exemple. - PowerPoint PPT Presentation

Citation preview

Page 1: Régression linéaire simple et multiple

1

Régression linéaire simple et multiple

Page 2: Régression linéaire simple et multiple

2

Exemple

• Une entreprise faisant du marketing direct en ligne aimerait construire un modèle pour identifier les clients les plus susceptibles d’acheter des produits de leur prochain catalogue qui doit être envoyé le mois prochain. Ainsi, les clients qui seront identifiés par le modèle comme ayant peu de chance d’acheter seront exclu de la prochaine liste d’envoi.

Page 3: Régression linéaire simple et multiple

3

Exemple (suite)

• Au cours de la dernière année, l’entreprise a recueilli l’information suivante dans sa base de données pour un sous-ensemble de ses clients (fichier régression.xls):– nombre total d’envois postaux,– nombre total de commandes (achats) reçues,– montant total (en dollars) des achats jusqu’à

aujourd’hui (variable: Tot_doll),– montant (en dollars) des commandes des 12 derniers

mois.– nombre de mois écoulé depuis le dernier achat– sexe du client (variable: sexe, 0=femme 1=homme).

Page 4: Régression linéaire simple et multiple

4

Exemple (suite)

• Malheureusement, l’entreprise n’a pas pensé inclure dans sa base de données si les clients ont fait un achat (oui ou non) après chacun des envois postaux.

• Cependant elle émet l’hypothèse que le ratio nombre total de commandes reçues sur le nombre total d’envois est une bonne mesure de la probabilité d’un achat. Cette variable servira de variable dépendante (Y).

• Les autres variables serviront de variables explicatives dans le modèle.

• Comment procéderiez-vous?

Page 5: Régression linéaire simple et multiple

5

Introduction:

• Un des objectifs principaux de la statistique est d ’expliquer la variabilité que l ’on observe dans les données.

• La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ pour étudier la présence d ’une relation entre une variable dépendante Y (quantitative et continue) et une ou plusieurs variables indépendantes X1, X2, …, Xp (qualitatives et/ou quantitatives).

Page 6: Régression linéaire simple et multiple

6

Un modèle de régression peut servir à répondre à un des 3 objectifs suivants:

• Décrire (données provenant d ’études non-expérimentales c.-à-d. on observe la réalité telle qu’elle est).

• Confronter des hypothèses (données provenant d ’études expérimentales contrôlées).

• Prédire (si on aime le risque!!).

Page 7: Régression linéaire simple et multiple

7

Exemple:

Nous sommes intéressés à savoir quels sont lesfacteurs importants qui influencent ou déterminent la valeur d ’une propriété et de construire un modèle qui nous aidera à évaluer cette valeur selon ces facteurs. Pour ce faire, nous avons obtenu la valeur totale pour un échantillon de 79 propriétés dans une région donnée. Les variables suivantes ont également été recueillies pour chacune des propriétés:

Page 8: Régression linéaire simple et multiple

8

Bref aperçu du fichier de données:

# pieds carrés condition valeur valeur du premier de type deOBS totale terrain # d'acres plancher l'extérieur chauffage

1 199657 63247 1.63 1726 Good NatGas 2 78482 38091 0.495 1184 Good NatGas 3 119962 37665 0.375 1014 Good Electric 4 116492 54062 0.981 1260 Average Electric 5 131263 61546 1.14 1314 Average NatGas ... 78 253480 57948 0.862 1720 Good Electric 79 257037 57489 0.95 2004 Excellnt Electric # salles # salles de # de # de de bain bain non # deOBS pièces chambres complète complète foyers GARAGE

1 8 4 2 1 2 Garage 2 6 2 1 0 0 NoGarage 3 7 3 2 0 1 Garage 4 6 3 2 0 1 Garage 5 8 4 2 1 2 NoGarage ... 78 10 5 5 1 1 Garage 79 9 4 2 2 2 Garage

Page 9: Régression linéaire simple et multiple

9

Est-ce qu ’il y a un lien entre la valeur totale et ces différents facteurs?

1400009000040000

450000

350000

250000

150000

50000

Terrain

Totale

Page 10: Régression linéaire simple et multiple

10

6543210

450000

350000

250000

150000

50000

Acre

Totale

500 1500 2500 3500

50000

150000

250000

350000

450000

Pied2

Totale

5 10 15

50000

150000

250000

350000

450000

Pièces

Totale

2 3 4 5 6 7 8

50000

150000

250000

350000

450000

Chambre

Totale

Page 11: Régression linéaire simple et multiple

11

1 2 3 4 5 6 7

50000

150000

250000

350000

450000

SbainsC

Totale

0 1 2 3

50000

150000

250000

350000

450000

Sbains

Totale

0 1 2 3 4 5 6 7

50000

150000

250000

350000

450000

Foyers

Totale

NoGarage Garage

50000

150000

250000

350000

450000

Garage

Totale

Page 12: Régression linéaire simple et multiple

12

Le coefficient de corrélation r de Pearson sert à mesurer l’intensité de la relation linéaire entre deux variables quantitatives.

• Le coefficient de corrélation r prendra des valeurs entre -1 et 1.

• S ’il existe une relation linéaire parfaite entre X et Y alors r = 1 (r =1 si X et Y varient dans le même sens et r = -1 si X varie dans le sens opposé à Y).

• Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire entre X et Y.

• Plus la valeur de r s ’éloigne de 0 pour s ’approcher de 1 plus l ’intensité du lien linéaire entre X et Y grandit.

Page 13: Régression linéaire simple et multiple

13

Y ‚

6.5 ˆ * r = 0.035 Y ‚ r = 1 ‚ ‚ ‚ 31 ˆ *6.0 ˆ * * 29 ˆ * ‚ 27 ˆ * ‚ 25 ˆ *5.5 ˆ * * 23 ˆ * ‚ 21 ˆ * ‚ 19 ˆ *5.0 ˆ * 17 ˆ * ‚ 15 ˆ * ‚ 13 ˆ *4.5 ˆ * * * 11 ˆ * ‚ ‚ ‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14 Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 X

X

Y ‚ r = -1 ‚ -8.0 ˆ *-10.5 ˆ *-13.0 ˆ *-15.5 ˆ *-18.0 ˆ *-20.5 ˆ *-23.0 ˆ *-25.5 ˆ *-28.0 ˆ *-30.5 ˆ *-33.0 ˆ * ‚ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ 4 5 6 7 8 9 10 11 12 13 14

X

Page 14: Régression linéaire simple et multiple

14

Statistiques descriptives

Variable N Moyenne Médiane Écart type Minimum Maximum Totale 79 187253 156761 84401 74365 453744 Terrain 79 65899 59861 22987 35353 131224 Acre 79 1,579 1,040 1,324 0,290 5,880 Pied2 79 1678 1628 635 672 3501Pièces 79 8,519 8,000 2,401 5 18 Chambre 79 3,987 4,000 1,266 2 8 SbainsC 79 2,241 2,000 1,283 1 7 Sbains 79 0,7215 1,000 0,715 0 3 Foyers 79 1,975 2,000 1,368 0 7

Coefficients de corrélation de Pearson

Totale Terrain Acre Pied2 Pièces Chambre SbainsC SbainsTerrain 0,815Acre 0,608 0,918Pied2 0,767 0,516 0,301Pièces 0,626 0,518 0,373 0,563Chambre 0,582 0,497 0,382 0,431 0,791SbainsC 0,626 0,506 0,376 0,457 0,479 0,586Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386

Page 15: Régression linéaire simple et multiple

15

Attention!! Il est important d ’interpréter le coefficient de corrélation avec le graphique.

r = 0.816 dans tous les cas ci-dessous

12.5 ˆ 10 ˆ ‚ ‚ * ‚ ‚ * * * ‚ * ‚ *10.0 ˆ * 8 ˆ * * ‚ ‚ * Y1 ‚ * Y2 ‚ ‚ * * ‚ 7.5 ˆ * * 6 ˆ * ‚ * ‚ ‚ ‚ ‚ * ‚ * 5.0 ˆ * 4 ˆ ‚ * ‚ ‚ ‚ * ‚ ‚ 2.5 ˆ 2 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14

X X 15.0 ˆ Y4 ‚ ‚ 12.5 ˆ * ‚ ‚ ‚ ‚12.5 ˆ * ‚ ‚ ‚ Y3 ‚ 10.0 ˆ ‚ ‚10.0 ˆ ‚ * ‚ ‚ * ‚ * ‚ * ‚ * 7.5 ˆ * 7.5 ˆ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * 5.0 ˆ 5.0 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 8 19

X X

Page 16: Régression linéaire simple et multiple

16

Régression linéaire simple• Pour décrire une relation linéaire entre deux variables

quantitatives ou encore pour pouvoir prédire Y pour une valeur donnée de X, nous utilisons une droite de régression:

• Y = 0 + 1X + • Puisque tout modèle statistique n’est qu’une

approximation (nous espérons la meilleure possible!!), il y a toujours une erreur, notée dans le modèle, car le lien linéaire n’est jamais parfait.

• S ’il y avait une relation linéaire parfaite entre Y et X, le terme d ’erreur serait toujours égale à 0, et toute la variabilité de Y serait expliquée par la variable indépendante X.

Page 17: Régression linéaire simple et multiple

17

OLS: Méthode des moindres carrés

Erreur 1

Erreur 2

Erreur 3

Y = B0+ B1X + e

Y

X

Page 18: Régression linéaire simple et multiple

18

• Donc, pour une valeur donnée de X, nous aimerions estimer Y.

• Ainsi, à l’aide des données de l’échantillon nous estimerons les paramètres 0 et 1 du modèle de régression de façon à minimiser la somme des carrés des erreurs.

• Le coefficient de corrélation au carré est appelé coefficient de détermination et nous indique le pourcentage de la variabilité de Y expliquée par X:

R2 = 1 - (n-2)/(n-1){Se /Sy}2,

où Se est l’écart type des erreurs et Sy est l’écart type de Y.

Page 19: Régression linéaire simple et multiple

19

• On peut également utiliser le coefficient de détermination ajusté pour nous indiquer le pourcentage de la variabilité de Y expliquée par X:

R2ajusté

= 1 - {Se/Sy}2 .

Page 20: Régression linéaire simple et multiple

20

Exemple de régressions linéaires simples:MODÈLE 1.

Regression AnalysisThe regression equation is

Totale = 16209 + 102 Pied2

Predictor Coef StDev T PConstant 16209 17447 0,93 0,356Pied2 101,939 9,734 10,47 0,000

S = 54556 R-Sq = 58,8% R-Sq(adj) = 58,2%

Analysis of Variance

Source DF SS MS F PRegression 1 3,26460E+11 3,26460E+11 109,68 0,000Residual Error 77 2,29181E+11 2976374177Total 78 5,55641E+11

Page 21: Régression linéaire simple et multiple

21

MODÈLE 2.The regression equation is : Totale = - 347 + 22021 Pièces

Predictor Coef StDev T PConstant -347 27621 -0,01 0,990Pièces 22021 3122 7,05 0,000

S = 66210 R-Sq = 39,3% R-Sq(adj) = 38,5%

Analysis of VarianceSource DF SS MS F PRegression 1 2,18090E+11 2,18090E+11 49,75 0,000Residual Error 77 3,37551E+11 4383775699Total 78 5,55641E+11__________________________________________________________________

MODÈLE 3.The regression equation is : Totale = 32428 + 38829 Chambre

Predictor Coef StDev T PConstant 32428 25826 1,26 0,213Chambre 38829 6177 6,29 0,000

S = 69056 R-Sq = 33,9% R-Sq(adj) = 33,1%

Analysis of VarianceSource DF SS MS F PRegression 1 1,88445E+11 1,88445E+11 39,52 0,000Residual Error 77 3,67196E+11 4768775127Total 78 5,55641E+11

Page 22: Régression linéaire simple et multiple

22

• Modèle 1: – valeur totale = 16209 + 102*( # pieds carrés ).

– R2 = 58,8%. Donc 58,8% de la variabilité de la valeur totale est expliquée par le # pieds carrés.

• Modèle 2: – valeur totale = -347 + 22021*( # pièces ).

– R2 = 39,3%. Donc 39,3% de la variabilité de la valeur totale est expliquée par le # pièces.

• Modèle 3: – valeur totale = 32428 + 38829*( # chambres ).

– R2 = 33,9%. Donc 33,9% de la variabilité de la valeur totale est expliquée par le # chambres.

Page 23: Régression linéaire simple et multiple

23

Parmi les 3 modèles précédents, lequel choisiriez vous et pourquoi?

Le modèle 1 car il a la plus grande valeur de R2.

Page 24: Régression linéaire simple et multiple

24

Intervalle de confiance au niveau 1- pour la moyenne des valeurs de Y pour une valeur spécifique de X:

• Pour le modèle 1 et une valeur de X=1500 pi2 on

obtient l ’estimation ponctuelle suivante:

– est. valeur totale = 16 209 + 102*1500 = 169 117$

– intervalle de confiance à 95% pour la moyenne de la

valeur totale pour les propriétés de 1500 pi2 :

[156 418, 181 817]

Page 25: Régression linéaire simple et multiple

25

Intervalle de confiance au niveau 1- pour une nouvelle valeur de Y (prévision) étant donné une valeur spécifique de X:

• Pour le modèle 1 et une valeur de X=1500 pi2 on obtient l’estimation ponctuelle suivante:– est. valeur totale = 16 209 + 101,939*1500 = 169 117$

– intervalle de confiance à 95% pour une valeur totale prédite lorsque la superficie du premier plancher est de 1500 pi2 :

[59 742, 278 492]

• L ’intervalle de confiance pour une valeur prédite est toujours plus grand que pour la moyenne des valeurs de Y pour un X spécifique.

Page 26: Régression linéaire simple et multiple

26

Régression linéaire multiple• Il est fort possible que la variabilité de la variable

dépendante Y soit expliquée non pas par une seule variable indépendante X mais plutôt par une combinaison linéaire de plusieurs variables indépendantes X1, X2, …, Xp.

• Dans ce cas le modèle de régression multiple est donné par:

Y = 0 + 1X1 + 2X2 + … + pXp + • Aussi, à l’aide des données de l’échantillon nous

estimerons les paramètres 0, 1, …, p du modèle de régression de façon à minimiser la somme des carrés des erreurs.

Page 27: Régression linéaire simple et multiple

27

• Le coefficient de corrélation multiple R2 , aussi appelé coefficient de détermination, nous indique le pourcentage de la variabilité de Y expliquée par les variables indépendantes X1, X2, …, Xp.

• Lorsqu’on ajoute une ou plusieurs variables indépendantes dans le modèle, le coefficient R2 augmente.

• La question est de savoir si le coefficient R2 augmente de façon significative.

• Notons qu’on ne peut avoir plus de variables indépendantes dans le modèle qu’il y a d ’observations dans l’échantillon (règle générale: n 5p).

Page 28: Régression linéaire simple et multiple

28

Exemple:MODÈLE 1.The regression equation isTotale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces + 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers

Predictor Coef StDev T PConstant -89131 18302 -4,87 0,000Terrain 3,0518 0,5260 5,80 0,000Acre -20730 7907 -2,62 0,011Pied2 43,336 7,670 5,65 0,000Pièces -4352 3036 -1,43 0,156Chambre 10049 5307 1,89 0,062SbainsC 7606 3610 2,11 0,039Sbains 18725 6585 2,84 0,006Foyers 882 3184 0,28 0,783

S = 29704 R-Sq = 88,9% R-Sq(adj) = 87,6%

Analysis of VarianceSource DF SS MS F PRegression 8 4,93877E+11 61734659810 69,97 0,000Residual Error 70 61763515565 882335937Total 78 5,55641E+11

Page 29: Régression linéaire simple et multiple

29

MODÈLE 2Regression AnalysisThe regression equation isTotale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2 + 4411 Chambre + 8466 SbainsC + 14328 Sbains

Predictor Coef StDev T PConstant -97512 17466 -5,58 0,000Terrain 3,1103 0,5236 5,94 0,000Acre -21880 7884 -2,78 0,007Pied2 40,195 7,384 5,44 0,000Chambre 4411 3469 1,27 0,208SbainsC 8466 3488 2,43 0,018Sbains 14328 5266 2,72 0,008

S = 29763 R-Sq = 88,5% R-Sq(adj) = 87,6%

Analysis of VarianceSource DF SS MS F PRegression 6 4,91859E+11 81976430646 92,54 0,000Residual Error 72 63782210167 885864030Total 78 5,55641E+11

Page 30: Régression linéaire simple et multiple

30

MODÈLE 3Regression AnalysisThe regression equation isTotale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2 + 10234 SbainsC + 14183 Sbains

Predictor Coef StDev T PConstant -90408 16618 -5,44 0,000Terrain 3,2045 0,5205 6,16 0,000Acre -22534 7901 -2,85 0,006Pied2 41,060 7,383 5,56 0,000SbainsC 10234 3213 3,19 0,002Sbains 14183 5287 2,68 0,009

S = 29889 R-Sq = 88,3% R-Sq(adj) = 87,5%

Analysis of VarianceSource DF SS MS F PRegression 5 4,90426E+11 98085283380 109,80 0,000Residual Error 73 65214377146 893347632Total 78 5,55641E+11

Page 31: Régression linéaire simple et multiple

31

Modèle sans la superficie du terrain ( # d ’acres ) à cause de la multicolinéarité avec la valeur du terrain.

MODÈLE 4The regression equation isTotale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC + 18430 Sbains

Predictor Coef StDev T PConstant -55533 11783 -4,71 0,000Terrain 1,8159 0,1929 9,42 0,000Pied2 49,833 7,028 7,09 0,000SbainsC 11696 3321 3,52 0,001Sbains 18430 5312 3,47 0,001

S = 31297 R-Sq = 87,0% R-Sq(adj) = 86,3%

Analysis of VarianceSource DF SS MS F PRegression 4 4,83160E+11 1,20790E+11 123,32 0,000Residual Error 74 72481137708 979474834Total 78 5,55641E+11

Page 32: Régression linéaire simple et multiple

32

Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi?

• Probablement le modèle 4 car toutes les variables indépendantes sont significatives au niveau 5% (c.-à-d. p-value < 5% pour chaque dans le modèle) et bien que le R2 soit plus petit, il n ’est que marginalement plus petit. De plus tous les coefficients du modèle ont « du sens »!

• Dans le modèle 1 les variables ‘ # de pièces ’ et ‘ # de foyers ’ ne sont pas statistiquement significatives au niveau 5% (p-value > 5%). La variable ‘ # de chambres ’ est à la limite avec un p-value = 0,0624.

Page 33: Régression linéaire simple et multiple

33

Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi?

• Dans le modèle 2 la variable ‘ # de chambres ’ n ’est pas statistiquement significative au niveau 5%.

• Dans le modèle 3 (et les modèles précédents), le coefficient de la variable ‘ # d ’acres ’ est négatif ce qui est à l ’encontre du « bon sens » et de ce qu ’on a observé sur le diagramme de dispersion et le coefficient de corrélation de Pearson positif (r = 0,608).

• Le coefficient négatif pour la variable ‘ # d ’acres ’ dans les modèles 1 à 3 est causé par le fait qu ’il y a une forte relation linéaire entre la valeur du terrain et la superficie du terrain (r = 0,918); problème de multicolinéarité.

Page 34: Régression linéaire simple et multiple

34

Comment choisir un modèle de régression linéaire parmi tous les modèles possibles?

Il existe plusieurs techniques:• sélection pas à pas en ajoutant une variable à la fois et

en commençant par la plus significative (stepwise, forward).

• sélection à partir du modèle incluant toutes les variables et en enlevant une variable à la fois en commençant par la moins significative (backward).

• faire tous les modèles possibles et choisir le meilleur sous-ensemble de variables (best subset) selon certains critères spécifiques (ex: R2

ajusté, Cp de Mallow.)

Page 35: Régression linéaire simple et multiple

35

Exemple de sélection parmi les meilleurs sous-ensembles:Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r A i è m i a y a c e c b n i e Adj. i r d e r s n r Vars R-Sq R-Sq C-p s n e 2 s e C s s

1 66,4 65,9 136,8 49262 X 1 58,8 58,2 184,7 54556 X 1 39,3 38,5 307,6 66210 X

2 82,7 82,2 35,9 35564 X X 2 78,8 78,3 60,3 39343 X X 2 74,4 73,7 88,1 43244 X X

3 85,6 85,0 19,5 32637 X X X 3 84,8 84,2 24,5 33521 X X X 3 84,8 84,2 24,9 33591 X X X

4 87,1 86,4 12,2 31115 X X X X 4 87,0 86,3 13,1 31297 X X X X 4 86,6 85,9 15,2 31682 X X X X

5 88,3 87,5 6,9 29889 X X X X X 5 87,6 86,7 11,2 30744 X X X X X 5 87,4 86,5 12,4 30979 X X X X X

6 88,5 87,6 7,3 29763 X X X X X X 6 88,3 87,3 8,6 30030 X X X X X X 6 88,3 87,3 8,9 30096 X X X X X X

7 88,9 87,8 7,1 29510 X X X X X X X 7 88,6 87,4 9,1 29924 X X X X X X X 7 88,3 87,2 10,6 30240 X X X X X X X

8 88,9 87,6 9,0 29704 X X X X X X X X

Page 36: Régression linéaire simple et multiple

36

Sélection du modèle sans la variable # d ’acres

Best Subsets Regression : Response is Totale

T C S e P h b S F r P i a a b o r i è m i a y a e c b n i e Adj. i d e r s n r Vars R-Sq R-Sq C-p s n 2 s e C s s

1 66,4 65,9 120,6 49262 X 1 58,8 58,2 164,9 54556 X 1 39,3 38,5 278,3 66210 X 2 82,7 82,2 27,6 35564 X X 2 72,7 71,9 86,0 44704 X X 2 72,5 71,8 86,8 44813 X X 3 84,8 84,2 17,2 33521 X X X 3 84,8 84,2 17,6 33591 X X X 3 84,0 83,3 22,3 34467 X X X 4 87,0 86,3 6,9 31297 X X X X 4 86,1 85,3 12,1 32352 X X X X 4 85,3 84,5 16,5 33226 X X X X 5 87,3 86,4 6,9 31100 X X X X X 5 87,0 86,1 8,5 31439 X X X X X 5 87,0 86,1 8,9 31509 X X X X X 6 87,8 86,8 6,1 30707 X X X X X X 6 87,3 86,3 8,7 31264 X X X X X X 6 87,0 85,9 10,5 31656 X X X X X X 7 87,8 86,6 8,0 30908 X X X X X X X

Page 37: Régression linéaire simple et multiple

37

Le choix du meilleur modèle se fait selon la combinaison:

• La plus grande valeur de R2 ajusté pour le nombre de variables dans le modèle.

• La plus petite valeur de Cp .

• Pour les modèles avec R2 ajusté et Cp comparables, on

choisira le modèle qui a le plus de « sens » selon les experts dans le domaine.

• Pour les modèles avec R2 ajusté et Cp comparables, le

modèle avec les variables indépendantes les plus faciles et moins coûteuses à mesurer.

• La validité du modèle.

Page 38: Régression linéaire simple et multiple

38

Intervalle de confiance au niveau 1- pour la moyenne de Y et une nouvelle valeur de Y (prévision) étant donné une combinaison de valeurs spécifiques pour X1, X2, …, Xp .

• Pour le modèle 4 et une propriété avec terrain= 65 000$, pi2 = 1500, 2 salles de bain complète et 1 non-complète, on obtient l’estimation ponctuelle suivante:– est. valeur totale = -55 533 + 1,816*65 000 + 49,833*1 500 +

11 696*2 + 18 430*1 = 179 074$

– intervalle de confiance à 95% pour la moyenne de la valeur totale:

[170 842, 187 306]

– intervalle de confiance à 95% pour une valeur totale prédite :

[116 173, 241 974]

Page 39: Régression linéaire simple et multiple

39

Remarques:• Les longueurs des intervalles de confiance au niveau 95% du

modèle de régression multiple pour une propriété de 1500 pi2 sont plus petites que pour le modèle de régression simple.

• Donc l’addition de plusieurs autres variables dans le modèle a aidé à expliquer encore plus la variabilité de la valeur totale et à améliorer nos estimations.

• Si deux ou plusieurs variables indépendantes sont corrélées on dira qu’il y a multicolinéarité. Ceci peut influencer les valeurs des paramètres dans le modèle.

• Aussi, si deux variables indépendantes sont fortement corrélées, alors seulement une des deux variables sera incluse dans le modèle, l ’autre n ’apportant que très peu d ’information supplémentaire.

• Certaines conditions sont nécessaires à la validité du modèle et de l ’inférence correspondante (similaire à la régression linéaire simple).

Page 40: Régression linéaire simple et multiple

40

Exemple avec une variable qualitative à deux niveaux que l’on codera 0 et 1 dans le modèle:

The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC + 18899 Sbains + 22372 Garage

Predictor Coef StDev T PConstant -72080 14175 -5,08 0,000Terrain 1,8342 0,1892 9,69 0,000Pied2 47,175 7,013 6,73 0,000SbainsC 11535 3256 3,54 0,001Sbains 18899 5211 3,63 0,001Garage 22372 11116 2,01 0,048

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=1)

Fit StDev Fit 95,0% CI 95,0% PI 182248 4345 ( 173588; 190908) ( 120511; 243985)

Page 41: Régression linéaire simple et multiple

41

Exemple avec une variable qualitative à deux niveaux que l’on codera 0 et 1 dans le modèle:

The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC + 18899 Sbains + 22372 Garage

Predictor Coef StDev T PConstant -72080 14175 -5,08 0,000Terrain 1,8342 0,1892 9,69 0,000Pied2 47,175 7,013 6,73 0,000SbainsC 11535 3256 3,54 0,001Sbains 18899 5211 3,63 0,001Garage 22372 11116 2,01 0,048

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=0)

Fit StDev Fit 95,0% CI 95,0% PI159876 10362 ( 139224; 180528) ( 95355; 224397)