Statistique 51-601-02 Cours #4 Régression linéaire simple et multiple

11

Statistique 51-601-02Statistique 51-601-02

Cours #4Cours #4

Régression linéaire Régression linéaire simple et multiplesimple et multiple

22

ExempleExemple

Avant de construire un complexe hôtelier, Avant de construire un complexe hôtelier, l’architecte doit estimer l’affluence l’architecte doit estimer l’affluence journalière. journalière.

Comment peut-il l’estimer?Comment peut-il l’estimer? La ville compte 2 d’habitants.La ville compte 2 d’habitants.

33

SolutionsSolutions

On pourrait réaliser une étude de marché On pourrait réaliser une étude de marché locale. Cependant c’est assez imprécis, locale. Cependant c’est assez imprécis, surtout pour de nouveaux projets. surtout pour de nouveaux projets.

On pourrait utiliser des données pour des On pourrait utiliser des données pour des projets similaires dans d’autres villes. projets similaires dans d’autres villes.

44

Qu’en pensez-vous?Qu’en pensez-vous?Peut-on faire mieux?Peut-on faire mieux?

Ville 1 2 3 4 5 6 7 8 9 10Affluence (x1000) 10 12 8 10 14 20 30 16 4 12

55

Probablement, si on tient Probablement, si on tient compte de la grosseur des villescompte de la grosseur des villesVille 1 2 3 4 5 6 7 8 9 10Affluence (x1 000) 10 12 8 10 14 20 30 16 4 12Population (millions)0,70 0,90 0,50 0,75 1,40 1,50 2,30 1,40 0,25 0,95

0

5

10

15

20

25

30

35

0.00 0.50 1.00 1.50 2.00 2.50

66

Étude de cas: Ice Cream SalesÉtude de cas: Ice Cream Sales Le fichier file Le fichier file icecreamicecream..xls xls contient des paires de contient des paires de

données représentant les ventes de crème données représentant les ventes de crème glacée et la température journalières, pour 30 glacée et la température journalières, pour 30 journées choisies au hasard.journées choisies au hasard.

Est-ce qu’il semble y avoir une relation entre la Est-ce qu’il semble y avoir une relation entre la température et les ventes?température et les ventes?

Pourrait-on prévoir les ventes à partir de la Pourrait-on prévoir les ventes à partir de la température?température?

Si oui, quelle est la prévision pour une Si oui, quelle est la prévision pour une température de 9.5? Est-ce près de la valeur température de 9.5? Est-ce près de la valeur observée?observée?

http://www.hec.ca/sites/cours/51-601-02/Excel/icecream.xls



77

Introduction:Introduction: Un des objectifs principaux de la statistique est Un des objectifs principaux de la statistique est

d ’expliquer la variabilité que l ’on observe dans d ’expliquer la variabilité que l ’on observe dans les données.les données.

La régression linéaire (ou les modèles linéaires) La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ pour est un outil statistique TRÈS UTILISÉ pour étudier la présence d ’une relation entre une étudier la présence d ’une relation entre une variable dépendante variable dépendante YY (quantitative et continue) (quantitative et continue) et une ou plusieurs variables indépendantes et une ou plusieurs variables indépendantes XX11, X, X22, …, X, …, Xpp (qualitatives et/ou quantitatives).(qualitatives et/ou quantitatives).

88

Par exemple, un gestionnaire peut être Par exemple, un gestionnaire peut être intéressé à voir s ’il peut expliquer une bonne intéressé à voir s ’il peut expliquer une bonne part de la variabilité qu ’il observe dans les part de la variabilité qu ’il observe dans les ventes (variable dépendante Y) dans ses ventes (variable dépendante Y) dans ses différentes succursales au cours des 12 différentes succursales au cours des 12 derniers mois par la superficie, le nombre derniers mois par la superficie, le nombre d ’employés, le nombre d ’heures d ’employés, le nombre d ’heures supplémentaires payées, la qualité du service supplémentaires payées, la qualité du service à la clientèle, la quantité des promotions etc. à la clientèle, la quantité des promotions etc. (variables indépendantes ou explicatives).(variables indépendantes ou explicatives).

99

Un modèle de régression peut Un modèle de régression peut servir à répondre à un des 3 servir à répondre à un des 3 objectifs suivants:objectifs suivants:

Décrire (données provenant d ’études Décrire (données provenant d ’études non-expérimentales c.-à-d. on observe non-expérimentales c.-à-d. on observe la réalité telle qu’elle est).la réalité telle qu’elle est).

Confronter des hypothèses (données Confronter des hypothèses (données provenant d ’études expérimentales provenant d ’études expérimentales contrôlées). contrôlées).

Prédire (si on aime le risque!!).Prédire (si on aime le risque!!).

1010

Exemple:Exemple:Nous sommes intéressés à savoir quels sont lesfacteurs importants qui influencent ou déterminent la valeur d ’une propriété et de construire un modèle qui nous aidera à évaluer cette valeur selon ces facteurs. Pour ce faire, nous avons obtenu la valeur totale pour un échantillon de 79 propriétés dans une région donnée. Les variables suivantes ont également été recueillies pour chacune des propriétés:

1111

Bref aperçu du fichier de données:Bref aperçu du fichier de données: ::maisons.maisons.xlsxls

# pieds carrés condition valeur valeur du premier de type deOBS totale terrain # d'acres plancher l'extérieur chauffage

1 199657 63247 1.63 1726 Good NatGas 2 78482 38091 0.495 1184 Good NatGas 3 119962 37665 0.375 1014 Good Electric 4 116492 54062 0.981 1260 Average Electric 5 131263 61546 1.14 1314 Average NatGas ... 78 253480 57948 0.862 1720 Good Electric 79 257037 57489 0.95 2004 Excellnt Electric # salles # salles de # de # de de bain bain non # deOBS pièces chambres complète complète foyers GARAGE

1 8 4 2 1 2 Garage 2 6 2 1 0 0 NoGarage 3 7 3 2 0 1 Garage 4 6 3 2 0 1 Garage 5 8 4 2 1 2 NoGarage ... 78 10 5 5 1 1 Garage 79 9 4 2 2 2 Garage

http://www.hec.ca/sites/cours/51-601-02/Excel/maisons.xls

http://www.hec.ca/sites/cours/51-601-02/Excel/maisons.xls

1212

Est-ce qu ’il y a un lien entre la valeur totale Est-ce qu ’il y a un lien entre la valeur totale et ces différents facteurs?et ces différents facteurs?

1400009000040000

450000

350000

250000

150000

50000

Terrain

Tota

le

1313

6543210

450000

350000

250000

150000

50000

Acre

Tota

le

500 1500 2500 3500

50000

150000

250000

350000

450000

Pied2

Tota

le

5 10 15

50000

150000

250000

350000

450000

Pièces

Tota

le

2 3 4 5 6 7 8

50000

150000

250000

350000

450000

Chambre

Tota

le

1414

1 2 3 4 5 6 7

50000

150000

250000

350000

450000

SbainsC

Tota

le

0 1 2 3

50000

150000

250000

350000

450000

Sbains

Tota

le

0 1 2 3 4 5 6 7

50000

150000

250000

350000

450000

Foyers

Tota

le

NoGarage Garage50000

150000

250000

350000

450000

Garage

Tota

le

1515

Le coefficient de corrélation Le coefficient de corrélation rr de Pearson de Pearson sert à mesurer l’intensité de la relation sert à mesurer l’intensité de la relation linéairelinéaire entre deux variables quantitatives. entre deux variables quantitatives.

Le coefficient de corrélation Le coefficient de corrélation rr prendra des valeurs prendra des valeurs entre -1 et 1.entre -1 et 1.

S ’il existe une relation S ’il existe une relation linéaire parfaitelinéaire parfaite entre entre XX et et YY alors alors rr = = 1 (1 (rr =1 si =1 si XX et et YY varient dans le même sens varient dans le même sens et et rr = -1 si = -1 si XX varie dans le sens opposé à varie dans le sens opposé à YY).).

Si Si rr = 0, ceci indique qu ’il n ’y a pas de lien linéaire = 0, ceci indique qu ’il n ’y a pas de lien linéaire entre entre XX et et YY..

Plus la valeur de Plus la valeur de rr s ’éloigne de 0 pour s ’approcher de s ’éloigne de 0 pour s ’approcher de 1 plus l ’intensité du lien linéaire entre 1 plus l ’intensité du lien linéaire entre XX et et YY grandit. grandit.

1616

Y ‚6.5 ˆ * r = 0.035 Y ‚ r = 1 ‚ ‚ ‚ 31 ˆ *6.0 ˆ * * 29 ˆ * ‚ 27 ˆ * ‚ 25 ˆ *5.5 ˆ * * 23 ˆ * ‚ 21 ˆ * ‚ 19 ˆ *5.0 ˆ * 17 ˆ * ‚ 15 ˆ * ‚ 13 ˆ *4.5 ˆ * * * 11 ˆ * ‚ ‚ ‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14 Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 X

X

Y ‚ r = -1 ‚ -8.0 ˆ *-10.5 ˆ *-13.0 ˆ *-15.5 ˆ *-18.0 ˆ *-20.5 ˆ *-23.0 ˆ *-25.5 ˆ *-28.0 ˆ *-30.5 ˆ *-33.0 ˆ * ‚ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ 4 5 6 7 8 9 10 11 12 13 14

X

1717

Statistiques descriptives

Variable N Moyenne Médiane Écart type Minimum Maximum Totale 79 187253 156761 84401 74365 453744 Terrain 79 65899 59861 22987 35353 131224 Acre 79 1,579 1,040 1,324 0,290 5,880 Pied2 79 1678 1628 635 672 3501Pièces 79 8,519 8,000 2,401 5 18 Chambre 79 3,987 4,000 1,266 2 8 SbainsC 79 2,241 2,000 1,283 1 7 Sbains 79 0,7215 1,000 0,715 0 3 Foyers 79 1,975 2,000 1,368 0 7

Coefficients de corrélation de Pearson

Totale Terrain Acre Pied2 Pièces Chambre SbainsC SbainsTerrain 0,815Acre 0,608 0,918Pied2 0,767 0,516 0,301Pièces 0,626 0,518 0,373 0,563Chambre 0,582 0,497 0,382 0,431 0,791SbainsC 0,626 0,506 0,376 0,457 0,479 0,586Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386

1818

Attention!! Il est important d ’interpréter le Attention!! Il est important d ’interpréter le coefficient de corrélation avec le graphique.coefficient de corrélation avec le graphique.

r = 0.816 dans tous les cas ci-dessous

12.5 ˆ 10 ˆ ‚ ‚ * ‚ ‚ * * * ‚ * ‚ *10.0 ˆ * 8 ˆ * * ‚ ‚ * Y1 ‚ * Y2 ‚ ‚ * * ‚ 7.5 ˆ * * 6 ˆ * ‚ * ‚ ‚ ‚ ‚ * ‚ * 5.0 ˆ * 4 ˆ ‚ * ‚ ‚ ‚ * ‚ ‚ 2.5 ˆ 2 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14

X X 15.0 ˆ Y4 ‚ ‚ 12.5 ˆ * ‚ ‚ ‚ ‚12.5 ˆ * ‚ ‚ ‚ Y3 ‚ 10.0 ˆ ‚ ‚10.0 ˆ ‚ * ‚ ‚ * ‚ * ‚ * ‚ * 7.5 ˆ * 7.5 ˆ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * 5.0 ˆ 5.0 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 8 19

X X

1919

Régression linéaire simpleRégression linéaire simple Pour décrire une relation linéaire entre deux Pour décrire une relation linéaire entre deux

variables quantitatives ou encore pour pouvoir variables quantitatives ou encore pour pouvoir prédire prédire YY pour une valeur donnée de pour une valeur donnée de XX, nous , nous utilisons une droite de régression:utilisons une droite de régression:

YY = = 00 + + 11XX + + Puisque tout modèle statistique n’est qu’une Puisque tout modèle statistique n’est qu’une

approximation (nous espérons la meilleure approximation (nous espérons la meilleure possible!!), il y a toujours une erreur, notée possible!!), il y a toujours une erreur, notée dans dans le modèle, car le lien linéaire n’est jamais parfait. le modèle, car le lien linéaire n’est jamais parfait.

S ’il y avait une relation linéaire parfaite entre S ’il y avait une relation linéaire parfaite entre YY et et XX, le terme d ’erreur serait toujours égale à 0, et , le terme d ’erreur serait toujours égale à 0, et toute la variabilité de toute la variabilité de YY serait expliquée par la serait expliquée par la variable indépendante variable indépendante XX..

2020

Donc, pour une valeur donnée de Donc, pour une valeur donnée de XX, nous , nous aimerions estimer aimerions estimer YY. .

Ainsi, à l’aide des données de l’échantillon nous Ainsi, à l’aide des données de l’échantillon nous estimerons les paramètres estimerons les paramètres 00 et et 11 du modèle de du modèle de régression de façon à minimiser la somme des régression de façon à minimiser la somme des carrés des erreurs.carrés des erreurs.

Le coefficient de corrélation Le coefficient de corrélation au carréau carré est appelé est appelé coefficient de détermination et nous indique le coefficient de détermination et nous indique le pourcentage de la variabilité de pourcentage de la variabilité de YY expliquée par expliquée par XX::

RR22 = 1 - (n-2)/(n-1){S = 1 - (n-2)/(n-1){See /S /Syy}}22, , où Soù See est l’écart type des erreurs et S est l’écart type des erreurs et Syy est est l’écart type de Y.l’écart type de Y.

2121

On peut également utiliser le coefficient de On peut également utiliser le coefficient de détermination ajusté pour nous indiquer le détermination ajusté pour nous indiquer le pourcentage de la variabilité de pourcentage de la variabilité de YY expliquée par expliquée par XX::

RR22ajustéajusté

= 1 - {S = 1 - {See/S/Syy}}22 . .

2222

Exemple de régressions linéaires Exemple de régressions linéaires simples:simples:

MODÈLE 1.

Regression AnalysisThe regression equation is

Totale = 16209 + 102 Pied2

Predictor Coef StDev T PConstant 16209 17447 0,93 0,356Pied2 101,939 9,734 10,47 0,000

S = 54556 R-Sq = 58,8% R-Sq(adj) = 58,2%

Analysis of Variance

Source DF SS MS F PRegression 1 3,26460E+11 3,26460E+11 109,68 0,000Residual Error 77 2,29181E+11 2976374177Total 78 5,55641E+11

2323

MODÈLE 2.The regression equation is : Totale = - 347 + 22021 Pièces

Predictor Coef StDev T PConstant -347 27621 -0,01 0,990Pièces 22021 3122 7,05 0,000

S = 66210 R-Sq = 39,3% R-Sq(adj) = 38,5%

Analysis of VarianceSource DF SS MS F PRegression 1 2,18090E+11 2,18090E+11 49,75 0,000Residual Error 77 3,37551E+11 4383775699Total 78 5,55641E+11__________________________________________________________________

MODÈLE 3.The regression equation is : Totale = 32428 + 38829 Chambre

Predictor Coef StDev T PConstant 32428 25826 1,26 0,213Chambre 38829 6177 6,29 0,000

S = 69056 R-Sq = 33,9% R-Sq(adj) = 33,1%

Analysis of VarianceSource DF SS MS F PRegression 1 1,88445E+11 1,88445E+11 39,52 0,000Residual Error 77 3,67196E+11 4768775127Total 78 5,55641E+11

2424

Modèle 1Modèle 1: : valeur totalevaleur totale = 16209 + 102*( = 16209 + 102*( # pieds carrés# pieds carrés ). ). RR22 = 58,8%. Donc 58,8% de la variabilité de la valeur = 58,8%. Donc 58,8% de la variabilité de la valeur

totale est expliquée par le totale est expliquée par le # pieds carrés# pieds carrés.. Modèle 2Modèle 2: :

valeur totalevaleur totale = -347 + 22021*( = -347 + 22021*( # pièces# pièces ). ). RR22 = 39,3%. Donc 39,3% de la variabilité de la valeur = 39,3%. Donc 39,3% de la variabilité de la valeur

totale est expliquée par le totale est expliquée par le # pièces# pièces.. Modèle 3Modèle 3::

valeur totalevaleur totale = 32428 + 38829*( = 32428 + 38829*( # chambres# chambres ). ). RR22 = 33,9%. Donc 33,9% de la variabilité de la valeur = 33,9%. Donc 33,9% de la variabilité de la valeur

totale est expliquée par le totale est expliquée par le # chambres# chambres..

2525

Parmi les 3 modèles précédents, Parmi les 3 modèles précédents, lequel choisiriez vous et pourquoi?lequel choisiriez vous et pourquoi?

Le Le modèle 1modèle 1 car il a la plus grande valeur de car il a la plus grande valeur de RR22. .

2626

Intervalle de confiance au niveau 1-Intervalle de confiance au niveau 1- pour la pour la moyenne des valeurs de moyenne des valeurs de YY pour une valeur pour une valeur spécifique de spécifique de XX::

Pour le Pour le modèle 1modèle 1 et une valeur de et une valeur de XX==1500 1500 pipi22 on obtient l ’estimation ponctuelleon obtient l ’estimation ponctuelle suivante:suivante: est. valeur totaleest. valeur totale = 16 209 + 102* = 16 209 + 102*15001500 = 169 117$ = 169 117$

intervalle de confiance à 95% pour la moyenne de la intervalle de confiance à 95% pour la moyenne de la valeur totalevaleur totale pour les propriétés de pour les propriétés de 15001500 pi pi22 : : [156 418, 181 817][156 418, 181 817]

2727

Intervalle de confiance au niveau 1-Intervalle de confiance au niveau 1- pour une pour une nouvelle valeur de nouvelle valeur de YY (prévision) étant donné (prévision) étant donné une valeur spécifique de une valeur spécifique de XX:: Pour le Pour le modèle 1modèle 1 et une valeur de et une valeur de X X==15001500 pi pi22

on obtient l’estimation ponctuelle suivante:on obtient l’estimation ponctuelle suivante: est. valeur totaleest. valeur totale = 16 209 + 101,939* = 16 209 + 101,939*15001500 = 169 = 169

117$117$ intervalle de confiance à 95% pour une valeur intervalle de confiance à 95% pour une valeur

totale prédite lorsque la superficie du premier totale prédite lorsque la superficie du premier plancher est de plancher est de 15001500 pi pi22 : :

[59 742, 278 492][59 742, 278 492] L ’intervalle de confiance pour une valeur prédite est L ’intervalle de confiance pour une valeur prédite est

toujours toujours plus grandplus grand que pour la moyenne des valeurs que pour la moyenne des valeurs de de YY pour un pour un XX spécifique. spécifique.

2828

Inférence sur les paramètres du modèle de Inférence sur les paramètres du modèle de régression:régression: S’il n ’y a pas de lien linéaire entre S’il n ’y a pas de lien linéaire entre YY et et XX

alors alors 1 1 = 0. Donc, nous voulons confronter = 0. Donc, nous voulons confronter les hypothèses suivantes:les hypothèses suivantes: HH00 : : 1 1 = 0 vs H= 0 vs H11 : : 11 0 0

On rejettera On rejettera HH00 lorsque le ‘ p-value ’ sera petit lorsque le ‘ p-value ’ sera petit Ce test sera valide siCe test sera valide si

la relation entre la relation entre X et YX et Y est linéaire est linéaire les données sont indépendantesles données sont indépendantes la variance de la variance de Y Y est la même pour toutes les valeurs est la même pour toutes les valeurs

de de XX YY est distribuée selon une loi normale pour toutes les est distribuée selon une loi normale pour toutes les

valeurs de valeurs de XX

2929

Régression linéaire multipleRégression linéaire multiple Il est fort possible que la variabilité de la variable Il est fort possible que la variabilité de la variable

dépendante dépendante YY soit expliquée non pas par une soit expliquée non pas par une seule variable indépendante X mais plutôt par une seule variable indépendante X mais plutôt par une combinaison linéaire de plusieurs variables combinaison linéaire de plusieurs variables indépendantes indépendantes XX11, X, X22, …, X, …, Xpp. .

Dans ce cas le modèle de régression multiple est Dans ce cas le modèle de régression multiple est donné par:donné par:

YY = = 00 + + 11XX11 + + 22XX22 + … + + … + ppXXpp + + Aussi, à l’aide des données de l’échantillon nous Aussi, à l’aide des données de l’échantillon nous

estimerons les paramètres estimerons les paramètres 00, , 11, …, , …, pp du modèle du modèle de régression de façon à minimiser la somme des de régression de façon à minimiser la somme des carrés des erreurs.carrés des erreurs.

3030

Le coefficient de corrélation multiple Le coefficient de corrélation multiple RR22 , aussi appelé , aussi appelé coefficient de détermination, nous indique le coefficient de détermination, nous indique le pourcentage de la variabilité de pourcentage de la variabilité de YY expliquée par les expliquée par les variables indépendantes variables indépendantes XX11, X, X22, …, X, …, Xpp. .

Lorsqu’on ajoute une ou plusieurs variables Lorsqu’on ajoute une ou plusieurs variables indépendantes dans le modèle, le coefficient indépendantes dans le modèle, le coefficient RR22 augmente.augmente.

La question est de savoir si le coefficient La question est de savoir si le coefficient RR22 augmente augmente de façon significative. de façon significative.

Notons qu’on ne peut avoir plus de variables Notons qu’on ne peut avoir plus de variables indépendantes dans le modèle qu’il y a d ’observations indépendantes dans le modèle qu’il y a d ’observations dans l’échantillon (règle générale: n dans l’échantillon (règle générale: n 5p). 5p).

3131

La rLa réégression est-elle gression est-elle significative?significative?

Ici on veut tester les hypothèses suivantes:Ici on veut tester les hypothèses suivantes:

HH00: : kk = 0, i.e. la régression = 0, i.e. la régression n’est pas significative;n’est pas significative;

HH11: : ou ou ……ou ou kk i.e.i.e.la la régression est significative.régression est significative.

On rejette HOn rejette H00 si la p-value du tableau d’analyse si la p-value du tableau d’analyse de la variance est inférieure à de la variance est inférieure à ..

3232

Quelles variables enlever?Quelles variables enlever? Les tableaux obtenus avec Excel nous Les tableaux obtenus avec Excel nous

fournissent aussi la p-value correspondant aux fournissent aussi la p-value correspondant aux tests sur chacune des variables:tests sur chacune des variables:

HH00: : ii 0, i.e. la variable X0, i.e. la variable X ii peut être enlevée peut être enlevée (si on garde les autres variables);(si on garde les autres variables);

HH11: : iii.e.i.e.la variable Xla variable Xii ne peut pas être ne peut pas être enlevée. enlevée.

On rejette HOn rejette H00 si la p-value correspondante est si la p-value correspondante est inférieure à inférieure à ..

3333

Exemple:Exemple:MODÈLE 1.The regression equation isTotale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces + 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers

Predictor Coef StDev T PConstant -89131 18302 -4,87 0,000Terrain 3,0518 0,5260 5,80 0,000Acre -20730 7907 -2,62 0,011Pied2 43,336 7,670 5,65 0,000Pièces -4352 3036 -1,43 0,156Chambre 10049 5307 1,89 0,062SbainsC 7606 3610 2,11 0,039Sbains 18725 6585 2,84 0,006Foyers 882 3184 0,28 0,783

S = 29704 R-Sq = 88,9% R-Sq(adj) = 87,6%

Analysis of VarianceSource DF SS MS F PRegression 8 4,93877E+11 61734659810 69,97 0,000Residual Error 70 61763515565 882335937Total 78 5,55641E+11

3434

MODÈLE 2Regression AnalysisThe regression equation isTotale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2 + 4411 Chambre + 8466 SbainsC + 14328 Sbains

Predictor Coef StDev T PConstant -97512 17466 -5,58 0,000Terrain 3,1103 0,5236 5,94 0,000Acre -21880 7884 -2,78 0,007Pied2 40,195 7,384 5,44 0,000Chambre 4411 3469 1,27 0,208SbainsC 8466 3488 2,43 0,018Sbains 14328 5266 2,72 0,008

S = 29763 R-Sq = 88,5% R-Sq(adj) = 87,6%


3535

MODÈLE 3Regression AnalysisThe regression equation isTotale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2 + 10234 SbainsC + 14183 Sbains

Predictor Coef StDev T PConstant -90408 16618 -5,44 0,000Terrain 3,2045 0,5205 6,16 0,000Acre -22534 7901 -2,85 0,006Pied2 41,060 7,383 5,56 0,000SbainsC 10234 3213 3,19 0,002Sbains 14183 5287 2,68 0,009

S = 29889 R-Sq = 88,3% R-Sq(adj) = 87,5%


3636

Modèle sans la superficie du terrain Modèle sans la superficie du terrain ( # d ’acres)( # d ’acres) à à cause de la multicolinéarité avec la valeur du terrain.cause de la multicolinéarité avec la valeur du terrain.MODÈLE 4The regression equation isTotale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC + 18430 Sbains

Predictor Coef StDev T PConstant -55533 11783 -4,71 0,000Terrain 1,8159 0,1929 9,42 0,000Pied2 49,833 7,028 7,09 0,000SbainsC 11696 3321 3,52 0,001Sbains 18430 5312 3,47 0,001

S = 31297 R-Sq = 87,0% R-Sq(adj) = 86,3%

Analysis of VarianceSource DF SS MS F PRegression 4 4,83160E+11 1,20790E+11 123,32 0,000Residual Error 74 72481137708 979474834Total 78 5,55641E+11

3737


Probablement le Probablement le modèle 4modèle 4 car toutes les variables car toutes les variables indépendantes sont significatives au niveau 5% indépendantes sont significatives au niveau 5% (c.-à-d. (c.-à-d. p-valuep-value < 5% pour chaque < 5% pour chaque dans le dans le modèle) et bien que le modèle) et bien que le RR22 soit plus petit, il n ’est soit plus petit, il n ’est que marginalement plus petit. De plus tous les que marginalement plus petit. De plus tous les coefficients du modèle ont « du sens »!coefficients du modèle ont « du sens »!

Dans le Dans le modèle 1modèle 1 les variables ‘ les variables ‘ # de pièces# de pièces ’ et ‘ ’ et ‘ # # de foyersde foyers ’ ne sont pas statistiquement ’ ne sont pas statistiquement significatives au niveau 5% (significatives au niveau 5% (p-value p-value > 5%). La > 5%). La variable ‘ variable ‘ # de chambres# de chambres ’ est à la limite avec un ’ est à la limite avec un p-p-value value = 0,0624.= 0,0624.

3838


Dans le Dans le modèle 2modèle 2 la variable ‘ la variable ‘ # de chambres# de chambres ’ n ’est ’ n ’est pas statistiquement significative au niveau 5%.pas statistiquement significative au niveau 5%.

Dans le Dans le modèle 3modèle 3 (et les modèles précédents), le (et les modèles précédents), le coefficient de la variable ‘ coefficient de la variable ‘ # d ’acres# d ’acres ’ est négatif ce qui ’ est négatif ce qui est à l ’encontre du « bon sens » et de ce qu ’on a est à l ’encontre du « bon sens » et de ce qu ’on a observé sur le diagramme de dispersion et le observé sur le diagramme de dispersion et le coefficient de corrélation de Pearson positif (r = 0,608).coefficient de corrélation de Pearson positif (r = 0,608).

Le coefficient négatif pour la variable ‘ Le coefficient négatif pour la variable ‘ # d ’acres# d ’acres ’ dans ’ dans les les modèles 1 à 3modèles 1 à 3 est causé par le fait qu ’il y a une est causé par le fait qu ’il y a une forte relation linéaire entre la valeur du terrain et la forte relation linéaire entre la valeur du terrain et la superficie du terrain (r = 0,918); problème de superficie du terrain (r = 0,918); problème de multicolinéarité.multicolinéarité.

3939

Comment choisir un modèle de régression Comment choisir un modèle de régression linéaire parmi tous les modèles possibles?linéaire parmi tous les modèles possibles?

Il existe plusieurs techniques:Il existe plusieurs techniques: sélection pas à pas en ajoutant une variable à la fois sélection pas à pas en ajoutant une variable à la fois

et en commençant par la plus significative (stepwise, et en commençant par la plus significative (stepwise, forward).forward).

sélection à partir du modèle incluant toutes les sélection à partir du modèle incluant toutes les variables et en enlevant une variable à la fois en variables et en enlevant une variable à la fois en commençant par la moins significative (backward).commençant par la moins significative (backward).

faire tous les modèles possibles et choisir le meilleur faire tous les modèles possibles et choisir le meilleur sous-ensemble de variables (best subset) selon sous-ensemble de variables (best subset) selon certains critères spécifiques (ex: certains critères spécifiques (ex: RR22

ajustéajusté, , CCpp de de Mallow.)Mallow.)

4040

Exemple de sélection parmi les meilleurs sous-Exemple de sélection parmi les meilleurs sous-ensembles:ensembles:

Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r A i è m i a y a c e c b n i e Adj. i r d e r s n r Vars R-Sq R-Sq C-p s n e 2 s e C s s

1 66,4 65,9 136,8 49262 X 1 58,8 58,2 184,7 54556 X 1 39,3 38,5 307,6 66210 X

2 82,7 82,2 35,9 35564 X X 2 78,8 78,3 60,3 39343 X X 2 74,4 73,7 88,1 43244 X X

3 85,6 85,0 19,5 32637 X X X 3 84,8 84,2 24,5 33521 X X X 3 84,8 84,2 24,9 33591 X X X

4 87,1 86,4 12,2 31115 X X X X 4 87,0 86,3 13,1 31297 X X X X 4 86,6 85,9 15,2 31682 X X X X

5 88,3 87,5 6,9 29889 X X X X X 5 87,6 86,7 11,2 30744 X X X X X 5 87,4 86,5 12,4 30979 X X X X X

6 88,5 87,6 7,3 29763 X X X X X X 6 88,3 87,3 8,6 30030 X X X X X X 6 88,3 87,3 8,9 30096 X X X X X X

7 88,9 87,8 7,1 29510 X X X X X X X 7 88,6 87,4 9,1 29924 X X X X X X X 7 88,3 87,2 10,6 30240 X X X X X X X

8 88,9 87,6 9,0 29704 X X X X X X X X

4141

Sélection du modèle sans la variableSélection du modèle sans la variable # d ’acres# d ’acres

Best Subsets Regression : Response is Totale

T C S e P h b S F r P i a a b o r i è m i a y a e c b n i e Adj. i d e r s n r Vars R-Sq R-Sq C-p s n 2 s e C s s

1 66,4 65,9 120,6 49262 X 1 58,8 58,2 164,9 54556 X 1 39,3 38,5 278,3 66210 X 2 82,7 82,2 27,6 35564 X X 2 72,7 71,9 86,0 44704 X X 2 72,5 71,8 86,8 44813 X X 3 84,8 84,2 17,2 33521 X X X 3 84,8 84,2 17,6 33591 X X X 3 84,0 83,3 22,3 34467 X X X 4 87,0 86,3 6,9 31297 X X X X 4 86,1 85,3 12,1 32352 X X X X 4 85,3 84,5 16,5 33226 X X X X 5 87,3 86,4 6,9 31100 X X X X X 5 87,0 86,1 8,5 31439 X X X X X 5 87,0 86,1 8,9 31509 X X X X X 6 87,8 86,8 6,1 30707 X X X X X X 6 87,3 86,3 8,7 31264 X X X X X X 6 87,0 85,9 10,5 31656 X X X X X X 7 87,8 86,6 8,0 30908 X X X X X X X

4242

Le choix du meilleur modèle se fait selon Le choix du meilleur modèle se fait selon la combinaison:la combinaison:

La plus grande valeur de RLa plus grande valeur de R22 ajusté pour le nombre ajusté pour le nombre de variables dans le modèle.de variables dans le modèle.

La plus petite valeur de CLa plus petite valeur de Cpp . . Pour les modèles avec RPour les modèles avec R22 ajusté et C ajusté et Cpp comparables, comparables,

on choisira le modèle qui a le plus de « sens » selon on choisira le modèle qui a le plus de « sens » selon les experts dans le domaine.les experts dans le domaine.

Pour les modèles avec RPour les modèles avec R22 ajusté et C ajusté et Cpp comparables, comparables, le modèle avec les variables indépendantes les plus le modèle avec les variables indépendantes les plus faciles et moins coûteuses à mesurer.faciles et moins coûteuses à mesurer.

La validité du modèle.La validité du modèle.

4343

Intervalle de confiance au niveau 1-Intervalle de confiance au niveau 1- pour la pour la moyennemoyenne dede YY et uneet une nouvelle valeurnouvelle valeur dede YY (prévision) étant donné une (prévision) étant donné une combinaison de valeurs spécifiques pourcombinaison de valeurs spécifiques pour XX11, X, X22, …, X, …, Xpp ..

Pour le Pour le modèle 4modèle 4 et une propriété avec terrain= et une propriété avec terrain= 65 65 000000$, pi$, pi22 = = 1500, 21500, 2 salles de bain complète et salles de bain complète et 11 non-non-complète, on obtient l’estimation complète, on obtient l’estimation ponctuelle ponctuelle suivante:suivante: est. valeur totaleest. valeur totale = -55 533 + 1,816* = -55 533 + 1,816*65 00065 000 + + 49,833*1 50049,833*1 500

+ 11 696*+ 11 696*22 + 18 430* + 18 430*11 = 179 074$ = 179 074$ intervalle de confiance à 95% pour la intervalle de confiance à 95% pour la moyennemoyenne de la de la

valeur totale:valeur totale: [170 842, 187 306][170 842, 187 306]

intervalle de confiance à 95% pour intervalle de confiance à 95% pour une valeurune valeur totale totale prédite : prédite :

[116 173, 241 974][116 173, 241 974]

4444

Remarques:Remarques: Les longueurs des intervalles de confiance au Les longueurs des intervalles de confiance au

niveau 95% du modèle de régression multiple niveau 95% du modèle de régression multiple pour une propriété de 1500 pipour une propriété de 1500 pi22 sont plus petites sont plus petites que pour le modèle de régression simple.que pour le modèle de régression simple.

Donc l’addition de plusieurs autres variables Donc l’addition de plusieurs autres variables dans le modèle a aidé à expliquer encore plus la dans le modèle a aidé à expliquer encore plus la variabilité de la valeur totale et à améliorer nos variabilité de la valeur totale et à améliorer nos estimations.estimations.

Certaines conditions sont nécessaires à la Certaines conditions sont nécessaires à la validité du modèle et de l ’inférence validité du modèle et de l ’inférence correspondante (similaire à la régression linéaire correspondante (similaire à la régression linéaire simple).simple).

4545

MulticolinéaritéMulticolinéarité Si deux ou plusieurs variables indépendantes Si deux ou plusieurs variables indépendantes

sont fortement corrélées (> 0.85 en valeur sont fortement corrélées (> 0.85 en valeur absolue), on dira qu’il y a absolue), on dira qu’il y a multicolinéaritémulticolinéarité. Ceci . Ceci peut influencer les valeurs des paramètres dans peut influencer les valeurs des paramètres dans le modèle. le modèle.

Aussi, si deux variables indépendantes sont Aussi, si deux variables indépendantes sont fortement corrélées alors seulement une des fortement corrélées alors seulement une des deux variables sera incluse dans le modèle, deux variables sera incluse dans le modèle, l’autre n’apportant que très peu d’information l’autre n’apportant que très peu d’information supplémentaire.supplémentaire.

On peut calculer la corrélation entre plusieurs On peut calculer la corrélation entre plusieurs variables en utilisant variables en utilisant l’analyse de corrélationl’analyse de corrélation dans dans l’utilitaire d’analysel’utilitaire d’analyse de Excel. de Excel.

4646

Variables auxiliairesVariables auxiliaires

Comment tenir compte de variables Comment tenir compte de variables qualitatives pour la régression?qualitatives pour la régression?

Applications: Test sur deux ou plusieurs Applications: Test sur deux ou plusieurs moyennesmoyennes

4747

TechniqueTechnique

Si une variable qualitative prends deux Si une variable qualitative prends deux valeurs, on définit une seule variable valeurs, on définit une seule variable prenant les valeurs 0 ou 1.prenant les valeurs 0 ou 1.

ExemplesExemples Sexe: 1 si masculin, 0 si fémininSexe: 1 si masculin, 0 si féminin Garage: 1 si garage, 0 sinon.Garage: 1 si garage, 0 sinon.

4848

Technique (suite)Technique (suite) En général, si une variable qualitative prends m En général, si une variable qualitative prends m

valeurs, on définit (m-1) variables prenant les valeurs, on définit (m-1) variables prenant les valeurs 0 ou 1.valeurs 0 ou 1.

Exemple: Sexe et catégorie d’emploi (cadre, col Exemple: Sexe et catégorie d’emploi (cadre, col blanc, col bleu)blanc, col bleu)

XX11 = 1 si masculin, 0 sinon. = 1 si masculin, 0 sinon. XX22 = 1 si cadre, 0 sinon. = 1 si cadre, 0 sinon. XX33 = 1 si col blanc, 0 sinon. = 1 si col blanc, 0 sinon.

4949

ExempleExemple On veut expliquer le salaire (Y) d'un employé en On veut expliquer le salaire (Y) d'un employé en

tenant compte de trois variables, dont deux variables tenant compte de trois variables, dont deux variables qualitatives, le sexe (masculin ou féminin) et la statut qualitatives, le sexe (masculin ou féminin) et la statut d'employé (cadre, col blanc, col bleu), ainsi que d'employé (cadre, col blanc, col bleu), ainsi que l’expérience. l’expérience.

XX11 = 1 si masculin, 0 sinon. = 1 si masculin, 0 sinon. XX22 = 1 si cadre, 0 sinon. = 1 si cadre, 0 sinon. XX33 = 1 si col blanc, 0 sinon. = 1 si col blanc, 0 sinon. XX44 = années d’expérience. = années d’expérience.

5050

Exemple (suite)Exemple (suite)

Le modèle de régression est:Le modèle de régression est:YY = = 00 + + 11XX11 + + 22XX22 + + 33 X X33 + + 44XX44 + +

Interprétez Interprétez 00, , 11, , 22,, 33 , , 44 . .

Comment peut-on savoir s’il est vrai que les Comment peut-on savoir s’il est vrai que les femmes ont des salaires inférieurs?femmes ont des salaires inférieurs?

5151

““P-value” pour les tests P-value” pour les tests unilatéraux avec Excel.unilatéraux avec Excel.

Les tableaux obtenus lors d’une étude de Les tableaux obtenus lors d’une étude de régression nous fournissent la “p-value” P régression nous fournissent la “p-value” P pour les tests Hpour les tests H00 : : i i = 0 vs H= 0 vs H11 : : i i ≠ 0 .≠ 0 .

Pour un test statistique avec une Pour un test statistique avec une hypothèse Hhypothèse H11 unilatérale, la valeur de la unilatérale, la valeur de la “p-value” n’est pas donnée, puisque le “p-value” n’est pas donnée, puisque le senssens de H de H11 n’est pas spécifié. n’est pas spécifié.

5252

Règles à suivre :Règles à suivre :

Si HSi H11 est de la forme est de la forme i i > 0 et que b> 0 et que bii >0, alors >0, alors la “p-value” est P/2. Sinon c’est 1- P/2.la “p-value” est P/2. Sinon c’est 1- P/2.

Si HSi H11 est de la forme est de la forme i i < 0 et que b< 0 et que bii <0, <0, alors la “p-value” est P/2. Sinon c’est 1- P/2.alors la “p-value” est P/2. Sinon c’est 1- P/2.

En mots, la “p-value” unilatérale est la moitié En mots, la “p-value” unilatérale est la moitié de la p-value bilatérale lorsque le coefficient a de la p-value bilatérale lorsque le coefficient a le même le même signesigne que celui de l’hypothèse H que celui de l’hypothèse H11. . Sinon c’est 1- “p-value”/2. Sinon c’est 1- “p-value”/2.

5353

Exemple avec une variable qualitative à deux Exemple avec une variable qualitative à deux niveaux que l’on a codé 0 et 1 dans le modèle:niveaux que l’on a codé 0 et 1 dans le modèle:

The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC + 18899 Sbains + 22372 Garage

Predictor Coef StDev T PConstant -72080 14175 -5,08 0,000Terrain 1,8342 0,1892 9,69 0,000Pied2 47,175 7,013 6,73 0,000SbainsC 11535 3256 3,54 0,001Sbains 18899 5211 3,63 0,001Garage 22372 11116 2,01 0,058

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=1)

Fit StDev Fit 95,0% CI 95,0% PI 182248 4345 ( 173588; 190908) ( 120511; 243985)

5454

Prévision de la valeur totale pour une maison Prévision de la valeur totale pour une maison sans garage lorsque pour les mêmes valeurs de sans garage lorsque pour les mêmes valeurs de terrain, etc.terrain, etc.

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=0)

Fit StDev Fit 95,0% CI 95,0% PI159876 10362 ( 139224; 180528) ( 95355; 224397)

5555

Question:Question: Si on veut savoir si le fait d’avoir un garage Si on veut savoir si le fait d’avoir un garage

augmente le prix de la maison, on doit tester:augmente le prix de la maison, on doit tester: HH00: : garagegarage 0 0 vs H vs H11: : garagegarage >> 0 0

Comme Comme garagegarage = 22372 > 0, la p-value = 22372 > 0, la p-value correspondant à Hcorrespondant à H11: : garagegarage >> 0 est 0.0058/2 = 0 est 0.0058/2 = 0.029 < 0.05. Donc on accepte H0.029 < 0.05. Donc on accepte H11..

Il faut noter ici que la p-value bilatérale aurait Il faut noter ici que la p-value bilatérale aurait amené à enlever la variable.amené à enlever la variable.

5656

Dans l’exemple précédent, si on avait Dans l’exemple précédent, si on avait codé la variable par 0 si garage et 1 codé la variable par 0 si garage et 1 sinon, on aurait obtenu le tableau sinon, on aurait obtenu le tableau suivant:suivant:

The regression equation isThe regression equation is

TotaleTotale = - 72080 + 1,83 = - 72080 + 1,83 TerrainTerrain + 47,2 + 47,2 Pied2Pied2 + 11535 + 11535 SbainsCSbainsC + + 18899 18899 SbainsSbains - 22372 - 22372 GarageGarage

Predictor Coef StDev T PPredictor Coef StDev T PConstant -72080 14175 -5,08 0,000Constant -72080 14175 -5,08 0,000Terrain 1,8342 0,1892 9,69 0,000Terrain 1,8342 0,1892 9,69 0,000Pied2 47,175 7,013 6,73 0,000Pied2 47,175 7,013 6,73 0,000SbainsC 11535 3256 3,54 0,001SbainsC 11535 3256 3,54 0,001Sbains 18899 5211 3,63 0,001Sbains 18899 5211 3,63 0,001Garage -22372 11116 -2,01 0,058Garage -22372 11116 -2,01 0,058

S = 30671 S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%R-Sq = 87,6% R-Sq(adj) = 86,8%

5757

Si on avait testé:Si on avait testé: HH00: : garagegarage 0 0 vs H vs H11: : garagegarage >> 0 0

nous aurions obtenu une p-value de 0.971 = 1 – nous aurions obtenu une p-value de 0.971 = 1 – 0.058/2 car 0.058/2 car garagegarage = -22372 < 0. = -22372 < 0.

Par contre, si on avait voulu savoir si le fait d’avoir Par contre, si on avait voulu savoir si le fait d’avoir un garage augmente le prix de la maison, on aurait un garage augmente le prix de la maison, on aurait testé:testé:

HH00: : garagegarage ≥ 0≥ 0 vs H vs H11: : garagegarage << 0 0

nous aurions obtenu une p-value de 0.029 = nous aurions obtenu une p-value de 0.029 = 0.058/2 car 0.058/2 car garagegarage = -22372 < 0 a le même signe = -22372 < 0 a le même signe que Hque H11..

5858

Comparaison de moyennesComparaison de moyennes Supposons que l’on veuille comparer les Supposons que l’on veuille comparer les

moyennes de deux groupes (moyennes de deux groupes (11 = moyenne du = moyenne du groupe 1), (groupe 1), (22 = moyenne du groupe 2) pour une = moyenne du groupe 2) pour une variable Y. variable Y.

On peut le faire avec la régression en On peut le faire avec la régression en définissant X = 1 pour le groupe 1, X= 0 pour le définissant X = 1 pour le groupe 1, X= 0 pour le groupe 2. groupe 2.

Dans ce cas, Dans ce cas, = = 1 1 ––

5959

L’hypothèse L’hypothèse HH1 1 : : 11> > 2 2 correspond correspond àà H H1 1 : : ..

L’hypothèse L’hypothèse HH1 1 : : 11< < 2 2 correspond correspond àà H H1 1 : : ..

L’hypothèse L’hypothèse HH1 1 : : 1 1 ≠≠ 2 2 correspond correspond àà H H1 1 : : ≠≠ ..

6060

ExempleExemple Un gestionnaire se questionne sur la pertinence Un gestionnaire se questionne sur la pertinence

d’un cours de formation ayant pour but d’un cours de formation ayant pour but d’améliorer la rapidité d’exécution d’une tâche. d’améliorer la rapidité d’exécution d’une tâche.

Pour ce faire il choisit au hasard 10 employés et Pour ce faire il choisit au hasard 10 employés et leur soumet une tâche et il note le temps leur soumet une tâche et il note le temps d’exécution (en heures) pour chacun des d’exécution (en heures) pour chacun des employés. Ces employés suivent le fameux employés. Ces employés suivent le fameux cours de formation et à leur retour, on leur cours de formation et à leur retour, on leur donne une nouvelle tâche (similaire à la donne une nouvelle tâche (similaire à la première) et on note à nouveau le temps première) et on note à nouveau le temps d’exécution pour chaque employé. d’exécution pour chaque employé.

Les résultats sont dans le fichier Les résultats sont dans le fichier etudeetude..xlsxls

http://www.hec.ca/sites/cours/51-601-02/etude.xls



6161

Questions:Questions:

a) Devrait-on permettre à d’autres employés a) Devrait-on permettre à d’autres employés de suivre cette formation? Prenez a = 5%.de suivre cette formation? Prenez a = 5%.

b) On a oublié d’identifier les employés sur b) On a oublié d’identifier les employés sur le questionnaire. Est-ce que la conclusion le questionnaire. Est-ce que la conclusion est la même?est la même?

6262

SolutionSolution

Dans le premier cas, les données sont Dans le premier cas, les données sont appariées et l’on teste si les différences appariées et l’on teste si les différences (Avant – Après) sont positives. La p-value (Avant – Après) sont positives. La p-value est est 0.0003 < 0.05 = 0.0003 < 0.05 = . Donc on accepte . Donc on accepte HH11 et l’on conclut que et l’on conclut que 1 1 (avant)(avant) est est significativement plus grande quesignificativement plus grande que 22 (après), ce qui nous amène à suggérer la (après), ce qui nous amène à suggérer la formation.formation.

6363

Dans le second cas, les données ne Dans le second cas, les données ne sont pas appariées. On peut utiliser la sont pas appariées. On peut utiliser la régression avec Y = temps d’exécution régression avec Y = temps d’exécution et X = 1 pour les données avant le et X = 1 pour les données avant le cours et X = 0 pour les données après cours et X = 0 pour les données après le cours.le cours.

On trouve alorsOn trouve alorsCoefficients Erreur-type Statistique t Probabilité

Constante 5,217 0,12998932 40,1340677 4,5838E-19X 0,244 0,18383265 1,32729412 0,20100167

6464

Comme on veut tester Comme on veut tester HH1 1 : : (qui est la (qui est la même que Hmême que H1 1 : : avantavant> > après après ), et que l’on a ), et que l’on a

b = 0.244 > 0b = 0.244 > 0, la p-value est , la p-value est 0.201/2 = 0.1005 0.201/2 = 0.1005 > 0.05. > 0.05.

On accepte donc HOn accepte donc H00, ce qui nous amène à , ce qui nous amène à rejeter la suggestion de formation.rejeter la suggestion de formation.

Vous avez ici un exemple frappant de la plus Vous avez ici un exemple frappant de la plus grande variabilité engendrée par la grande variabilité engendrée par la considération des deux échantillons considération des deux échantillons indépendants vs échantillons appariés.indépendants vs échantillons appariés.

6565

Remarque: cas de plusieurs moyennesRemarque: cas de plusieurs moyennes

Si on veut comparer les moyennes de Si on veut comparer les moyennes de kk groupes, d’une variable Y, on peut groupes, d’une variable Y, on peut encore utiliser la régression.encore utiliser la régression.

Pour i=1, 2, …, k-1, on pose:Pour i=1, 2, …, k-1, on pose: XXii = 1 pour le groupe i, 0 sinon. = 1 pour le groupe i, 0 sinon. AlorsAlors 00 = moyenne du groupe k = = moyenne du groupe k = kk et et ii = = ii - - kk, 1 , 1 i i k-1. k-1.

6666

Par conséquent, le test de régression où HPar conséquent, le test de régression où H00 est donnée par est donnée par

HH00: : 11 = = 22 = ... = = ... = k-1k-1 = 0, = 0,

est équivalent au test de comparaison des moyennes où est équivalent au test de comparaison des moyennes où HH00 est donnée par est donnée par

HH00: : 11 = = 22 = ... = = ... = kk.. Dans ce cas, HDans ce cas, H11 est: au moins deux est: au moins deux moyennes sont égales, mais on ne sait moyennes sont égales, mais on ne sait pas lesquelles. Pour ce faire, on pas lesquelles. Pour ce faire, on doit regarder la p-value pour chacune doit regarder la p-value pour chacune des variables.des variables.

Documents

Statistique 51-601-02 Cours #4 Régression linéaire simple et multiple