Upload
hinto
View
35
Download
1
Embed Size (px)
DESCRIPTION
Statistique 51-601-02 Cours #4 Régression linéaire simple et multiple. Exemple. Avant de construire un complexe hôtelier, l’architecte doit estimer l’affluence journalière. Comment peut-il l’estimer? La ville compte 2 d’habitants. Solutions. - PowerPoint PPT Presentation
Citation preview
11
Statistique 51-601-02Statistique 51-601-02
Cours #4Cours #4
Régression linéaire Régression linéaire simple et multiplesimple et multiple
22
ExempleExemple
Avant de construire un complexe hôtelier, Avant de construire un complexe hôtelier, l’architecte doit estimer l’affluence l’architecte doit estimer l’affluence journalière. journalière.
Comment peut-il l’estimer?Comment peut-il l’estimer? La ville compte 2 d’habitants.La ville compte 2 d’habitants.
33
SolutionsSolutions
On pourrait réaliser une étude de marché On pourrait réaliser une étude de marché locale. Cependant c’est assez imprécis, locale. Cependant c’est assez imprécis, surtout pour de nouveaux projets. surtout pour de nouveaux projets.
On pourrait utiliser des données pour des On pourrait utiliser des données pour des projets similaires dans d’autres villes. projets similaires dans d’autres villes.
44
Qu’en pensez-vous?Qu’en pensez-vous?Peut-on faire mieux?Peut-on faire mieux?
Ville 1 2 3 4 5 6 7 8 9 10Affluence (x1000) 10 12 8 10 14 20 30 16 4 12
55
Probablement, si on tient Probablement, si on tient compte de la grosseur des villescompte de la grosseur des villesVille 1 2 3 4 5 6 7 8 9 10Affluence (x1 000) 10 12 8 10 14 20 30 16 4 12Population (millions)0,70 0,90 0,50 0,75 1,40 1,50 2,30 1,40 0,25 0,95
0
5
10
15
20
25
30
35
0.00 0.50 1.00 1.50 2.00 2.50
66
Étude de cas: Ice Cream SalesÉtude de cas: Ice Cream Sales Le fichier file Le fichier file icecreamicecream..xls xls contient des paires de contient des paires de
données représentant les ventes de crème données représentant les ventes de crème glacée et la température journalières, pour 30 glacée et la température journalières, pour 30 journées choisies au hasard.journées choisies au hasard.
Est-ce qu’il semble y avoir une relation entre la Est-ce qu’il semble y avoir une relation entre la température et les ventes?température et les ventes?
Pourrait-on prévoir les ventes à partir de la Pourrait-on prévoir les ventes à partir de la température?température?
Si oui, quelle est la prévision pour une Si oui, quelle est la prévision pour une température de 9.5? Est-ce près de la valeur température de 9.5? Est-ce près de la valeur observée?observée?
77
Introduction:Introduction: Un des objectifs principaux de la statistique est Un des objectifs principaux de la statistique est
d ’expliquer la variabilité que l ’on observe dans d ’expliquer la variabilité que l ’on observe dans les données.les données.
La régression linéaire (ou les modèles linéaires) La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ pour est un outil statistique TRÈS UTILISÉ pour étudier la présence d ’une relation entre une étudier la présence d ’une relation entre une variable dépendante variable dépendante YY (quantitative et continue) (quantitative et continue) et une ou plusieurs variables indépendantes et une ou plusieurs variables indépendantes XX11, X, X22, …, X, …, Xpp (qualitatives et/ou quantitatives).(qualitatives et/ou quantitatives).
88
Par exemple, un gestionnaire peut être Par exemple, un gestionnaire peut être intéressé à voir s ’il peut expliquer une bonne intéressé à voir s ’il peut expliquer une bonne part de la variabilité qu ’il observe dans les part de la variabilité qu ’il observe dans les ventes (variable dépendante Y) dans ses ventes (variable dépendante Y) dans ses différentes succursales au cours des 12 différentes succursales au cours des 12 derniers mois par la superficie, le nombre derniers mois par la superficie, le nombre d ’employés, le nombre d ’heures d ’employés, le nombre d ’heures supplémentaires payées, la qualité du service supplémentaires payées, la qualité du service à la clientèle, la quantité des promotions etc. à la clientèle, la quantité des promotions etc. (variables indépendantes ou explicatives).(variables indépendantes ou explicatives).
99
Un modèle de régression peut Un modèle de régression peut servir à répondre à un des 3 servir à répondre à un des 3 objectifs suivants:objectifs suivants:
Décrire (données provenant d ’études Décrire (données provenant d ’études non-expérimentales c.-à-d. on observe non-expérimentales c.-à-d. on observe la réalité telle qu’elle est).la réalité telle qu’elle est).
Confronter des hypothèses (données Confronter des hypothèses (données provenant d ’études expérimentales provenant d ’études expérimentales contrôlées). contrôlées).
Prédire (si on aime le risque!!).Prédire (si on aime le risque!!).
1010
Exemple:Exemple:Nous sommes intéressés à savoir quels sont lesfacteurs importants qui influencent ou déterminent la valeur d ’une propriété et de construire un modèle qui nous aidera à évaluer cette valeur selon ces facteurs. Pour ce faire, nous avons obtenu la valeur totale pour un échantillon de 79 propriétés dans une région donnée. Les variables suivantes ont également été recueillies pour chacune des propriétés:
1111
Bref aperçu du fichier de données:Bref aperçu du fichier de données: ::maisons.maisons.xlsxls
# pieds carrés condition valeur valeur du premier de type deOBS totale terrain # d'acres plancher l'extérieur chauffage
1 199657 63247 1.63 1726 Good NatGas 2 78482 38091 0.495 1184 Good NatGas 3 119962 37665 0.375 1014 Good Electric 4 116492 54062 0.981 1260 Average Electric 5 131263 61546 1.14 1314 Average NatGas ... 78 253480 57948 0.862 1720 Good Electric 79 257037 57489 0.95 2004 Excellnt Electric # salles # salles de # de # de de bain bain non # deOBS pièces chambres complète complète foyers GARAGE
1 8 4 2 1 2 Garage 2 6 2 1 0 0 NoGarage 3 7 3 2 0 1 Garage 4 6 3 2 0 1 Garage 5 8 4 2 1 2 NoGarage ... 78 10 5 5 1 1 Garage 79 9 4 2 2 2 Garage
1212
Est-ce qu ’il y a un lien entre la valeur totale Est-ce qu ’il y a un lien entre la valeur totale et ces différents facteurs?et ces différents facteurs?
1400009000040000
450000
350000
250000
150000
50000
Terrain
Tota
le
1313
6543210
450000
350000
250000
150000
50000
Acre
Tota
le
500 1500 2500 3500
50000
150000
250000
350000
450000
Pied2
Tota
le
5 10 15
50000
150000
250000
350000
450000
Pièces
Tota
le
2 3 4 5 6 7 8
50000
150000
250000
350000
450000
Chambre
Tota
le
1414
1 2 3 4 5 6 7
50000
150000
250000
350000
450000
SbainsC
Tota
le
0 1 2 3
50000
150000
250000
350000
450000
Sbains
Tota
le
0 1 2 3 4 5 6 7
50000
150000
250000
350000
450000
Foyers
Tota
le
NoGarage Garage50000
150000
250000
350000
450000
Garage
Tota
le
1515
Le coefficient de corrélation Le coefficient de corrélation rr de Pearson de Pearson sert à mesurer l’intensité de la relation sert à mesurer l’intensité de la relation linéairelinéaire entre deux variables quantitatives. entre deux variables quantitatives.
Le coefficient de corrélation Le coefficient de corrélation rr prendra des valeurs prendra des valeurs entre -1 et 1.entre -1 et 1.
S ’il existe une relation S ’il existe une relation linéaire parfaitelinéaire parfaite entre entre XX et et YY alors alors rr = = 1 (1 (rr =1 si =1 si XX et et YY varient dans le même sens varient dans le même sens et et rr = -1 si = -1 si XX varie dans le sens opposé à varie dans le sens opposé à YY).).
Si Si rr = 0, ceci indique qu ’il n ’y a pas de lien linéaire = 0, ceci indique qu ’il n ’y a pas de lien linéaire entre entre XX et et YY..
Plus la valeur de Plus la valeur de rr s ’éloigne de 0 pour s ’approcher de s ’éloigne de 0 pour s ’approcher de 1 plus l ’intensité du lien linéaire entre 1 plus l ’intensité du lien linéaire entre XX et et YY grandit. grandit.
1616
Y ‚6.5 ˆ * r = 0.035 Y ‚ r = 1 ‚ ‚ ‚ 31 ˆ *6.0 ˆ * * 29 ˆ * ‚ 27 ˆ * ‚ 25 ˆ *5.5 ˆ * * 23 ˆ * ‚ 21 ˆ * ‚ 19 ˆ *5.0 ˆ * 17 ˆ * ‚ 15 ˆ * ‚ 13 ˆ *4.5 ˆ * * * 11 ˆ * ‚ ‚ ‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14 Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 X
X
Y ‚ r = -1 ‚ -8.0 ˆ *-10.5 ˆ *-13.0 ˆ *-15.5 ˆ *-18.0 ˆ *-20.5 ˆ *-23.0 ˆ *-25.5 ˆ *-28.0 ˆ *-30.5 ˆ *-33.0 ˆ * ‚ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ 4 5 6 7 8 9 10 11 12 13 14
X
1717
Statistiques descriptives
Variable N Moyenne Médiane Écart type Minimum Maximum Totale 79 187253 156761 84401 74365 453744 Terrain 79 65899 59861 22987 35353 131224 Acre 79 1,579 1,040 1,324 0,290 5,880 Pied2 79 1678 1628 635 672 3501Pièces 79 8,519 8,000 2,401 5 18 Chambre 79 3,987 4,000 1,266 2 8 SbainsC 79 2,241 2,000 1,283 1 7 Sbains 79 0,7215 1,000 0,715 0 3 Foyers 79 1,975 2,000 1,368 0 7
Coefficients de corrélation de Pearson
Totale Terrain Acre Pied2 Pièces Chambre SbainsC SbainsTerrain 0,815Acre 0,608 0,918Pied2 0,767 0,516 0,301Pièces 0,626 0,518 0,373 0,563Chambre 0,582 0,497 0,382 0,431 0,791SbainsC 0,626 0,506 0,376 0,457 0,479 0,586Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386
1818
Attention!! Il est important d ’interpréter le Attention!! Il est important d ’interpréter le coefficient de corrélation avec le graphique.coefficient de corrélation avec le graphique.
r = 0.816 dans tous les cas ci-dessous
12.5 ˆ 10 ˆ ‚ ‚ * ‚ ‚ * * * ‚ * ‚ *10.0 ˆ * 8 ˆ * * ‚ ‚ * Y1 ‚ * Y2 ‚ ‚ * * ‚ 7.5 ˆ * * 6 ˆ * ‚ * ‚ ‚ ‚ ‚ * ‚ * 5.0 ˆ * 4 ˆ ‚ * ‚ ‚ ‚ * ‚ ‚ 2.5 ˆ 2 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14
X X 15.0 ˆ Y4 ‚ ‚ 12.5 ˆ * ‚ ‚ ‚ ‚12.5 ˆ * ‚ ‚ ‚ Y3 ‚ 10.0 ˆ ‚ ‚10.0 ˆ ‚ * ‚ ‚ * ‚ * ‚ * ‚ * 7.5 ˆ * 7.5 ˆ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * 5.0 ˆ 5.0 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 8 19
X X
1919
Régression linéaire simpleRégression linéaire simple Pour décrire une relation linéaire entre deux Pour décrire une relation linéaire entre deux
variables quantitatives ou encore pour pouvoir variables quantitatives ou encore pour pouvoir prédire prédire YY pour une valeur donnée de pour une valeur donnée de XX, nous , nous utilisons une droite de régression:utilisons une droite de régression:
YY = = 00 + + 11XX + + Puisque tout modèle statistique n’est qu’une Puisque tout modèle statistique n’est qu’une
approximation (nous espérons la meilleure approximation (nous espérons la meilleure possible!!), il y a toujours une erreur, notée possible!!), il y a toujours une erreur, notée dans dans le modèle, car le lien linéaire n’est jamais parfait. le modèle, car le lien linéaire n’est jamais parfait.
S ’il y avait une relation linéaire parfaite entre S ’il y avait une relation linéaire parfaite entre YY et et XX, le terme d ’erreur serait toujours égale à 0, et , le terme d ’erreur serait toujours égale à 0, et toute la variabilité de toute la variabilité de YY serait expliquée par la serait expliquée par la variable indépendante variable indépendante XX..
2020
Donc, pour une valeur donnée de Donc, pour une valeur donnée de XX, nous , nous aimerions estimer aimerions estimer YY. .
Ainsi, à l’aide des données de l’échantillon nous Ainsi, à l’aide des données de l’échantillon nous estimerons les paramètres estimerons les paramètres 00 et et 11 du modèle de du modèle de régression de façon à minimiser la somme des régression de façon à minimiser la somme des carrés des erreurs.carrés des erreurs.
Le coefficient de corrélation Le coefficient de corrélation au carréau carré est appelé est appelé coefficient de détermination et nous indique le coefficient de détermination et nous indique le pourcentage de la variabilité de pourcentage de la variabilité de YY expliquée par expliquée par XX::
RR22 = 1 - (n-2)/(n-1){S = 1 - (n-2)/(n-1){See /S /Syy}}22, , où Soù See est l’écart type des erreurs et S est l’écart type des erreurs et Syy est est l’écart type de Y.l’écart type de Y.
2121
On peut également utiliser le coefficient de On peut également utiliser le coefficient de détermination ajusté pour nous indiquer le détermination ajusté pour nous indiquer le pourcentage de la variabilité de pourcentage de la variabilité de YY expliquée par expliquée par XX::
RR22ajustéajusté
= 1 - {S = 1 - {See/S/Syy}}22 . .
2222
Exemple de régressions linéaires Exemple de régressions linéaires simples:simples:
MODÈLE 1.
Regression AnalysisThe regression equation is
Totale = 16209 + 102 Pied2
Predictor Coef StDev T PConstant 16209 17447 0,93 0,356Pied2 101,939 9,734 10,47 0,000
S = 54556 R-Sq = 58,8% R-Sq(adj) = 58,2%
Analysis of Variance
Source DF SS MS F PRegression 1 3,26460E+11 3,26460E+11 109,68 0,000Residual Error 77 2,29181E+11 2976374177Total 78 5,55641E+11
2323
MODÈLE 2.The regression equation is : Totale = - 347 + 22021 Pièces
Predictor Coef StDev T PConstant -347 27621 -0,01 0,990Pièces 22021 3122 7,05 0,000
S = 66210 R-Sq = 39,3% R-Sq(adj) = 38,5%
Analysis of VarianceSource DF SS MS F PRegression 1 2,18090E+11 2,18090E+11 49,75 0,000Residual Error 77 3,37551E+11 4383775699Total 78 5,55641E+11__________________________________________________________________
MODÈLE 3.The regression equation is : Totale = 32428 + 38829 Chambre
Predictor Coef StDev T PConstant 32428 25826 1,26 0,213Chambre 38829 6177 6,29 0,000
S = 69056 R-Sq = 33,9% R-Sq(adj) = 33,1%
Analysis of VarianceSource DF SS MS F PRegression 1 1,88445E+11 1,88445E+11 39,52 0,000Residual Error 77 3,67196E+11 4768775127Total 78 5,55641E+11
2424
Modèle 1Modèle 1: : valeur totalevaleur totale = 16209 + 102*( = 16209 + 102*( # pieds carrés# pieds carrés ). ). RR22 = 58,8%. Donc 58,8% de la variabilité de la valeur = 58,8%. Donc 58,8% de la variabilité de la valeur
totale est expliquée par le totale est expliquée par le # pieds carrés# pieds carrés.. Modèle 2Modèle 2: :
valeur totalevaleur totale = -347 + 22021*( = -347 + 22021*( # pièces# pièces ). ). RR22 = 39,3%. Donc 39,3% de la variabilité de la valeur = 39,3%. Donc 39,3% de la variabilité de la valeur
totale est expliquée par le totale est expliquée par le # pièces# pièces.. Modèle 3Modèle 3::
valeur totalevaleur totale = 32428 + 38829*( = 32428 + 38829*( # chambres# chambres ). ). RR22 = 33,9%. Donc 33,9% de la variabilité de la valeur = 33,9%. Donc 33,9% de la variabilité de la valeur
totale est expliquée par le totale est expliquée par le # chambres# chambres..
2525
Parmi les 3 modèles précédents, Parmi les 3 modèles précédents, lequel choisiriez vous et pourquoi?lequel choisiriez vous et pourquoi?
Le Le modèle 1modèle 1 car il a la plus grande valeur de car il a la plus grande valeur de RR22. .
2626
Intervalle de confiance au niveau 1-Intervalle de confiance au niveau 1- pour la pour la moyenne des valeurs de moyenne des valeurs de YY pour une valeur pour une valeur spécifique de spécifique de XX::
Pour le Pour le modèle 1modèle 1 et une valeur de et une valeur de XX==1500 1500 pipi22 on obtient l ’estimation ponctuelleon obtient l ’estimation ponctuelle suivante:suivante: est. valeur totaleest. valeur totale = 16 209 + 102* = 16 209 + 102*15001500 = 169 117$ = 169 117$
intervalle de confiance à 95% pour la moyenne de la intervalle de confiance à 95% pour la moyenne de la valeur totalevaleur totale pour les propriétés de pour les propriétés de 15001500 pi pi22 : : [156 418, 181 817][156 418, 181 817]
2727
Intervalle de confiance au niveau 1-Intervalle de confiance au niveau 1- pour une pour une nouvelle valeur de nouvelle valeur de YY (prévision) étant donné (prévision) étant donné une valeur spécifique de une valeur spécifique de XX:: Pour le Pour le modèle 1modèle 1 et une valeur de et une valeur de X X==15001500 pi pi22
on obtient l’estimation ponctuelle suivante:on obtient l’estimation ponctuelle suivante: est. valeur totaleest. valeur totale = 16 209 + 101,939* = 16 209 + 101,939*15001500 = 169 = 169
117$117$ intervalle de confiance à 95% pour une valeur intervalle de confiance à 95% pour une valeur
totale prédite lorsque la superficie du premier totale prédite lorsque la superficie du premier plancher est de plancher est de 15001500 pi pi22 : :
[59 742, 278 492][59 742, 278 492] L ’intervalle de confiance pour une valeur prédite est L ’intervalle de confiance pour une valeur prédite est
toujours toujours plus grandplus grand que pour la moyenne des valeurs que pour la moyenne des valeurs de de YY pour un pour un XX spécifique. spécifique.
2828
Inférence sur les paramètres du modèle de Inférence sur les paramètres du modèle de régression:régression: S’il n ’y a pas de lien linéaire entre S’il n ’y a pas de lien linéaire entre YY et et XX
alors alors 1 1 = 0. Donc, nous voulons confronter = 0. Donc, nous voulons confronter les hypothèses suivantes:les hypothèses suivantes: HH00 : : 1 1 = 0 vs H= 0 vs H11 : : 11 0 0
On rejettera On rejettera HH00 lorsque le ‘ p-value ’ sera petit lorsque le ‘ p-value ’ sera petit Ce test sera valide siCe test sera valide si
la relation entre la relation entre X et YX et Y est linéaire est linéaire les données sont indépendantesles données sont indépendantes la variance de la variance de Y Y est la même pour toutes les valeurs est la même pour toutes les valeurs
de de XX YY est distribuée selon une loi normale pour toutes les est distribuée selon une loi normale pour toutes les
valeurs de valeurs de XX
2929
Régression linéaire multipleRégression linéaire multiple Il est fort possible que la variabilité de la variable Il est fort possible que la variabilité de la variable
dépendante dépendante YY soit expliquée non pas par une soit expliquée non pas par une seule variable indépendante X mais plutôt par une seule variable indépendante X mais plutôt par une combinaison linéaire de plusieurs variables combinaison linéaire de plusieurs variables indépendantes indépendantes XX11, X, X22, …, X, …, Xpp. .
Dans ce cas le modèle de régression multiple est Dans ce cas le modèle de régression multiple est donné par:donné par:
YY = = 00 + + 11XX11 + + 22XX22 + … + + … + ppXXpp + + Aussi, à l’aide des données de l’échantillon nous Aussi, à l’aide des données de l’échantillon nous
estimerons les paramètres estimerons les paramètres 00, , 11, …, , …, pp du modèle du modèle de régression de façon à minimiser la somme des de régression de façon à minimiser la somme des carrés des erreurs.carrés des erreurs.
3030
Le coefficient de corrélation multiple Le coefficient de corrélation multiple RR22 , aussi appelé , aussi appelé coefficient de détermination, nous indique le coefficient de détermination, nous indique le pourcentage de la variabilité de pourcentage de la variabilité de YY expliquée par les expliquée par les variables indépendantes variables indépendantes XX11, X, X22, …, X, …, Xpp. .
Lorsqu’on ajoute une ou plusieurs variables Lorsqu’on ajoute une ou plusieurs variables indépendantes dans le modèle, le coefficient indépendantes dans le modèle, le coefficient RR22 augmente.augmente.
La question est de savoir si le coefficient La question est de savoir si le coefficient RR22 augmente augmente de façon significative. de façon significative.
Notons qu’on ne peut avoir plus de variables Notons qu’on ne peut avoir plus de variables indépendantes dans le modèle qu’il y a d ’observations indépendantes dans le modèle qu’il y a d ’observations dans l’échantillon (règle générale: n dans l’échantillon (règle générale: n 5p). 5p).
3131
La rLa réégression est-elle gression est-elle significative?significative?
Ici on veut tester les hypothèses suivantes:Ici on veut tester les hypothèses suivantes:
HH00: : kk = 0, i.e. la régression = 0, i.e. la régression n’est pas significative;n’est pas significative;
HH11: : ou ou ……ou ou kk i.e.i.e.la la régression est significative.régression est significative.
On rejette HOn rejette H00 si la p-value du tableau d’analyse si la p-value du tableau d’analyse de la variance est inférieure à de la variance est inférieure à ..
3232
Quelles variables enlever?Quelles variables enlever? Les tableaux obtenus avec Excel nous Les tableaux obtenus avec Excel nous
fournissent aussi la p-value correspondant aux fournissent aussi la p-value correspondant aux tests sur chacune des variables:tests sur chacune des variables:
HH00: : ii 0, i.e. la variable X0, i.e. la variable X ii peut être enlevée peut être enlevée (si on garde les autres variables);(si on garde les autres variables);
HH11: : iii.e.i.e.la variable Xla variable Xii ne peut pas être ne peut pas être enlevée. enlevée.
On rejette HOn rejette H00 si la p-value correspondante est si la p-value correspondante est inférieure à inférieure à ..
3333
Exemple:Exemple:MODÈLE 1.The regression equation isTotale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces + 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers
Predictor Coef StDev T PConstant -89131 18302 -4,87 0,000Terrain 3,0518 0,5260 5,80 0,000Acre -20730 7907 -2,62 0,011Pied2 43,336 7,670 5,65 0,000Pièces -4352 3036 -1,43 0,156Chambre 10049 5307 1,89 0,062SbainsC 7606 3610 2,11 0,039Sbains 18725 6585 2,84 0,006Foyers 882 3184 0,28 0,783
S = 29704 R-Sq = 88,9% R-Sq(adj) = 87,6%
Analysis of VarianceSource DF SS MS F PRegression 8 4,93877E+11 61734659810 69,97 0,000Residual Error 70 61763515565 882335937Total 78 5,55641E+11
3434
MODÈLE 2Regression AnalysisThe regression equation isTotale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2 + 4411 Chambre + 8466 SbainsC + 14328 Sbains
Predictor Coef StDev T PConstant -97512 17466 -5,58 0,000Terrain 3,1103 0,5236 5,94 0,000Acre -21880 7884 -2,78 0,007Pied2 40,195 7,384 5,44 0,000Chambre 4411 3469 1,27 0,208SbainsC 8466 3488 2,43 0,018Sbains 14328 5266 2,72 0,008
S = 29763 R-Sq = 88,5% R-Sq(adj) = 87,6%
Analysis of VarianceSource DF SS MS F PRegression 6 4,91859E+11 81976430646 92,54 0,000Residual Error 72 63782210167 885864030Total 78 5,55641E+11
3535
MODÈLE 3Regression AnalysisThe regression equation isTotale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2 + 10234 SbainsC + 14183 Sbains
Predictor Coef StDev T PConstant -90408 16618 -5,44 0,000Terrain 3,2045 0,5205 6,16 0,000Acre -22534 7901 -2,85 0,006Pied2 41,060 7,383 5,56 0,000SbainsC 10234 3213 3,19 0,002Sbains 14183 5287 2,68 0,009
S = 29889 R-Sq = 88,3% R-Sq(adj) = 87,5%
Analysis of VarianceSource DF SS MS F PRegression 5 4,90426E+11 98085283380 109,80 0,000Residual Error 73 65214377146 893347632Total 78 5,55641E+11
3636
Modèle sans la superficie du terrain Modèle sans la superficie du terrain ( # d ’acres)( # d ’acres) à à cause de la multicolinéarité avec la valeur du terrain.cause de la multicolinéarité avec la valeur du terrain.MODÈLE 4The regression equation isTotale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC + 18430 Sbains
Predictor Coef StDev T PConstant -55533 11783 -4,71 0,000Terrain 1,8159 0,1929 9,42 0,000Pied2 49,833 7,028 7,09 0,000SbainsC 11696 3321 3,52 0,001Sbains 18430 5312 3,47 0,001
S = 31297 R-Sq = 87,0% R-Sq(adj) = 86,3%
Analysis of VarianceSource DF SS MS F PRegression 4 4,83160E+11 1,20790E+11 123,32 0,000Residual Error 74 72481137708 979474834Total 78 5,55641E+11
3737
Parmi les 4 modèles précédents, Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi?lequel choisiriez vous et pourquoi?
Probablement le Probablement le modèle 4modèle 4 car toutes les variables car toutes les variables indépendantes sont significatives au niveau 5% indépendantes sont significatives au niveau 5% (c.-à-d. (c.-à-d. p-valuep-value < 5% pour chaque < 5% pour chaque dans le dans le modèle) et bien que le modèle) et bien que le RR22 soit plus petit, il n ’est soit plus petit, il n ’est que marginalement plus petit. De plus tous les que marginalement plus petit. De plus tous les coefficients du modèle ont « du sens »!coefficients du modèle ont « du sens »!
Dans le Dans le modèle 1modèle 1 les variables ‘ les variables ‘ # de pièces# de pièces ’ et ‘ ’ et ‘ # # de foyersde foyers ’ ne sont pas statistiquement ’ ne sont pas statistiquement significatives au niveau 5% (significatives au niveau 5% (p-value p-value > 5%). La > 5%). La variable ‘ variable ‘ # de chambres# de chambres ’ est à la limite avec un ’ est à la limite avec un p-p-value value = 0,0624.= 0,0624.
3838
Parmi les 4 modèles précédents, Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi?lequel choisiriez vous et pourquoi?
Dans le Dans le modèle 2modèle 2 la variable ‘ la variable ‘ # de chambres# de chambres ’ n ’est ’ n ’est pas statistiquement significative au niveau 5%.pas statistiquement significative au niveau 5%.
Dans le Dans le modèle 3modèle 3 (et les modèles précédents), le (et les modèles précédents), le coefficient de la variable ‘ coefficient de la variable ‘ # d ’acres# d ’acres ’ est négatif ce qui ’ est négatif ce qui est à l ’encontre du « bon sens » et de ce qu ’on a est à l ’encontre du « bon sens » et de ce qu ’on a observé sur le diagramme de dispersion et le observé sur le diagramme de dispersion et le coefficient de corrélation de Pearson positif (r = 0,608).coefficient de corrélation de Pearson positif (r = 0,608).
Le coefficient négatif pour la variable ‘ Le coefficient négatif pour la variable ‘ # d ’acres# d ’acres ’ dans ’ dans les les modèles 1 à 3modèles 1 à 3 est causé par le fait qu ’il y a une est causé par le fait qu ’il y a une forte relation linéaire entre la valeur du terrain et la forte relation linéaire entre la valeur du terrain et la superficie du terrain (r = 0,918); problème de superficie du terrain (r = 0,918); problème de multicolinéarité.multicolinéarité.
3939
Comment choisir un modèle de régression Comment choisir un modèle de régression linéaire parmi tous les modèles possibles?linéaire parmi tous les modèles possibles?
Il existe plusieurs techniques:Il existe plusieurs techniques: sélection pas à pas en ajoutant une variable à la fois sélection pas à pas en ajoutant une variable à la fois
et en commençant par la plus significative (stepwise, et en commençant par la plus significative (stepwise, forward).forward).
sélection à partir du modèle incluant toutes les sélection à partir du modèle incluant toutes les variables et en enlevant une variable à la fois en variables et en enlevant une variable à la fois en commençant par la moins significative (backward).commençant par la moins significative (backward).
faire tous les modèles possibles et choisir le meilleur faire tous les modèles possibles et choisir le meilleur sous-ensemble de variables (best subset) selon sous-ensemble de variables (best subset) selon certains critères spécifiques (ex: certains critères spécifiques (ex: RR22
ajustéajusté, , CCpp de de Mallow.)Mallow.)
4040
Exemple de sélection parmi les meilleurs sous-Exemple de sélection parmi les meilleurs sous-ensembles:ensembles:
Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r A i è m i a y a c e c b n i e Adj. i r d e r s n r Vars R-Sq R-Sq C-p s n e 2 s e C s s
1 66,4 65,9 136,8 49262 X 1 58,8 58,2 184,7 54556 X 1 39,3 38,5 307,6 66210 X
2 82,7 82,2 35,9 35564 X X 2 78,8 78,3 60,3 39343 X X 2 74,4 73,7 88,1 43244 X X
3 85,6 85,0 19,5 32637 X X X 3 84,8 84,2 24,5 33521 X X X 3 84,8 84,2 24,9 33591 X X X
4 87,1 86,4 12,2 31115 X X X X 4 87,0 86,3 13,1 31297 X X X X 4 86,6 85,9 15,2 31682 X X X X
5 88,3 87,5 6,9 29889 X X X X X 5 87,6 86,7 11,2 30744 X X X X X 5 87,4 86,5 12,4 30979 X X X X X
6 88,5 87,6 7,3 29763 X X X X X X 6 88,3 87,3 8,6 30030 X X X X X X 6 88,3 87,3 8,9 30096 X X X X X X
7 88,9 87,8 7,1 29510 X X X X X X X 7 88,6 87,4 9,1 29924 X X X X X X X 7 88,3 87,2 10,6 30240 X X X X X X X
8 88,9 87,6 9,0 29704 X X X X X X X X
4141
Sélection du modèle sans la variableSélection du modèle sans la variable # d ’acres# d ’acres
Best Subsets Regression : Response is Totale
T C S e P h b S F r P i a a b o r i è m i a y a e c b n i e Adj. i d e r s n r Vars R-Sq R-Sq C-p s n 2 s e C s s
1 66,4 65,9 120,6 49262 X 1 58,8 58,2 164,9 54556 X 1 39,3 38,5 278,3 66210 X 2 82,7 82,2 27,6 35564 X X 2 72,7 71,9 86,0 44704 X X 2 72,5 71,8 86,8 44813 X X 3 84,8 84,2 17,2 33521 X X X 3 84,8 84,2 17,6 33591 X X X 3 84,0 83,3 22,3 34467 X X X 4 87,0 86,3 6,9 31297 X X X X 4 86,1 85,3 12,1 32352 X X X X 4 85,3 84,5 16,5 33226 X X X X 5 87,3 86,4 6,9 31100 X X X X X 5 87,0 86,1 8,5 31439 X X X X X 5 87,0 86,1 8,9 31509 X X X X X 6 87,8 86,8 6,1 30707 X X X X X X 6 87,3 86,3 8,7 31264 X X X X X X 6 87,0 85,9 10,5 31656 X X X X X X 7 87,8 86,6 8,0 30908 X X X X X X X
4242
Le choix du meilleur modèle se fait selon Le choix du meilleur modèle se fait selon la combinaison:la combinaison:
La plus grande valeur de RLa plus grande valeur de R22 ajusté pour le nombre ajusté pour le nombre de variables dans le modèle.de variables dans le modèle.
La plus petite valeur de CLa plus petite valeur de Cpp . . Pour les modèles avec RPour les modèles avec R22 ajusté et C ajusté et Cpp comparables, comparables,
on choisira le modèle qui a le plus de « sens » selon on choisira le modèle qui a le plus de « sens » selon les experts dans le domaine.les experts dans le domaine.
Pour les modèles avec RPour les modèles avec R22 ajusté et C ajusté et Cpp comparables, comparables, le modèle avec les variables indépendantes les plus le modèle avec les variables indépendantes les plus faciles et moins coûteuses à mesurer.faciles et moins coûteuses à mesurer.
La validité du modèle.La validité du modèle.
4343
Intervalle de confiance au niveau 1-Intervalle de confiance au niveau 1- pour la pour la moyennemoyenne dede YY et uneet une nouvelle valeurnouvelle valeur dede YY (prévision) étant donné une (prévision) étant donné une combinaison de valeurs spécifiques pourcombinaison de valeurs spécifiques pour XX11, X, X22, …, X, …, Xpp ..
Pour le Pour le modèle 4modèle 4 et une propriété avec terrain= et une propriété avec terrain= 65 65 000000$, pi$, pi22 = = 1500, 21500, 2 salles de bain complète et salles de bain complète et 11 non-non-complète, on obtient l’estimation complète, on obtient l’estimation ponctuelle ponctuelle suivante:suivante: est. valeur totaleest. valeur totale = -55 533 + 1,816* = -55 533 + 1,816*65 00065 000 + + 49,833*1 50049,833*1 500
+ 11 696*+ 11 696*22 + 18 430* + 18 430*11 = 179 074$ = 179 074$ intervalle de confiance à 95% pour la intervalle de confiance à 95% pour la moyennemoyenne de la de la
valeur totale:valeur totale: [170 842, 187 306][170 842, 187 306]
intervalle de confiance à 95% pour intervalle de confiance à 95% pour une valeurune valeur totale totale prédite : prédite :
[116 173, 241 974][116 173, 241 974]
4444
Remarques:Remarques: Les longueurs des intervalles de confiance au Les longueurs des intervalles de confiance au
niveau 95% du modèle de régression multiple niveau 95% du modèle de régression multiple pour une propriété de 1500 pipour une propriété de 1500 pi22 sont plus petites sont plus petites que pour le modèle de régression simple.que pour le modèle de régression simple.
Donc l’addition de plusieurs autres variables Donc l’addition de plusieurs autres variables dans le modèle a aidé à expliquer encore plus la dans le modèle a aidé à expliquer encore plus la variabilité de la valeur totale et à améliorer nos variabilité de la valeur totale et à améliorer nos estimations.estimations.
Certaines conditions sont nécessaires à la Certaines conditions sont nécessaires à la validité du modèle et de l ’inférence validité du modèle et de l ’inférence correspondante (similaire à la régression linéaire correspondante (similaire à la régression linéaire simple).simple).
4545
MulticolinéaritéMulticolinéarité Si deux ou plusieurs variables indépendantes Si deux ou plusieurs variables indépendantes
sont fortement corrélées (> 0.85 en valeur sont fortement corrélées (> 0.85 en valeur absolue), on dira qu’il y a absolue), on dira qu’il y a multicolinéaritémulticolinéarité. Ceci . Ceci peut influencer les valeurs des paramètres dans peut influencer les valeurs des paramètres dans le modèle. le modèle.
Aussi, si deux variables indépendantes sont Aussi, si deux variables indépendantes sont fortement corrélées alors seulement une des fortement corrélées alors seulement une des deux variables sera incluse dans le modèle, deux variables sera incluse dans le modèle, l’autre n’apportant que très peu d’information l’autre n’apportant que très peu d’information supplémentaire.supplémentaire.
On peut calculer la corrélation entre plusieurs On peut calculer la corrélation entre plusieurs variables en utilisant variables en utilisant l’analyse de corrélationl’analyse de corrélation dans dans l’utilitaire d’analysel’utilitaire d’analyse de Excel. de Excel.
4646
Variables auxiliairesVariables auxiliaires
Comment tenir compte de variables Comment tenir compte de variables qualitatives pour la régression?qualitatives pour la régression?
Applications: Test sur deux ou plusieurs Applications: Test sur deux ou plusieurs moyennesmoyennes
4747
TechniqueTechnique
Si une variable qualitative prends deux Si une variable qualitative prends deux valeurs, on définit une seule variable valeurs, on définit une seule variable prenant les valeurs 0 ou 1.prenant les valeurs 0 ou 1.
ExemplesExemples Sexe: 1 si masculin, 0 si fémininSexe: 1 si masculin, 0 si féminin Garage: 1 si garage, 0 sinon.Garage: 1 si garage, 0 sinon.
4848
Technique (suite)Technique (suite) En général, si une variable qualitative prends m En général, si une variable qualitative prends m
valeurs, on définit (m-1) variables prenant les valeurs, on définit (m-1) variables prenant les valeurs 0 ou 1.valeurs 0 ou 1.
Exemple: Sexe et catégorie d’emploi (cadre, col Exemple: Sexe et catégorie d’emploi (cadre, col blanc, col bleu)blanc, col bleu)
XX11 = 1 si masculin, 0 sinon. = 1 si masculin, 0 sinon. XX22 = 1 si cadre, 0 sinon. = 1 si cadre, 0 sinon. XX33 = 1 si col blanc, 0 sinon. = 1 si col blanc, 0 sinon.
4949
ExempleExemple On veut expliquer le salaire (Y) d'un employé en On veut expliquer le salaire (Y) d'un employé en
tenant compte de trois variables, dont deux variables tenant compte de trois variables, dont deux variables qualitatives, le sexe (masculin ou féminin) et la statut qualitatives, le sexe (masculin ou féminin) et la statut d'employé (cadre, col blanc, col bleu), ainsi que d'employé (cadre, col blanc, col bleu), ainsi que l’expérience. l’expérience.
XX11 = 1 si masculin, 0 sinon. = 1 si masculin, 0 sinon. XX22 = 1 si cadre, 0 sinon. = 1 si cadre, 0 sinon. XX33 = 1 si col blanc, 0 sinon. = 1 si col blanc, 0 sinon. XX44 = années d’expérience. = années d’expérience.
5050
Exemple (suite)Exemple (suite)
Le modèle de régression est:Le modèle de régression est:YY = = 00 + + 11XX11 + + 22XX22 + + 33 X X33 + + 44XX44 + +
Interprétez Interprétez 00, , 11, , 22,, 33 , , 44 . .
Comment peut-on savoir s’il est vrai que les Comment peut-on savoir s’il est vrai que les femmes ont des salaires inférieurs?femmes ont des salaires inférieurs?
5151
““P-value” pour les tests P-value” pour les tests unilatéraux avec Excel.unilatéraux avec Excel.
Les tableaux obtenus lors d’une étude de Les tableaux obtenus lors d’une étude de régression nous fournissent la “p-value” P régression nous fournissent la “p-value” P pour les tests Hpour les tests H00 : : i i = 0 vs H= 0 vs H11 : : i i ≠ 0 .≠ 0 .
Pour un test statistique avec une Pour un test statistique avec une hypothèse Hhypothèse H11 unilatérale, la valeur de la unilatérale, la valeur de la “p-value” n’est pas donnée, puisque le “p-value” n’est pas donnée, puisque le senssens de H de H11 n’est pas spécifié. n’est pas spécifié.
5252
Règles à suivre :Règles à suivre :
Si HSi H11 est de la forme est de la forme i i > 0 et que b> 0 et que bii >0, alors >0, alors la “p-value” est P/2. Sinon c’est 1- P/2.la “p-value” est P/2. Sinon c’est 1- P/2.
Si HSi H11 est de la forme est de la forme i i < 0 et que b< 0 et que bii <0, <0, alors la “p-value” est P/2. Sinon c’est 1- P/2.alors la “p-value” est P/2. Sinon c’est 1- P/2.
En mots, la “p-value” unilatérale est la moitié En mots, la “p-value” unilatérale est la moitié de la p-value bilatérale lorsque le coefficient a de la p-value bilatérale lorsque le coefficient a le même le même signesigne que celui de l’hypothèse H que celui de l’hypothèse H11. . Sinon c’est 1- “p-value”/2. Sinon c’est 1- “p-value”/2.
5353
Exemple avec une variable qualitative à deux Exemple avec une variable qualitative à deux niveaux que l’on a codé 0 et 1 dans le modèle:niveaux que l’on a codé 0 et 1 dans le modèle:
The regression equation is
Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC + 18899 Sbains + 22372 Garage
Predictor Coef StDev T PConstant -72080 14175 -5,08 0,000Terrain 1,8342 0,1892 9,69 0,000Pied2 47,175 7,013 6,73 0,000SbainsC 11535 3256 3,54 0,001Sbains 18899 5211 3,63 0,001Garage 22372 11116 2,01 0,058
S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%
Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=1)
Fit StDev Fit 95,0% CI 95,0% PI 182248 4345 ( 173588; 190908) ( 120511; 243985)
5454
Prévision de la valeur totale pour une maison Prévision de la valeur totale pour une maison sans garage lorsque pour les mêmes valeurs de sans garage lorsque pour les mêmes valeurs de terrain, etc.terrain, etc.
Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=0)
Fit StDev Fit 95,0% CI 95,0% PI159876 10362 ( 139224; 180528) ( 95355; 224397)
5555
Question:Question: Si on veut savoir si le fait d’avoir un garage Si on veut savoir si le fait d’avoir un garage
augmente le prix de la maison, on doit tester:augmente le prix de la maison, on doit tester: HH00: : garagegarage 0 0 vs H vs H11: : garagegarage >> 0 0
Comme Comme garagegarage = 22372 > 0, la p-value = 22372 > 0, la p-value correspondant à Hcorrespondant à H11: : garagegarage >> 0 est 0.0058/2 = 0 est 0.0058/2 = 0.029 < 0.05. Donc on accepte H0.029 < 0.05. Donc on accepte H11..
Il faut noter ici que la p-value bilatérale aurait Il faut noter ici que la p-value bilatérale aurait amené à enlever la variable.amené à enlever la variable.
5656
Dans l’exemple précédent, si on avait Dans l’exemple précédent, si on avait codé la variable par 0 si garage et 1 codé la variable par 0 si garage et 1 sinon, on aurait obtenu le tableau sinon, on aurait obtenu le tableau suivant:suivant:
The regression equation isThe regression equation is
TotaleTotale = - 72080 + 1,83 = - 72080 + 1,83 TerrainTerrain + 47,2 + 47,2 Pied2Pied2 + 11535 + 11535 SbainsCSbainsC + + 18899 18899 SbainsSbains - 22372 - 22372 GarageGarage
Predictor Coef StDev T PPredictor Coef StDev T PConstant -72080 14175 -5,08 0,000Constant -72080 14175 -5,08 0,000Terrain 1,8342 0,1892 9,69 0,000Terrain 1,8342 0,1892 9,69 0,000Pied2 47,175 7,013 6,73 0,000Pied2 47,175 7,013 6,73 0,000SbainsC 11535 3256 3,54 0,001SbainsC 11535 3256 3,54 0,001Sbains 18899 5211 3,63 0,001Sbains 18899 5211 3,63 0,001Garage -22372 11116 -2,01 0,058Garage -22372 11116 -2,01 0,058
S = 30671 S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%R-Sq = 87,6% R-Sq(adj) = 86,8%
5757
Si on avait testé:Si on avait testé: HH00: : garagegarage 0 0 vs H vs H11: : garagegarage >> 0 0
nous aurions obtenu une p-value de 0.971 = 1 – nous aurions obtenu une p-value de 0.971 = 1 – 0.058/2 car 0.058/2 car garagegarage = -22372 < 0. = -22372 < 0.
Par contre, si on avait voulu savoir si le fait d’avoir Par contre, si on avait voulu savoir si le fait d’avoir un garage augmente le prix de la maison, on aurait un garage augmente le prix de la maison, on aurait testé:testé:
HH00: : garagegarage ≥ 0≥ 0 vs H vs H11: : garagegarage << 0 0
nous aurions obtenu une p-value de 0.029 = nous aurions obtenu une p-value de 0.029 = 0.058/2 car 0.058/2 car garagegarage = -22372 < 0 a le même signe = -22372 < 0 a le même signe que Hque H11..
5858
Comparaison de moyennesComparaison de moyennes Supposons que l’on veuille comparer les Supposons que l’on veuille comparer les
moyennes de deux groupes (moyennes de deux groupes (11 = moyenne du = moyenne du groupe 1), (groupe 1), (22 = moyenne du groupe 2) pour une = moyenne du groupe 2) pour une variable Y. variable Y.
On peut le faire avec la régression en On peut le faire avec la régression en définissant X = 1 pour le groupe 1, X= 0 pour le définissant X = 1 pour le groupe 1, X= 0 pour le groupe 2. groupe 2.
Dans ce cas, Dans ce cas, = = 1 1 ––
5959
L’hypothèse L’hypothèse HH1 1 : : 11> > 2 2 correspond correspond àà H H1 1 : : ..
L’hypothèse L’hypothèse HH1 1 : : 11< < 2 2 correspond correspond àà H H1 1 : : ..
L’hypothèse L’hypothèse HH1 1 : : 1 1 ≠≠ 2 2 correspond correspond àà H H1 1 : : ≠≠ ..
6060
ExempleExemple Un gestionnaire se questionne sur la pertinence Un gestionnaire se questionne sur la pertinence
d’un cours de formation ayant pour but d’un cours de formation ayant pour but d’améliorer la rapidité d’exécution d’une tâche. d’améliorer la rapidité d’exécution d’une tâche.
Pour ce faire il choisit au hasard 10 employés et Pour ce faire il choisit au hasard 10 employés et leur soumet une tâche et il note le temps leur soumet une tâche et il note le temps d’exécution (en heures) pour chacun des d’exécution (en heures) pour chacun des employés. Ces employés suivent le fameux employés. Ces employés suivent le fameux cours de formation et à leur retour, on leur cours de formation et à leur retour, on leur donne une nouvelle tâche (similaire à la donne une nouvelle tâche (similaire à la première) et on note à nouveau le temps première) et on note à nouveau le temps d’exécution pour chaque employé. d’exécution pour chaque employé.
Les résultats sont dans le fichier Les résultats sont dans le fichier etudeetude..xlsxls
6161
Questions:Questions:
a) Devrait-on permettre à d’autres employés a) Devrait-on permettre à d’autres employés de suivre cette formation? Prenez a = 5%.de suivre cette formation? Prenez a = 5%.
b) On a oublié d’identifier les employés sur b) On a oublié d’identifier les employés sur le questionnaire. Est-ce que la conclusion le questionnaire. Est-ce que la conclusion est la même?est la même?
6262
SolutionSolution
Dans le premier cas, les données sont Dans le premier cas, les données sont appariées et l’on teste si les différences appariées et l’on teste si les différences (Avant – Après) sont positives. La p-value (Avant – Après) sont positives. La p-value est est 0.0003 < 0.05 = 0.0003 < 0.05 = . Donc on accepte . Donc on accepte HH11 et l’on conclut que et l’on conclut que 1 1 (avant)(avant) est est significativement plus grande quesignificativement plus grande que 22 (après), ce qui nous amène à suggérer la (après), ce qui nous amène à suggérer la formation.formation.
6363
Dans le second cas, les données ne Dans le second cas, les données ne sont pas appariées. On peut utiliser la sont pas appariées. On peut utiliser la régression avec Y = temps d’exécution régression avec Y = temps d’exécution et X = 1 pour les données avant le et X = 1 pour les données avant le cours et X = 0 pour les données après cours et X = 0 pour les données après le cours.le cours.
On trouve alorsOn trouve alorsCoefficients Erreur-type Statistique t Probabilité
Constante 5,217 0,12998932 40,1340677 4,5838E-19X 0,244 0,18383265 1,32729412 0,20100167
6464
Comme on veut tester Comme on veut tester HH1 1 : : (qui est la (qui est la même que Hmême que H1 1 : : avantavant> > après après ), et que l’on a ), et que l’on a
b = 0.244 > 0b = 0.244 > 0, la p-value est , la p-value est 0.201/2 = 0.1005 0.201/2 = 0.1005 > 0.05. > 0.05.
On accepte donc HOn accepte donc H00, ce qui nous amène à , ce qui nous amène à rejeter la suggestion de formation.rejeter la suggestion de formation.
Vous avez ici un exemple frappant de la plus Vous avez ici un exemple frappant de la plus grande variabilité engendrée par la grande variabilité engendrée par la considération des deux échantillons considération des deux échantillons indépendants vs échantillons appariés.indépendants vs échantillons appariés.
6565
Remarque: cas de plusieurs moyennesRemarque: cas de plusieurs moyennes
Si on veut comparer les moyennes de Si on veut comparer les moyennes de kk groupes, d’une variable Y, on peut groupes, d’une variable Y, on peut encore utiliser la régression.encore utiliser la régression.
Pour i=1, 2, …, k-1, on pose:Pour i=1, 2, …, k-1, on pose: XXii = 1 pour le groupe i, 0 sinon. = 1 pour le groupe i, 0 sinon. AlorsAlors 00 = moyenne du groupe k = = moyenne du groupe k = kk et et ii = = ii - - kk, 1 , 1 i i k-1. k-1.
6666
Par conséquent, le test de régression où HPar conséquent, le test de régression où H00 est donnée par est donnée par
HH00: : 11 = = 22 = ... = = ... = k-1k-1 = 0, = 0,
est équivalent au test de comparaison des moyennes où est équivalent au test de comparaison des moyennes où HH00 est donnée par est donnée par
HH00: : 11 = = 22 = ... = = ... = kk.. Dans ce cas, HDans ce cas, H11 est: au moins deux est: au moins deux moyennes sont égales, mais on ne sait moyennes sont égales, mais on ne sait pas lesquelles. Pour ce faire, on pas lesquelles. Pour ce faire, on doit regarder la p-value pour chacune doit regarder la p-value pour chacune des variables.des variables.