View
350
Download
0
Category
Preview:
Citation preview
UNIVERSITÉ LAVAL FACULTÉ DES SCIENCES DE L’ADMINISTRATION ÉCONOMIE URBAINE ET MARCHÉS IMMOBILIERS
GUI-4100/6100
Évolution de la mise en chantier résidentiel depuis 1980 à 2013 dans la RMR de Québec
Travail de session remis à M. François Des rosiers
Par Florian POIX florian.poix.1@ulaval.ca
# 111 099 739
Michael LEFEBVRE michael.lefebvre.1@ulaval.ca
# 903 178 548
Katerine GIRARD katerine.girard.1@ulaval.ca
# 910 052 569
Automne 2014
Table des matières Introduction ................................................................................................................................................................. 2
Méthodologie ............................................................................................................................................................... 3
Analyse et interprétation ....................................................................................................................................... 7 -‐Analyse de la base de données……………………………………………………………………………….…………………………7 -‐Tests de normalité………………………………………………………………………………………………………………………....11 -‐Analyse de corrélation………………………………………………………………….....................................................................13 -‐Tests de colinéarité…………………………………………………………………………………………………………………..…...16 -‐Interprétation de la qualité du modèle de régression…………..…………………………………………………………..20 -‐Interprétation de l'ajustement du modèle de régression…………………………………………………………….……21 -‐Évaluation et interprétation des paramètres du modèle………………………………………………………………….23
Conclusion et Interpretation globale ............................................................................................................. 27
Bibliographie .............................................................................................................................................................. 28
ANNEXE 1 : Carte de la RMR de Québec ....................................................................................................... 30
ANNEXE 2 : Base de données ............................................................................................................................. 31
ANNEXE 3 : Histogramme et nuage de points du modèle de régression ........................................ 33
ANNEXE 4 : Histogrammes et Normogrammes Q-‐Q du test de normalité ..................................... 34
ANNEXE 5 : Test de normalité sur les variables retenues .................................................................... 39
Table des figures Figure 1 : Mise en chantier et variables connexes ....................................................................................... 7 Figure 2: relations entre les données économiques ................................................................................... 8 Figure 3 : évolution des facteurs démographiques ..................................................................................... 9 Figure 4 : évolution des facteurs économiques ............................................................................................ 9 Figure 5 : Évolution des facteurs socioéconomiques .............................................................................. 10 Figure 6 : nuages de dispersion des variables indépendantes retenues ........................................ 26 Table des tableaux Tableau 1 : Liste des données primaires à l'étude ............................................................................................. 4 Tableau 2 : test de normalité sur l’ensemble des données à l’étude ................................................ 11 Tableau 3 : Test de normalité sur les données transformées .............................................................. 12 Tableau 4 : Analyse de corrélation .................................................................................................................. 13 Tableau 5 : Statistiques de colinéarité ........................................................................................................... 16 Tableau 6 : analyse de régression avec des variables log ..................................................................... 17 Tableau 7 : analyse intégrant différentes variables ................................................................................. 18 Tableau 8 : analyse intégrant différentes variables ................................................................................. 18 Tableau 9 : analyse intégrant d'autres variables ...................................................................................... 19 Tableau 10: Analyse de variances ................................................................................................................... 21 Tableau 11 : Analyse de régression ................................................................................................................ 21 Tableau 12 : Coefficients du modèle ............................................................................................................... 23 Tableau 13 : Équation de régression pour prédir une valeur de "y" ................................................ 25
2
Introduction La situation économique et démographique du Québec évolue sans cesse. Il en est de même pour
le marché résidentiel. Partout, on remarque un développement relativement constant d’immeubles
à condominiums et à appartements, des maisons individuelles et jumelées qui prennent forme
dans les paysages urbains pour répondre aux besoins d’une population changeante. Après une
période d’effervescence à la fin des années 1970 qui a conduit vers un boom immobilier de 1985
à 1989, la demande dans le marché du logement tend à ralentir, bien que le marché reste encore
très actif. Depuis 2000, le marché du logement maintient une certaine vigueur qui semble vouloir
perdurer. Les faibles taux d’intérêt sont en grandes parties responsables de la prospérité du
marché. Plusieurs recherches démontrent que le marché de la propriété tout comme le marché
locatif représentent des très bons potentiels de développement futur. C’est un secteur actif qui
évolue constamment. À titre d’exemple, on compte 386 mises en chantier résidentiel pour la
période de janvier à mars 2014 sur le territoire de Québec et une prédiction de 4125 pour l’année
2014 contre un total de 6652 pour l’année 2010. (Société canadienne d’hypothèques et de
logement).
Plusieurs études sur le marché résidentiel sont menées régulièrement. Une étude de la FCIQ a
notamment permis de créer un modèle pour mieux comprendre l’impact de ces facteurs sur
l’évolution des prix. En parallèle, on peut se poser la question, à savoir quels sont les facteurs qui
influencent cette fois la mise en chantier ? Le marché du logement et les constructions de
logements neufs sont des facteurs importants de l’économie nationale et régionale c’est pourquoi
il sera question de tenter de mesurer les impacts de différentes variables sur ce phénomène.
Le thème de la recherche portera sur l’évolution de la mise en chantier résidentiel dans la région
métropolitaine de Québec depuis 1980 à 2013. Pour tenter de mesurer ce phénomène, plusieurs
données de type économique, socio-économique et démographique seront analysées.
3
L’outil d’analyse utilisée sera l’analyse de régression, qui permettra de comprendre comment
évolue la mise en chantier résidentiel depuis 1980 jusqu'à 2013. En d’autres termes, l’analyse de
régression servira d’outils de mesure pour mieux connaître l’influence des facteurs externes sur le
nombre de mise en chantier résidentiel. Notre variable dépendante, à savoir la mise en chantier
résidentiel, sera mise en relation avec les variables issues des données économiques, socio-
économiques et démographiques qui seront abordées dans la prochaine section. Il s’agira de faire
corréler les variables les plus importantes pour évaluer leur degré de signification grâce au
coefficient (R²) et ainsi pouvoir mieux comprendre quelles sont les variables qui influencent de
façon significative la variable dépendante. Un modèle essentiellement empirique sera élaboré afin
de mieux comprendre le phénomène. Le contenu du travail comprendra d’une part la
méthodologie, l’analyse détaillée des variables grâce à des graphiques inter reliés, des figures et
des tableaux, l’interprétation des résultats obtenus et finalement, la conclusion du travail et la
partie bibliographique.
Méthodologie Pour effectuer ce travail, il fut question tout d’abord de rechercher des données sur différentes
variables. Des données ont été compilées à partir du coeur du sujet, donc sur le nombre de mise
en chantier des maisons individuelles et des jumelés ainsi que la mise en chantier des
appartements dans la RMR de Québec. Ces informations ont été compilées sous la forme d’une
seule variable, sois la mise en chantier globale. D’autres données ont été récoltées tel que les taux
hypothécaires réels sur 5 ans, les données sur les prix moyens du logement, l’indice du prix du
neuf, la quantité d’unités écoulées sur le marché et les taux d’inoccupation.
Un certain nombre de variables socio-économiques ont également été compilées, telles que la
population active chez les femmes, la population active totale, les revenus moyens par ménages et
la taille des ménages. La taille des ménages fut regroupée en deux variables, sois les ménages de
1 et 2 personnes et les ménages de 3 personnes et plus. D’autres données de types
démographiques ont été compilées, telles que le taux de natalité, la population totale
d’immigrants et les différentes tranches d’âges de la population. Les recherches se sont
concentrées sur la tranche d’âge de 15 à 54 ans. Les deux tranches d’âge de 15 à 34 ans et de 35 à
54 ont été regroupées afin de contenir les tranches d’âge de 15 à 54 ans.
Ces données ont été récoltées pour la population de la RMR de Québec de 1980 à 2013 tel que
mentionné plus haut. Les données sur la population de 15 à 54 ans, la taille des ménages, la
population active chez les femmes et la population active totale proviennent du recensement de
4
Statistique Canada. Les données sur l’immigration, le revenu moyen par ménages, la population
active, le taux hypothécaire, le taux d’inoccupation et l’indice des prix du neuf proviennent de la
banque de données CANSIM. Les données sur le loyer moyen proviennent de la société
canadienne d’hypothèque et du logement. Le nombre d’unités écoulées proviennent des données
de la Société canadienne de l’hypothèque et de logement. Bien qu’elle ait été compilée, cette
dernière variable n’a pas été utilisée dans le modèle, car une sélection des variables fut nécessaire
afin de ne pas surcharger l’analyse.
Pour la majorité des variables, les données les plus récentes dataient de 2011. Des procédures
d’extrapolation et d’interpolation ont été effectuées pour aller chercher les données manquantes
pour 2012 et 2013, mais aussi pour certaines données manquantes jusqu’en 1980. Pour les
variables disponibles aux 5 ans dans les recensements et celles tout simplement absentes pour
certaines années, une série d’interpolation a été effectuée.
Au départ, une quinzaine de variables ont été récoltées. Avant d’entamer le processus d’analyse,
celles-ci ont été revues afin d’effectuer une présélection. Après consultation, 13 variables
seulement ont été retenues (Tableau 1).
Tableau 1 : Liste des données primaires à l'étude
DONNÉES À L’ÉTUDE SOURCE
Population âgée de 15 à 54 ans Statistique Canada – Recensement
Ménages de 1 à 2 personnes Statistique Canada- Recensement
Ménages de 3 personnes et plus Statistique Canada – Recensement
Immigration Statistique Canada – Cansim
Revenu moyen par ménages Statistique Canada - Cansim
La population active Statistique Canada - Cansim
La population active chez les femmes Statistique Canada - Recensement
La population totale Statistique Canada - Recensement
Le Taux hypothécaire réel Statistique Canada – Cansim
Taux d’inoccupation Statistique Canada - CANSIM
Indice des prix du neuf Statistique Canada - CANSIM
Loyer moyen Société Canadienne d’hypothèque et du logement
5
Avant l’utilisation de SPSS, 4 graphiques et un histogramme ont été élaborés avec Excel, afin de
pouvoir mieux saisir la relation entre les différentes variables. Cela a notamment permis de faire
la sélection des variables du premier modèle étudié. Une analyse sommaire a été effectuée.
Pour chaque variable, la forme de la distribution a été mesurée pour s’assurer que le modèle de
régression suive une distribution normale. Un test de normalité de Kolmogorov-Smirnov et de
Shapiro-Wilks a été effectué. Toutefois, une attention plus particulière a été accordée au test de
Shapiro-Wilks en raison de sa meilleure fiabilité en général. Une analyse sommaire des
coefficients d’asymétrie et d’aplatissement a également été effectuée grâce aux tableaux générés
par SPSS. Ces tableaux ne figurent toutefois pas dans l’analyse afin de ne pas alourdir le travail.
Sur ces 13 variables, 7 ont révélé une distribution anormale. La variable dépendante, soit la mise
en chantier résidentiel présentait une distribution normale. Pour les variables indépendantes
anormales, une transformation logarithmique a été effectuée à l’aide de la fonction arithmétique
Lg10. Seules 2 variables présentaient alors une distribution normale. Une autre transformation a
donc été faite, mais cette fois, en grossissant nos variables, c’est-à-dire en ajoutant +1 à chaque
transformation de variable. Par la suite, les variables qui présentaient toujours une distribution
anormale ont été mises de côté.
Une analyse de corrélation a également été effectuée en intégrant tous les variables à l’étude. Par
la suite, l’analyse de régression linéaire via la méthode « Enter » ainsi qu’un diagnostic de
colinéarité ont été effectués avec les variables qui présentaient toutes une distribution normale. Il
s’est alors avéré qu’il existait une très forte multi colinéarité entre les variables ce qui venait
fausser le modèle. Après plusieurs tentatives, en retirant des variables en alternance, seules deux
variables présentaient un VIF de 10.00, qui étaient la valeur minimum. Cette valeur n’était pas
satisfaisante. Toutes les variables dites normales présentaient une forte colinéarité. Une
alternative à ce problème fut d’introduire certaines variables à distribution anormale
préalablement rejetées. Ces variables furent introduites au modèle de régression linéaire par
essais et erreur, en alternance, afin de déterminer celles qui présentaient les plus faibles indices de
colinéarité. Les nombreux tests effectués incluaient parfois un mélange de données à distribution
normale et anormale.
Suite à cette série d’analyses et d’épuration, il s’est avéré que seules les variables suivantes
détenaient un VIF dans la mesure de l’acceptable : Le taux hypothécaire moyen, le taux
d’inoccupation, le revenu moyen par ménages et la population âgée de 15 à 54 ans. Les autres
variables ont été rejeté car elles détenaient un VIF supérieur ou égal à 10,00, ou elles
intervenaient de façon à faire augmenter la multi-colinéarité autres variables. L’immigration
6
présentait parfois un vif acceptable, mais il prenait ensuite une ampleur significative lorsque mis
en relation avec le revenu moyen par ménages. Il fallait donc faire un choix entre les deux
variables. Au final, le choix s’est arrêté sur ces 4 variables indépendantes énumérées ci-haut. Ces
variables ont été conservées dans le modèle de régression.
Plusieurs analyses de régression ont été effectuées en intégrant ces 4 variables. La première
analyse s’est effectuée avec les variables ayant subi une transformation logarithmique de base. La
deuxième s’est effectuée avec les variables ayant subi une transformation logarithmique exagérée
de +1. La troisième analyse comprenait les variables n’ayant pas subi de transformation
logarithmique. C’est cette troisième et dernière analyse qui a été retenue en raison des résultats
obtenus dans le modèle. Les variables avant subies une transformation log + 1 n’ont pas été
retenus, car les résultats générés par la transformation n’étaient pas significatifs.
Finalement, une évaluation de la qualité du modèle de régression par une analyse de variance, une
évaluation de l’ajustement du modèle de régression aux données et une évaluation des paramètres
du modèle a été complétée.
7
Analyse et interprétation
Analyse de la base de données
Afin de mieux définir les variables indépendantes à utiliser face à la variable dépendante, il fut
question d’analyser préalablement l’interrelation et les tendances des données par le biais de
graphiques en courbes et un histogramme.
La figure 1 présente un graphique qui met en relation les mises en chantier de différents types de
propriétés (individuels, jumelés et appartements) face au loyer moyen, aux unités écoulées et
celles achevées, mais non écoulées sur le marché de la RMR de Québec. Après analyse, il a été
décidé de conserver la variable « mise en chantier » et de revoir celle-ci de façon globale afin
qu’elle comprenne tous les types de propriétés.
Figure 1 : Mise en chantier et variables connexes
La figure 2 permet de comprendre la relation entre plusieurs données économiques tels les taux
hypothécaires moyens, taux de chômage, taux d’inoccupation et les prix moyens des propriétés
résidentielles. Ces variables ont toutes été approfondies afin d’être utilisées dans l’étude, compte
tenu de leur importance à première vue.
400
450
500
550
600
650
700
750
0 250 500 750
1000 1250 1500 1750 2000 2250 2500 2750 3000 3250 3500 3750 4000 4250 4500 4750
1990 1993 1996 1999 2002 2005 2008 2011 2014
Mises
en chan
?er
Période
Mises en chantier vs. unités achevés mais non écoulés
Achevés mais non écoulés Unités écoulés sur le marché
Mises en chan>er (individuels et jumelés) Mises en chan>er (appartements)
Loyers moyens
8
Figure 2: relations entre les données économiques
L’histogramme de la figure 3 a été élaboré afin de pouvoir visualiser les tendances
démographiques de la RMR de Québec selon différentes tranches d’âge ou spécificités (ex. :
natalité).
0 15000 30000 45000 60000 75000 90000 105000 120000 135000 150000 165000 180000 195000 210000 225000 240000 255000 270000 285000 300000 315000 330000
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
10.00 11.00 12.00 13.00 14.00 15.00
1990 1993 1996 1999 2002 2005 2008 2011 2014
prix
Taux
Période
Taux d'intérêt vs. prix moyens vs. taux de chômage
Taux hyp. moyen annoncé 5 ans Taux de chômage
Taux d'inoccupa>on (logement) Prix moyens
Enreg. (Taux hyp. moyen annoncé 5 ans) Enreg. (Taux de chômage)
Enreg. (Taux d'inoccupa>on (logement)) Enreg. (Prix moyens)
9
Figure 3 : évolution des facteurs démographiques
Figure 4 : évolution des facteurs économiques
0 10000 20000 30000 40000 50000 60000 70000 80000 90000
100000 110000 120000 130000 140000 150000 160000 170000 180000 190000 200000 210000 220000 230000 240000 250000
1986 1991 1996 2001 2006 2011
Nom
bre de
personn
es
Années
Évolution des facteurs démographiques
natalité (Capitale-‐Na>onale) pop. totale d'imigrants popula>on 0-‐14 ans popula>on 15-‐34 ans popula>on 35-‐54 ans popula>on 55-‐64 ans popula>on 65 ans et +
126660
158595 163225 175835
194065
32873 42164 43737
50230 60884
69504
64.5
67.28
64.4
65.6
67.4 67.4
60
65
70
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
200000
1981 1986 1991 1996 2001 2006 2011
Pou
rcen
tage
(%)
Pop
ulat
ion
(Nom
bre
de p
erso
nnes
)
Évolution des facteurs économiques
pop. active chez les femmes revenus moyens par menage
taux d'activité Enreg. (pop. active chez les femmes)
Enreg. (revenus moyens par menage) Enreg. (taux d'activité)
10
La figure 4 a permis d’entrevoir l’évolution de trois facteurs liés au contexte économique de la
RMR de Québec.
Les facteurs tels la composition des ménages et le nombre de divorcés qui sont présentés à la
figure 5, permettent de présenter les certaines tendances de l’évolution socioéconomique pour la
RMR de Québec.
Sur la base des données économiques, démographiques et socioéconomiques travaillées et
analysées à travers ces différents graphiques des figures 1 à 5, une première analyse de régression
linéaire pouvait voir le jour en intégrant les variables indépendantes suivantes : taux hypothécaire
5 ans, taux d’inoccupation, indice du logement neuf, revenu moyen, loyer moyen, population de
15 à 54 ans, population active, population active chez les femmes, ménage de 2 personnes et
moins, ménage de 3 personnes et plus et finalement les immigrants.
17740
36860
49750
58510
39405
43880
0
10000
20000
30000
40000
50000
60000
70000
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
200000
220000
240000
1986 1991 1996 2001 2006 2011
Div
orcé
s
Nom
bre
de m
énag
e
Année
Évolution des facteurs socioéconomiques
1 à 2 personnes 3 personnes 4 personnes et + divorcés
Enreg. (1 à 2 personnes) Enreg. (3 personnes) Enreg. (4 personnes et +) Enreg. (divorcés)
Figure 5 : Évolution des facteurs socioéconomiques
11
Test de normalité Afin de s’assurer d’une meilleure performance de notre modèle, un test de normalité a été
effectué sur la totalité des variables à l’étude.
Tableau 2 : test de normalité sur l’ensemble des données à l’étude
Suivant le test Shapiro-Wilk, on considère qu’une variable est normale quand la valeur de la
signification est supérieure à 0,05.
Afin de pouvoir poursuivre l’analyse, une attention particulière fut portée sur la variable
dépendante, afin de s’assurer qu’elle soit supérieure à cette valeur.
Variable « Mise en chantier » = 0.127 > 0.05 avec un échantillon de 34 observations, ce qui
amène à conclure au non-rejet de l’hypothèse nulle. De ce fait, rien n’indique que la distribution
n’est pas normale.
12
Par la suite, en appliquant la même analyse, il est possible de faire ressortir les variables
indépendantes ayant une distribution considérée comme normale (signification > 0.05) :
-‐ Loyer moyen : signification = 0.215
-‐ Population totale : signification = 0.058
-‐ Ménages de 1 & 2 personnes : signification = 0,157
-‐ Population active des femmes : signification = 0.182
-‐ Population active : signification = 0.168
Voir les histogrammes en annexe #4.
Afin d’obtenir un maximum de variables dans le modèle, celles qui étaient considérées comme
non normales ont été transformées à l’aide d’un modèle mathématique. Le tableau suivant intègre
des données transformées.
Tableau 3 : Test de normalité sur les données transformées
Dans le tableau ci-dessus, les variables ayant une distribution initialement non normales on subit
une transformation logarithmique.
Le tableau #3 permet de retenir comme variables normalement distribuées :
-‐ log prix des logements neufs avec une signification de ,134
-‐ log des immigrants avec une signification de ,068
La variable de la population de 15 à 54 ans étant importante pour l’analyse, elle sera conservée
dans le modèle étant donné que la normalité n’est pas un critère indispensable pour les variables
indépendantes.
13
Analyse de corrélation Tableau 4 : Analyse de corrélation
14
En analysant le contenu du tableau 4, il apparaît que les variables indépendantes ont une faible
corrélation avec la variable dépendante : « mise en chantiers de logements », avec une corrélation
de Pearson ne dépassant pas les 0,229. Certaines variables présentent même une corrélation
négative telles que les ménages de 3 personnes et plus avec une valeur de - 0,42 ou encore la
population de 15 à 54 ans avec une valeur de -0,194. Cela nous amène à supposer que les
variables indépendantes ont un faible pouvoir explicatif envers la variable dépendante « mise en
chantier »
Des données sont néanmoins intéressantes à retenir. En effet, les prix des logements neufs ainsi
que les loyers moyens présentent une forte corrélation avec les variables indépendantes étudiées.
Il apparaît notamment une corrélation positive avec :
-‐ L’immigration :
o corrélation de Pearson prix des logements neufs = 0,949
o corrélation de Pearson loyers moyens = 0,964
-‐ Le revenu moyen :
o corrélation de Pearson prix des logements neufs = 0,817
o corrélation de Pearson loyers moyens = 0,840
-‐ Le Loyer moyen :
o corrélation de Pearson prix des logements neufs = 0,995
-‐ Le prix des logements neufs :
o corrélation de Pearson loyers moyens = 0,995
-‐ La population de 15 à 54 ans :
o corrélation de Pearson prix des logements neufs = 0,863
o corrélation de Pearson loyers moyens = 0,866
-‐ La population totale :
o corrélation de Pearson prix des logements neufs = 0,971
o corrélation de Pearson loyers moyens = 0,988
-‐ Les ménages de 1 et 2 personnes :
o corrélation de Pearson prix des logements neufs = 0,969
o corrélation de Pearson loyers moyens = 0,995
-‐ La population active :
o corrélation de Pearson prix des logements neufs = 0,989
o corrélation de Pearson loyers moyens = 0,994
15
-‐ La population active chez les femmes :
o corrélation de Pearson prix des logements neufs = 0,983
o corrélation de Pearson loyers moyens = 0,992
La similitude entre la corrélation des variables « prix des logements neufs » et « loyers moyens et
les autres variables est flagrante. Ces 2 variables ont sensiblement la même relation avec les
autres variables indépendantes.
Certaines variables ont également une corrélation négative, cela signifie qu’il existe une relation
linéaire négative entre le prix des logements neufs et :
-‐ Taux d’inoccupation :
o corrélation de Pearson prix des logements neufs = -0,367
o corrélation de Pearson loyers moyens = -0,427
-‐ Les ménages de 3 personnes et plus :
o corrélation de Pearson prix des logements neufs = -0,348
o corrélation de Pearson loyers moyens = -0,431
La valeur absolue des coefficients n’étant cependant pas extrêmement forte, la corrélation est
donc moins significative que pour les variables précédentes.
16
Tests de colinéarité
Cette analyse de régression a été effectuée en incluant toutes les variables du modèle à
distribution normale ainsi que la population de 15 à 54 ans.
Tableau 5 : Statistiques de colinéarité
17
Afin de se prémunir de risques de multi-colinéarité des données, le coefficient VIF (ou facteur
d’inflation de la variance) doit être inférieur à 10. Comme le démontre le contenu du tableau 5, il
y a une forte multi-colinéarité des données ce qui vient fausser l’analyse. Il est possible de
constater que plus il y a de variables, plus la multi-colinéarité est importante. Cela est d’autant
plus marquant pour la population active avec un VIF de 1965,989 et la population active chez les
femmes où le VIF est de 1563,447. Les chances sont donc très fortes pour que les deux variables
d’expliquent mutuellement.
Il a donc été décidé de refaire un modèle en supprimant les variables les plus colinéaires telles
que la population active et la population active chez les femmes.
Parmi les tests, il fut question de les remplacer les données brutes par des données transformées
par un log. Compte tenu de la présence importante de multi-colinéarité, il est accepté que le
modèle ne contienne pas que de variables normales.
Tableau 6 : analyse de régression avec des variables log
Il est possible de constater dans le tableau 6 un VIF acceptable pour les variables suivantes :
-‐ Log de la population de 14 à 54 ans : 6.001 < 10
-‐ Log des taux hypothécaires : 1.603 < 10
-‐ Log des logements inoccupés : 3.758 < 10
Concernant le log « ménagetrois » (ménage de 3 personnes et plus), le VIF est de 9,574 donc
également inférieurs à 10, mais s’en rapproche très fortement, ce qui n’est pas idéal.
18
Afin d’avoir un modèle plus significatif, avec une multi colinéarité moindre, plusieurs tests ont
été fait avec l’ensemble des données du modèle.
Voici quelques exemples d’autres tests qui ont été effectués.
Test 1 : Tableau 7 : analyse intégrant différentes variables
Dans le tableau 7, il apparaît que le log des immigrants et la population de 15 à 54 ans respecte
les tolérances de colinéarité. Le problème se révèle lorsque l’on ajoute la variable loyer moyen.
Dans ce cas, le VIF des immigrants passe à 16,302 et le loyer moyen à 24,793.
Test 2 : Tableau 8 : analyse intégrant différentes variables
19
Le tableau 8, met en évidence que le problème de multi corrélation du modèle dans le tableau 7
était lié à la variable "immigrant" qui présentait une forte colinéarité avec le loyer moyen. Dans le
cas présent le modèle ne contient que 2 variables, mais le VIF est acceptable.
Test 3 : Tableau 9 : analyse intégrant d'autres variables
Ce test semble pertinent, néanmoins, il apparaît un coefficient VIF pour la variable immigrants
important (>10) ce qui amène un fort risque de multi-colinéarité. Il a donc été décidé de
reproduire un modèle sans cette variable. Ce qui a généré le modèle final qui suit dans la
prochaine section .
20
Interprétation de la qualité du modèle de régression
L’interprétation débute en évaluant la qualité du modèle. On vérifie si la première étape du
modèle explique significativement plus de variabilité qu’un modèle sans prédicteur. Ensuite, il
s'agit de s'assurer que toutes les variables introduites contribuent à améliorer significativement la
variabilité expliquée par le modèle final.
Analyse de variance : L’objectif de l’analyse de la variance est de décomposer la variabilité
existante dans la variable dépendante en deux sources de variation : une attribuable aux diverses
modalités des facteurs considérés et une autre attribuable à toute autre source de variation non
prise en considération. Pour tester l’influence du facteur a du tableau 10, la démarche du test de
Fisher a été utilisée.
1. Hypothèses statistiques :
• Hypothèse nulle : H0 = µ1 = µ2 = … µK (les moyennes sont toutes égales)
• Contre-hypothèse : H1 = les µj ne sont toutes égales.
2. Seuil de signification : α = 0,05
3. Conditions d’application du test : On suppose que les observations constituent des échantillons prélevés au
hasard et indépendamment de k populations normales de variance identiques σ2.
4. La statistique qui convient pour le test est le rapport des carrés moyens. En supposant H0 vrai et selon les
conditions d’application, la quantité F= CMA/CM RES est distribuée selon la loi de Fisher avec (k-1) et (n-k)
degré de liberté.
5. Règle de décision. Au seuil α, la valeur critique F de fisher est Fα ;(k-1),(n-k). Donc F0,05 ;(4),(29) = 2,70 selon les
valeurs de la distribution F.
6. Calcul du quotient des carrés moyens : F= CMA/CM RES = 3,463
7. Décision et conclusion : Étant que F est supérieur à la valeur critique (3,462 > 2,70), H0 est rejeté et H1
favorisé. Une influence significative du facteur a est donc présente.
L’essentiel de l’analyse de variance se résume au tableau 10 qui permet d’obtenir les deux carrés
moyens (les variances) pour tester l’hypothèse nulle.
Le tableau 10 reproduit les résultats de l’analyse de variance permettant de vérifier si l’ensemble
des variables indépendantes expliquent globalement «Y» de façon significative. Comme il est
possible de le constater, le F calculé est de 3,463, ce qui excède la valeur critique de 2,70. La
probabilité que ce résultat soit dû au hasard est, en fait, inférieure à 0,05 (colonne Sig).
L’hypothèse nulle H0 est donc exclue et, on peut interpréter que l’ensemble des variables
indépendantes du modèle explique l’évolution de la mise en chantier de façon significative.
21
ANOVAb
33136356 4 8284088,967 3,463 ,020a
69366730 29 2391956,192102503085 33
RégressionRésiduTotal
Modèle1
Sommedes carrés ddl Carré moyen F Signification
Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_innoccupation, Taux_hyp5ans, TREND(Revenu_moyen)
a.
Variable dépendante : Misenchantierb.
Interprétation de l'ajustement du modèle de régression aux données
Maintenant que l’on sait que le modèle est significatif, le tableau récapitulatif du modèle permet
de déterminer la contribution de bloc de variables.
Récapitulatif du modèle(b)
Tableau 11 : Analyse de régression
Modèle R R2 R2 ajusté
Erreur standard de l'estimation
1a ,569(a) ,323 ,230 1546,59503 2b ,103(b) ,011 -,053 1808,72951 3c ,231(c) ,053 -,008 1769,37600 4d ,250(d) ,062 ,002 1760,80363 5e ,194(e) ,038 -,024 1783,77475 6f ,229(f) ,053 -,009 1769,96418 7g ,448(g) ,201 ,121 1652,44039 8h ,231(h) ,053 -,041 1798,56580
a. Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_innoccupation, Taux_hyp5ans,
TREND(Revenu_moyen)
b. Valeurs prédites : (constantes), Taux_innoccupation, Taux_hyp5ans
c. Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_innoccupation
d. Valeurs prédites : (constantes), Taux_innoccupation, TREND(Revenu_moyen)
e. Valeurs prédites : (constantes), Taux_hyp5ans, TREND(Pop15_54_1)
f. Valeurs prédites : (constantes), TREND(Revenu_moyen), Taux_hyp5ans)
g. Valeurs prédites : (constantes), TREND(Pop15_54_1), Taux_hyp5ans, TREND(Revenu_moyen)
h. Valeurs prédites : (constantes), Taux_innoccupation, Taux_hyp5ans, TREND(Pop15_54_1)
b Variable dépendante : Misenchantier
Tableau 10: Analyse de variances
22
Corrélation multiple R : La valeur de la corrélation multiple R est un indice standardisé, variant
entre -1 et +1, de la force de la relation entre l'ensemble des variables indépendantes et la variable
dépendante. C'est la corrélation entre les valeurs prédites et les valeurs réelles. Une valeur de
0,569 pour le modèle 1 suggère que les données sont ajustées au modèle et qu’il existe une
relation entre l’ensemble des variables indépendantes et l’évolution des mises en chantier. Quand
R > ,75 on peut affirmer qu’il existe une forte relation entre l'ensemble des variables, ce qui n’est
pas le cas pour le modèle 1. Les variables suivantes permettent au modèle 1 d’obtenir la meilleure
relation entre les variables indépendantes et la variable dépendante :
• Population de 15-54 ans ;
• Taux d’inoccupation ;
• Taux hypothécaire 5 ans ;
• Revenu moyen.
Corrélation multiple (R2) : Le coefficient de détermination est un indicateur de la performance
explicative du modèle. Il représente la proportion de la variation totale de la variable dépendante
expliquée par l’ensemble des variables explicatives de l’échantillon. Ainsi, on dira que la
combinaison des variables population de 15-54 ans, taux d’inoccupation, taux hypothécaire 5
ans et revenu moyen expliquent seulement 32,3% de la variance de l’évolution des mises en
chantier.
Le R² ajusté : Les variables explicatives dans l’équation de régression ont pour effet de faire
augmenter le (R²) de façon non proportionnelle au (R²) ajusté. Le coefficient (R²) ajusté
expliquerait donc plus précisément le pouvoir explicatif du modèle.
L’erreur standard de l’estimation est l’indicateur de la performance prédictive du modèle de
régression. Exprimé en nombre dans la forme linéaire du modèle, cet indicateur représente
l’erreur commise dans l’estimation des mises en chantiers par le modèle.
23
Coefficientsa
-629,338 5525,759 -,114 ,910-6,901 17,071 -,063 -,404 ,689 ,969 1,032
470,293 205,316 ,607 2,291 ,029 ,333 3,005,359 ,105 1,076 3,402 ,002 ,233 4,285
-,050 ,015 -,723 -3,340 ,002 ,498 2,006
(constante)Taux_hyp5ansTaux_innoccupationTREND(Revenu_moyen)TREND(Pop15_54_1)
Modèle1
BErreur
standard
Coefficients nonstandardisés
Bêta
Coefficientsstandardisés
t Signification Tolérance VIF
Statistiques decolinéarité
Variable dépendante : Misenchantiera.
Évaluation et interprétation des paramètres du modèle
Il a été vérifié que le modèle est significatif et que le modèle 1 est celui qui explique le plus de
variance même si le pouvoir explicatif reste faible. Il est tout de même possible de construire
l’équation de régression pour prédire une valeur de Y. L’équation de base est la suivante :
Yi : (b0 + b1X1 + b2X2 + … + bnXn) + εi
En remplaçant maintenant les b par les coefficients fournis dans le tableau ci-dessus :
Yprédit = (-629,34 - 6,90taux_hyp5ans + 470,29Taux_innoccupation +
0.36TREND(Revenu_moyen) - 0,05TREND(Pop15_54_1))
Pour 2013, un nombre de mises en chantier prédit de :
Yprédit = (-629,34 – 6,90*0,04 +470,29*0,02 + 0,36*73808,30 – 0,05*435770,87)
Yprédit = 4162.24 = 4162 mises en chantier en 2013
Le signe du coefficient indique le sens de la relation. Il est à noter que plus le revenu moyen et le
taux d’inoccupation augmente, plus le nombre de mise en chantier augmente. On interprète aussi
avec l’équation de régression que quand les taux hypothécaires et la population de 15-54 ans
diminue, la mise en chantier augmente.
Tableau 12 : Coefficients du modèle
24
De plus, le coefficient Beta nous informe également sur le degré auquel les variables
indépendantes influencent la variable dépendante si elles sont toutes constantes. Par exemple, le
nombre de mises en chantier est diminué de 629 annuellement. Ensuite, la valeur de t nous
indique si le coefficient est significatif. Alors que le tableau sur le récapitulatif du modèle
confirmait si le modèle était significatif, la signification de t nous permet de répondre si chaque
variable contribue significativement au modèle. Plus la valeur de t est élevée, plus la variable
contribue au modèle. On constate donc que trois variables sur quatre sont significatives et que la
variabilité expliquée par le revenu moyen et la population 15-54 ans sont plus importantes que
celle expliquée par le taux d’inoccupation.
Finalement, la valeur VIF des variables indépendantes tend vers 1 et est en déca de 5. Une valeur
VIF de 10 est problématique au niveau de la multi-colinéarité.
En observant le tableau 13 construit à partir de l’équation de régression pour prédire une valeur
de Y, on peut constater de faibles et de grandes différences entre le Yprédit et la valeur réelle de la
variable dépendante mise en chantier. Les variables indépendantes revenu moyen des ménages et
la population 15-54 ans font varier fortement à la hausse ou à la baisse l’évolution de la mise en
chantier de la RMR de Québec.
25
Tableau 13 : Équation de régression pour prédire une valeur de "y"
26
Figure 6 : nuages de dispersion des variables indépendantes retenues
Les graphiques ci dessus permettent d’illustrer les relations entre la variable dépendante et les
variables indépendantes. En analysant ces graphiques, il n’apparaît pas de relation claire entre la
variable dépendante et chaque variable prise individuellement.
27
Conclusion et interprétation globale
Les résultats ont montré que le revenu moyen des ménages et la population 15-54 ans
sont des variables significative pour le modèle présenté. Par contre, le modèle mis de
l’avant par notre étude ne permet pas d’affirmer qu’il est prédicteur de l’évolution de la
mise en chantier de la RMR de Québec car il n’explique pas de façon significative la
compréhension de la situation. En fait, l’étude effectuée ne démontre pas suffisamment la
pertinence de faire intervenir les valeurs de notre modèle dans l'explication. Parmi les
valeurs qui pourraient expliquer de façon plus probante l’évolution de la mise en chantier,
l'importance accordée au vieillissement de la population et l’activité économique propre
de la RMR apparaîtrait comme les plus importantes.
Les limites ayant empêché de rendre le modèle plus pertinent ont tout d’abord été
l’obligation d’interpoler et extrapoler les données afin de les obtenir par années de 1980 à
2013 pour chacune des variables. La distribution normale était respectée que pour une
faible partie de l’ensemble des variables de l’étude. Et le problème majeur provient de la
multi-colinéarité des variables ce qui a obligé de réduire le modèle à simplement 4
variables indépendantes.
De plus il est à noter que l’évolution de la mise en chantier est une question peu
documentée par les chercheurs qui se sont penchés sur divers sujets connexes comme le
besoin en logements ou le prix de ventes des propriétés pour la RMR de Québec. On
retrouve davantage de données provinciales que de données reliées à la RMR de Québec.
En conclusion, l'analyse des données indique clairement que l'hypothèse de cette
recherche, selon laquelle l’évolution de la mise en chantier est expliqué par le revenu
moyen des ménages, du nombre de personnes composant la population des 15-54 ans, des
taux hypothécaire 5 ans et du taux d’inoccupation n’est pas confirmée.
28
Bibliographie Statistique Canada : CANSIM Construction résidentielle : [en ligne] http://www5.statcan.gc.ca/cansim/a33?RT=TABLE&themeID=2166&spMode=tables&lang=fra (page consultée le 20 novembre 2014) Divorces et séparation : [en ligne] http://www5.statcan.gc.ca/cansim/a33?RT=TABLE&themeID=40001&spMode=tables&lang=fra (Page consultée le 21 novembre 2014) Emploi et chômage : [en ligne] http://www5.statcan.gc.ca/cansim/a33?RT=TABLE&themeID=1803&spMode=tables&lang=fra (page consultée le 21 novembre 2014) Immigration : [en ligne] http://www5.statcan.gc.ca/cansim/a33?lang=fra&spMode=master&themeID=30000&RT=TABLE (Page consultée le 13 novembre) Bibliothèque de l’Université Laval, données Recensement Statistique Canada, Dictionnaire du recensement 1981 [en ligne] http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=01-1116321 (page consultée le 3 novembre 2014) Statistique Canada, Dictionnaire du recensement1986 [en ligne] http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=01-1356834 (Page consultée le 3 novembre 2014) Statistique Canada, Dictionnaire du recensement 1991 [en ligne] http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=01-0061667 (Page consultée le 3 novembre 2014) Statistique Canada, Dictionnaire du recensement 1996 [en ligne] http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=01-0521272 (Page consultée le 4 novembre 2014) Statistique Canada, Dictionnaire du recensement 2001 [en ligne] http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=01-0641765 (Page consultée le 4 novembre 2014) Statistique Canada, Dictionnaire du recensement 2006 [en ligne] http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=a1591874 (Page consultée le 3 novembre 2014) Université Laval. Bibliothèque. Données statistiques en ligne http://www.bibl.ulaval.ca/web/economique/donnees-statistiques (Page consultée le 1 novembre 2014)
29
Autres sites internet Université de Sherbrooke, SPSS17 [en ligne] : http://spss.espaceweb.usherbrooke.ca/pages/stat-inferentielles/regression-multiple.php (Page consultée le 25 novembre 2014) Université de Montréal, Département de sociologie, L’analyse de régression multiple [en ligne] https://www.webdepot.umontreal.ca/Enseignement/SOCIO/Intranet/SOL6210/public/notesdecours/REGRES.pdf (document PDF consultée le 25 novembre 2014) Société canadienne d’hypothèque et du logement [en ligne] https://www.cmhc-schl.gc.ca/fr/index.cfm (page consultée le 31 octobre 2014) Société canadienne d’hypothèque et de logement, Perspectives du marché de l’habitation, RMR de Québec [en ligne] http://www.cmhc-schl.gc.ca/odpub/esub/64281/64281_2014_B02.pdf?fr=1417909487534 (document PDF consultée le 6 décembre 2014) Magazine FORCES - Le marché immobilier au Québec [en ligne] http://www.magazineforces.com/quebec/le-marche-immobilier-au-quebec-atterr (Page consultée le 3 décembre 2014) UQAM, Table B.3b 5% Critical Values of the F Distribution [en ligne] http://www.er.uqam.ca/nobel/k23546/eco8600/tables/FisherCValues-0.05.png (Page consultée au 2014-12-05) Université LAVAL – Gestion urbaine et immobilière, La modélisation statistique en analyse et évaluation immobilières, Guide méthodologique par François DES ROSIERS (document PDF) Gaston Quirion, M.S.I. (Conseiller à la documentation, Information statistique)
30
ANNEXE 1 : Carte de la RMR de Québec
31
Années Taux hypotécaire Taux d'innocupation Indice du prix du neuf Mise en chantier résidentiel Revenu moyen par menages Loyer moyen1980 14,32 2,8 35,05 3545 63700 315,921981 18,15 1,8 38,23 3746 63100 327,411982 17,89 4,8 40,48 3071 61600 338,91983 13,29 5,2 43,19 4622 60200 350,391984 13,61 1,9 45,32 3719 60300 361,881985 12,18 1,5 47,7 6140 61700 373,371986 11,22 3,2 50,97 7734 62600 384,861987 11,14 5,6 55,5 8646 63200 396,351988 11,6 5,2 60,33 6133 64400 407,841989 12,05 4,6 64,52 6300 66000 419,331990 13,24 6,1 66,65 5972 64100 4551991 11,16 5,7 68,53 6523 61700 4791992 9,52 6,7 69,06 6300 61400 4851993 8,7 6,2 68,83 4699 59800 4931994 9,34 7,1 68,49 4677 60500 4911995 9,22 6,2 68,98 2405 60800 4931996 7,94 6,4 68,04 2208 61000 4911997 7,07 6,5 67,75 2233 61400 4931998 6,9 5,1 68,14 1845 64200 4961999 7,39 3,4 69,31 1814 65900 4972000 8,2 1,5 70,78 2275 67800 5052001 7,18 0,7 72,56 2555 68900 5232002 6,7 0,4 75,69 4282 68900 5362003 6,04 0,4 82,63 5599 68500 5552004 5,8 1,1 87,61 6186 69700 5812005 5,48 1,5 91,44 5835 70300 6002006 100 1,5 96,2 5176 72100 6192007 6,36 1,4 100 5284 74300 6202008 6,41 0,6 105,3 5457 75200 6312009 5,05 0,5 112,64 5513 74500 6552010 4,82 1,1 116,25 6652 74900 6752011 4,57 1,6 117,93 5445 75000 6992012 4,24 2,1 121,38 6416 73354,44 7122013 4,17 2,4 122,68 4680 73808,3 727
ANNEXE 2 : Base de données
32
Population de 15 à 54 ans Population totale Ménages de 1 à 2 pers. Ménages de 3 et plus Nombre d' immigrants Population active totale Population active chez les femmes 352454 569291,6 88943 100349 8607,39 282575,5 111815358085 576075 93890 101575 12270 280960 116620356970 577355 97734 102322 12544 286161 118628355855 578635 101578 103069 12818 291362 120636354740 579915 105422 103816 13092 296563 122644353625 581195 109266 104563 13366 301764 124652352510 582475 113110 105310 13640 306965 126660361981 595090 119818 105591 13706 315204 133047371452 607705 126526 105872 13772 323443 139434380923 620320 133234 106153 13838 331682 145821390394 632935 139942 106434 13904 339921 152208399865 645550 146650 106715 13970 348160 158595403196 650815 150989 106889 14657,2 348845 159521406527 656080 155328 107063 15344,4 349530 160447409858 661345 159667 107237 16031,6 350215 161373413189 666610 164006 107411 16718,8 350900 162299416520 671875 168345 107585 17406 351585 163225414958 674050 173504 106261 17846,8 355111 165747413396 676225 178663 104937 18287,6 358637 168269411834 678400 183822 103613 18728,4 362163 170791410272 680575 188981 102289 19169,2 365689 173313408710 682750 194140 100965 19610 369215 175835408444 689303 198800 100591 20927 375730 179481408178 695856 203460 100217 22244 382245 183127407912 702409 208120 99843 23561 388760 186773407646 708962 212780 99469 24878 395275 190419407380 715515 217440 99095 26195 401790 194065409192 725553,2 222920 99485 27531 406892 199086,6411004 735591,4 228400 99875 28867 411994 202326,6412816 745629,6 233880 100265 30203 417096 205566,5414628 755667,8 239360 100655 31539 422198 208806,5416440 765706 244840 101045 32875 427300 212046,5433301,8 759679,7 248936,2 102489,3 29427,45 427963,5 215286,5435770,9 765766,3 253969 102480,2 30078,08 432506,9 218526,4
33
ANNEXE 3 : Histogramme et nuage de points du modèle de régression
34
ANNEXE 4 : Histogrammes et Normogrammes Q-‐Q du test de normalité
35
36
37
38
39
Descriptives
4814,3235 302,253994199,3832
5429,2639
4788,29085230,00003106154,11762,4285
1814,008646,006832,002725,00
-,151 ,403-,643 ,788
3,3176 ,389862,5245
4,1108
3,27882,6000
5,1682,27323
,407,106,704,15,264 ,403
-1,572 ,78811,7926 2,747596,2026
17,3827
9,18658,4500
256,67416,02106
4,17100,00
95,835,80
5,349 ,40330,123 ,788
66319,492 906,1666164475,882
68163,102
66183,75064300,000279186895283,813959800,0075200,0015400,009200,00
,483 ,403-1,263 ,788
396177,25 4364,201387298,22
405056,29
396461,88408045,00
6E+00825447,444352454,0435770,983316,8743825,00
-,725 ,403-,870 ,788
MoyenneBorne inférieureBorne supérieure
Intervalle de confiance à95% pour la moyenne
Moyenne tronquée à 5%MédianeVarianceEcart-typeMinimumMaximumIntervalleIntervalle interquartileAsymétrieAplatissementMoyenne
Borne inférieureBorne supérieure
Intervalle de confiance à95% pour la moyenne
Moyenne tronquée à 5%MédianeVarianceEcart-typeMinimumMaximumIntervalleIntervalle interquartileAsymétrieAplatissementMoyenne
Borne inférieureBorne supérieure
Intervalle de confiance à95% pour la moyenne
Moyenne tronquée à 5%MédianeVarianceEcart-typeMinimumMaximumIntervalleIntervalle interquartileAsymétrieAplatissementMoyenne
Borne inférieureBorne supérieure
Intervalle de confiance à95% pour la moyenne
Moyenne tronquée à 5%MédianeVarianceEcart-typeMinimumMaximumIntervalleIntervalle interquartileAsymétrieAplatissementMoyenne
Borne inférieureBorne supérieure
Intervalle de confiance à95% pour la moyenne
Moyenne tronquée à 5%MédianeVarianceEcart-typeMinimumMaximumIntervalleIntervalle interquartileAsymétrieAplatissement
Misenchantier
Taux_innoccupation
Taux_hyp5ans
TREND(Revenu_moyen)
TREND(Pop15_54_1)
StatistiqueErreur
standard
ANNEXE 5 : Test de normalité sur les variables retenues
Recommended