STT1000
CHAPITRE 1 - STATISTIQUES DESCRIPTIVES
SOLUTIONS
2 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
STT1000 Solutions Chapitre 1 Statistiques descriptives 3
Serge Alalouf 7 novembre 2017
1.1 Déterminer la moyenne et l’écart-type des données suivantes a)
Nombre de pièces dans un échantillon de 61 logements
2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 7 8 8 8 8 9 9
Moyenne : 4,770492; Variance : 3,193228.
1.2 [Données du tableau A01] Le tableau A01 présente des données sur les professeurs d’une certaine université.
a) Représentez par des moyens graphiques la distribution de la variable « Salaire à l'entrée ».
b) Comparer les salaires à l'entrée des hommes et des femmes au moyen de deux polygones de fréquences.
1.3 Déterminer la moyenne des données au numéro 1.1 après les avoir disposées sous forme de distribution.
La distribution de la variable est
xi 2 3 4 5 6 7 8 9
ni 5 10 17 10 8 5 4 2
Histogramme des salaires à l'entrée
Salaire à l'entrée
Eff
ectif
10000 20000 30000 40000 50000 60000
020
40
60
10000 20000 30000 40000 50000 60000
0.0
0.1
0.2
0.3
0.4
Salaire à l'entrée
Fré
quence
Femmes
Hommes
4 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
Moyenne : [2(5) + 3(10) + … + 9(2)]/61 = 4,770492
1.4 Déterminez la moyenne arithmétique de la distribution suivante:
y 3 6 8 9 11 Total
Fréquence 0,2 0,4 0,2 0,1 0,1 1
Moyenne : 6,6; Variance : 5,64
1.5 Déterminez l'écart-type de la distribution au numéro 1.4 :
1.6 Déterminer l’écart-type des données au numéro 1.1 a) d’abord en utilisant la série entière telle quelle, ensuite b) après
les avoir disposées sous forme de distribution.
1.7 Laquelle des deux séries suivantes semble plus dispersée ? Répondre sans calculer.
A 50 59 60 61 70
B 18 19 20 21 22
A est plus dispersée
1.8 Laquelle des deux séries suivantes semble plus dispersée? Répondre sans calculer
A 30 40 50 60 70
B 10 29 30 31 50
A est plus dispersée
1.9 Laquelle des deux variables suivantes vous semble la plus dispersée? Répondre sans calculer:
x 1 2 3 4 5 Total
Effectif 6 2 4 2 6 20
y 4 5 6 7 8 Total
Effectif 2 4 8 4 2 20
La variable X est plus dispersée.
1.10 Présenter les données du numéro 1.1 au moyen d'une moustache.
2 3 4 5 6 7 8 9
51
01
5
ValeurE
ffectifs
STT1000 Solutions Chapitre 1 Statistiques descriptives 5
Serge Alalouf 7 novembre 2017
1.11 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01,
classés selon le sexe. LI et LS sont les limites inférieure et supérieure déterminées pour fins de construction d'une
moustache.
Femmes Hommes
LI 44 894 57 836 Q1 62 471 79 161 Médiane 74 691 87 007 Q3 85 815 94 158 LS 107 071 107 865
Construire deux moustaches côte à côte pour les femmes et pour les hommes.
1.12 Voici les moustaches demandées au numéro précédent :
a) Lequel des deux groupes a une médiane plus élevée? Les hommes
b) Laquelle des deux distributions est plus asymétrique? Les hommes : plusieurs observations au bas de l’échelle
c) Quels commentaires peut-on faire concernant les dispersions relatives des deux groupes? La dispersion est
probablement un peu plus forte chez les femmes.
d) Comment expliquer le fait que 10 hommes se situent au-dessous de la limite inférieure alors que des femmes avec
des salaires comparables se situent à l'intérieur des limites? La dizaine de salaires faibles chez les hommes est signalée
parce que, étant donné la concentration des données autour du centre, ces données sont particulièrement excentriques.
1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01,
classés selon le sexe. LI et LS sont les limites inférieure et supérieure déterminées pour fins de construction d'une
moustache.
6 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
a) La moyenne arithmétique est-elle supérieure ou inférieure à la médiane chez les femmes? Chez les hommes? Dans
les deux cas, la moyenne est supérieure à la médiane à cause d’une concentration de petites valeurs et un certain nombre de
valeurs particulièrement élevées.
b) Quelle explication peut-on donner au fait que le salaire médian des femmes est supérieur à celui des hommes?
(Tenir compte du fait que les dates d'entrée s'échelonnent sur plus de 30 ans.) Cela s’explique par le fait que, en
moyenne, les femmes ont été engagées plus récemment. Elles ont en moyenne17,6 années d’ancienneté, à comparer aux
hommes qui en ont 22.
c) Qu'est-ce qui pourrait expliquer le grand nombre (19) d'hommes qui se situent au-dessus de la limite supérieure?
(Tenir compte du fait que les dates d'entrée s'échelonnent sur plus de 30 ans). Une forte concentration de faibles
salaires (due à un grand nombre d’engagements dans les premières années) fait que par comparaison, les salaires récents sont
relativement élevés.
1.14 La moyenne et la variance d’une série de températures quotidiennes, en degrés Celsius, sont respectivement 18 et 25.
Déterminez la moyenne, la variance et l’écart-type de la même série, exprimée en degrés Fahrenheit.
Y : la température en degrés Celsius ; X : la température en degrés Fahrenheit.
32 (9 / 5) 32 (9 / 5)(18) 64,4y x 2 2 2 2 2(9 / 5) (9 / 5) (5) 81y x y = 9.
1.15 Voici une série de 6 températures enregistrées en Arizona, exprimées en degrés Fahrenheit (X)
Valeurs de X : 50°F , 59°F , 68°F , 77°F ,86°F , 95°F
a) Déterminer la moyenne x et l’écart-type X de X.
Moyenne : 72,5. Écart-type : 15,37043.
b) Convertir les températures en degrés Celsius, c’est définir une nouvelle variable, Y, fonction de X, définie par Y =
160 5
9 9X . Vérifiez que les valeurs de Y sont :
Valeurs de Y : 10°C , 15°C, 20°C, 25°C , 30°C , 35°C
c) Déterminer la moyenne y et l’écart-type Y de Y, d’abord directement à partir des valeurs de Y, ensuite en
utilisant les règles y a bx et Y = |b|X lorsque Y est définie par Y = a + bX.
Moyenne : 22,5 = 160 5
9 9x ; Écart-type 8,539126.
STT1000 Solutions Chapitre 1 Statistiques descriptives 7
Serge Alalouf 7 novembre 2017
d) Convertissez toutes les valeurs de X et toutes les valeurs de Y en cotes Z. Vous devriez constater que les deux
séries sont identiques. Calculez la moyenne z et l’écart-type Z des cotes Z. Vous devriez constater que z = 0
et Z =1. De quelle propriété générale ces observations découlent-elles?
Les cotes Z sont -1,46385; -0,87831; -0,29277; 0,29277; 0,87831; 1,46385
On vérifie aisément que leur moyenne est 0 et leur écart-type 1.Voici le détail des calculs
°F (X) °C (Y) ZX ZY
50 10 (50-72,5)/ 236, 25 = -1,46385 (10-22.5) / 72, 91 6 = -1,46385
59 15 (59-72,5)/ 236, 25 = -0,87831 (15-22.5) / 72, 91 6 = -0,87831
68 20 (68-72,5)/ 236, 25 = -0,29277 (20-22.5) / 72, 91 6 = -0,29277
77 25 (77-72,5)/ 236, 25 = 0,29277 (25-22.5) / 72, 91 6 = 0,29277
86 30 (86-72,5)/ 236, 25 = 0,87831 (30-22.5) / 72, 91 6 = 0,87831
95 35 (95-72,5)/ 236, 25 = 1,46385 (35-22.5) / 72, 91 6 = 1,46385
Moyenne 72,5 22,5 0 0
Variance 236,25 72,9167 1 1
Écart-type 15,37043 8,53913 1 1
1.16 Voici une série de valeurs accouplées x et y :
x 4 6 8 12 15
y 5 12 9 12 22
Déterminer les moyennes de X et de Y; les écarts-types de X et Y; la covariance entre X et Y; les coefficients b1 et b0 de
la droite de régression de Y sur X; et le coefficient de corrélation r. Voici les calculs :
x y
Moyennes 9 12
Variances 16 31,6
Covariance XY = 19,6
b1 1,225
b0 0,975
Coefficient de corrélation r 0,871671
1.17 Démontrez les propriétés y a bx et y = |b|x, où X est une variable et Y = a + bX. Déduisez que les cotes Z sont
de moyenne nulle et d’écart-type 1.
Y = a + bX est une variable dont les valeurs sont yi = a + bxi. Donc ( )y a bxi iy
n n
=
na b xin
=
b xia a bxn
( )
i i i i iy a bx a bx na b x b x
y a a bxn n n n n
.
2 2 2 2
2 2
( ) [( ) ( )] [ ( )] [( )]i i i i
Y
y y a bx a bx b x x x xb
n n n n
2 2
Xb Y = |bX | .
1.18 Un médecin vous dit que votre pression intraoculaire est de 23. Pour une population de 100 000 personnes de votre
âge, la pression moyenne est de 17 avec un écart-type de 2,1. Votre pression est-elle excessive ?
Votre cote Z est (23-17)/2,1 = 2,857, ce qui est plutôt extrême.
1.19 Soit X le revenu des corporations multinationales du Canada; et soit Y le revenu annuel des petites et moyennes
entreprises du Canada. D’après vous, l’écart-type de X est-il supérieur ou inférieur à celui de Y? Discuter. Les revenus des multinationales étant énormes, on peut s’attendre à une grande variation entre elles — bien plus que pour les PME,
dont les revenus sont bien plus petits.
1.20 Soit A la série des 365 températures quotidiennes à Montréal (pour une année donnée) et B la série des 365
températures quotidiennes à Miami (même année.) D’après vous, laquelle des deux séries a la plus grande variance?
8 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
Celles de Montréal sont certainement plus dispersées
1.21 Considérons les variables X et Y, où X représente la proportion quotidienne de garçons parmi les nouveau-nés d’un
petit hôpital et Y la proportion quotidienne parmi tous les nouveau-nés canadiens. D’après vous, laquelle des deux
variables a le plus grand écart-type? Discutez.
Une plus grande dispersion dans les petits hôpitaux
1.22 Une usine fabrique des toiles métalliques pour des usines de pâtes et papier. Afin de mieux répartir son personnel, le
gérant aimerait prévoir le temps, T, requis pour la finition des toiles. Ce temps pourrait être lié, entre autres variables,
à la surface de la toile, S. On a obtenu les données du tableau 1 :
Tableau 1 Temps de finition d’une toile (T) et surface de la toile (S)
i T S i T S
1 5,50 9,30 9 6,50 15,80
2 5,90 13,50 10 6,50 14,90
3 5,80 11,10 11 7,10 18,60
4 6,30 14,90 12 7,00 15,80
5 7,00 16,70 13 6,90 16,70
6 7,50 23,20 14 6,80 15,80
7 5,50 11,10 15 6,60 16,70
8 7,20 20,40
a) Faire un graphique des données. Tracer la droite de régression. Le modèle est-il raisonnable?
b) Quelle variable doit-on utiliser comme variable dépendante? (Justifier ce choix). La variable indépendante est S,
puisque c’est la surface qui sert à prédire le temps.
c) Déterminer l’équation de régression correspondante et le coefficient de corrélation. ∑ x = 234,5; ∑ y = 98,1; ∑ x2 = 3845,13;
∑ y2 = 647,05; ∑ xy = 1562,98; Écart-type des x = 3,455559; écart-type des y = 0,6042075; Covariance entre X et Y = 1,95667;
b0 = 3,978279 ; b1 = 0,1638627 ; r = 0,9371572.
d) Quel est le temps moyen de finition pour une toile de 20 m2? 7,255534
1.23 Un professeur de secondaire est responsable de l’enseignement de l’algèbre. Au début de l’année, il fait passer à 20 de
ses étudiants un petit test mesurant les habiletés arithmétiques (M) de ses étudiants. À la fin du premier semestre, il
examine les résultats (A) de ses étudiants à l’examen d’algèbre. Les résultats sont présentés au tableau 2:
*
**
*
*
*
*
*
**
**
**
*
10 12 14 16 18 20 22
5.5
6.0
6.5
7.0
7.5
Relation entre le temps de finition
d'une toile et sa surface
Surface
Tem
ps
Temps de finition=3,97+0,163(Surface)
STT1000 Solutions Chapitre 1 Statistiques descriptives 9
Serge Alalouf 7 novembre 2017
Tableau 2 Habileté mathématique (M) et résultat à un examen d’algèbre (A)
i A M i A M 1 36 9 11 59 26
2 23 10 12 58 28
3 22 13 13 72 30
4 36 15 14 87 31
5 49 16 15 86 32
6 32 18 16 79 33
7 44 20 17 74 34
8 52 22 18 78 36
9 51 23 19 99 38
10 83 24 20 85 40
a) Faire un graphique des données. Tracer la droite de régression. Le modèle est-il raisonnable?
La relation semble bien linéaire et assez forte
b) Quelle variable doit-on utiliser comme variable dépendante? (Justifier ce choix). On prédit la note d’algèbre à partir du test d’habileté mathématique. Donc A est la variable dépendante.
c) Déterminer l’équation de régression correspondante et calculer le coefficient de corrélation entre les deux
variables. ∑ x = 498 ; ∑ y = 1205 ; ∑ x2 = 14074 ; ∑ y2 = 82981 ; ∑ xy = 33789 ; Écart-type des x = 9,148224 ; Écart-type des y :
22,78130 ; Covariance : 189,225; bo = 3,950532 ; b1 = 2,261023 ; r = 0,9079528. La relation est très forte (ces données
sont fictives. Il est très rare que des données psychométriques présentent de telles corrélations)
d) Quelle note à l’examen d’algèbre aurait un étudiant dont la note au test d’habileté mathématique aurait été 25? 60,4761
1.24 Les données suivantes présentent le nombre de bactéries N encore vivantes après avoir été exposées à des rayons X
pendant un temps de durée t.
N 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
a) Déterminer la droite des moindres carrés pour exprimer N comme fonction linéaire de t. Déterminer le coefficient
de corrélation. Voici le nuage de points. L’ajustement à une droite est douteux.
*
* *
*
*
*
*
* *
*
* *
*
* *
*
**
*
*
10 15 20 25 30 35 40
20
40
60
80
100
Relation entre la note d'algèbre
et l'habileté mathématique
Habileté mathématique
Note
en a
lgèbre
Note en algèbre=3,95+2,26(Habileté mathématique
10 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
∑ x = 120; ∑ y = 1558; ∑ x2 = 1240 ; ∑ y2 = 290654; ∑ xy = 7014 ; Écart-type des x = 4,320494 ; Écart-type des y = 92,67496 ;
Covariance = -363,333; b0 = 259,5810 ; b1 = -19,46429 ; r = - 0,9074223.
b) Supposons que le phénomène soit assez bien connu pour savoir que la relation entre N et t est de la forme N =
1b t
ob e
. De là, on peut conclure que Y = ln N est une fonction linéaire de t. Donc remplacez N par Y et décidez
si l’ajustement ici est meilleur. Les valeurs de Y = ln N sont 5,872118 ; 5,351858 ; 5,283204 ; 5,111988 ; 4,955827 ; 4,663439 ; 4,644391 ; 4,094345 ;
4,025352 ; 3,637586 ; 3,583519 ; 3,465736 ; 3,044522 ; 2,944439 ; 2,708050
La relation peut être approchée par une droite, d’après le graphique suivant :
∑ x = 120 ; ∑ y = 63,38637 ; ∑ x2 = 1240 ; ∑ y2 = 281,3715 ; ∑ xy = 445,9319 ; Écart-type des x = 4,320494 ;
Écart-type des y = 0,94925 ; Covariance = -4,0773; ln b0 = 5,97316 ; bo = 392,7449 b1 = - 0,2184253 ; r = -0,9941623.
1.25 Le tableau A01 présente des données sur les professeurs d’une certaine université.
a) Représentez par des moyens graphiques la distribution de la variable « Département ».
*
**
*
*
* *
* ** * *
* * *
2 4 6 8 10 12 14
50
100
150
200
250
300
350
Évolution du nombre de bactéries
Temps
Baté
ries
Bactéries=259,58-18,46(Temps)
*
* **
*
* *
* *
* **
**
*
2 4 6 8 10 12 14
3.0
3.5
4.0
4.5
5.0
5.5
Évolution du logarithme du nombre de bactéries
Temps
ln(B
até
ries)
log(Bactéries)=5,97-0,2184(Temps)
STT1000 Solutions Chapitre 1 Statistiques descriptives 11
Serge Alalouf 7 novembre 2017
b) On compare ici les salaires à l’entrée et les salaires en 2012. Vous auriez intérêt à exprimer les salaires en milliers,
de façon à ne pas être encombré de gros chiffres.
(i) Faites deux polygones de fréquences représentant la distribution des salaires à l’entrée et la distribution des
salaires en 2012. Faites un commentaire sur les différences entre les deux distributions. Les polygones des fréquences ne fonctionnent pas du tout. Ils donnent ceci :
Voici une comparaison par « moustaches ». Bien sûr les salaires en 2001 sont supérieurs et aussi plus dispersés.
0 10 20 30 40 50
Management
Ressources humaines
Études urbaines
Finance
Effectif
Département
Distribution de la variable « Département »
0 20 40 60 80 100
0.0
0.1
0.2
0.3
Salaires à l'entrée et en 2012
Salaire
Fré
quence
Salaire à l'entrée
Salaire en 2012
12 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
(ii) Déterminez la moyenne, la médiane et l’écart-type des deux distributions: ces deux mesures confirment-elles
les impressions visuelles? Bien sûr, la moyenne, la médiane et l’écart-type sont plus élevés en 2012
Moyenne Médiane Écart-type
Salaire à l’entrée 17 990 13 075 11 148 Salaire en 2012 79 873 84 126 15 451
(iii) Les positions relatives des médianes par rapport aux moyennes arithmétiques ne sont pas les mêmes dans les
deux distributions. Expliquez ce fait en termes des caractéristiques visuelles des histogrammes. Suggérez aussi
une explication dans les termes du contexte. Les histogrammes montrent que les deux distributions sont asymétriques, mais asymétriques de différentes façons. En
voici une deuxième représentation graphique, qui montre une concentration à gauche pour les salaires à l’entrée et à droite
pour 2012:
C’est ce qui explique qu’à l’entrée la moyenne est inférieure à la médiane et que c’est le contraire en 2001.
(iv) La dispersion des salaires en 2012 est bien plus importante qu’à l’entrée. Mais les écarts-types sont-ils
réellement comparables? Une mesure de dispersion relative, appelée coefficient de variation et définie par CV
= x
, peut aider à répondre à cette question. Calculez le coefficient de variation des salaires en 2012 et à
Salaire à la rentrée Salaire en 2012
20
40
60
80
100
Salaire à l'entrée et
salalire en 2012
Salaire à l'entrée
Salaire à l'entrée
Eff
ectif
10 20 30 40 50 60
0.0
00
.02
0.0
40
.06
Salaire en 2012
Salaire en 2012
Eff
ectif
40 50 60 70 80 90 100
0.0
00
.01
0.0
20
.03
STT1000 Solutions Chapitre 1 Statistiques descriptives 13
Serge Alalouf 7 novembre 2017
l’entrée. Pouvez-vous expliquer le fait que maintenant c’est le salaire à l’entrée qui est plus dispersé? Le
coefficient de variation est de 0,620 pour les salaires à l’entrée et de 0,193 pour les salaires en 2012. Ce qui veut dire que
l’écart-type des salaires à l’entrée n’était faible que parce que les montants l’étaient. En fait, relativement à la moyenne, la
dispersion est plus élevée à l’entrée. Ce qui s’explique : les salaires à l’entrée ont été payés au cours de plusieurs années,
et la croissance des salaires au cours de ces années contribuent à de grands écarts.
c) Examinez la relation entre le salaire en 2012 (sal12) et l’ancienneté (anc): faites un graphique, déterminez la droite
de régression s’il y a lieu, calculez le coefficient de corrélation.Voici un nuage de points avec la droite des moindres
carrés dont l’équation est sal12 = 47978 + 1579( anc) . Le coefficient de corrélation est 0,918:
La relation est forte, ce qui ne surprend pas, puisque le salaire est en partie déterminé par l’ancienneté.
d) On s’intéresse au lien entre le salaire à la date d’engagement et l’expérience.
(i) Déterminez un nuage de points permettant de voir s’il y a une relation entre le salaire à la date d’engagement
et l’expérience.
La relation n’est pas nulle, mais elle ne semble pas très forte. Le coefficient de corrélation est 0,141.
(ii) Déterminez la droite des moindres carrés. D’après votre droite, qu’est-ce qu’une année de plus rapporte en
salaire?
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
**
**
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
**
* * *
*
*
*
*
*
*
*
**
*
**
*
*
*
*
* *
*
*
*
** *
*
*
*
*
**
*
*
*
*
*
***
*
*
*
*
*
*
*
*
*
***
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
0 5 10 15 20 25 30
50
60
70
80
90
100
110
Relation entre le salaire (en 1000$)
en 2012 et l'ancienneté
Ancienneté
Sala
ire e
n 2
012
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*** *
*
*
*
**
*
**
* *
*
*
*
*
**
*
*
* *** *
*
* *
** *
*
**
*
** *
*
*
*
***
*
*
*
*
**
**
*
***
*
**
*
*
* *
*
**
*
*
*
*
** ***
*
*
*
**
******
***
*
* ** *
*
*
*
*
*
*
*
*
*
**
**
*
*
*
*
*
* *
*
* *
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
10 20 30 40
10000
30000
50000
Relation entre le salaire à l'entrée
et l'expérience
Exoérience
Sala
ire à
l'e
ntr
ée
14 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
La droite des moindres carrés est sal0 = 11233 + 236,8 Exp.
(iii) Déterminez le coefficient de corrélation entre la date d’engagement et le salaire à l’entrée; et entre la date
d’engagement et le salaire en 2012. Corrélation entre date d’engagement et salaire à l’entrée : r = 0,937; corrélation entre date d’engagement et salaire en 2001 :
r = -0,918. La première corrélation reflète l’inflation : plus l’engagement est récent, plus le salaire est élevé; la seconde
corrélation reflète l’effet de l’ancienneté : un engagement récent signifie moins d’ancienneté et donc salaire inférieur. Voici
la relation entre la date d’engagement (-1980) et le salaire en 2012 :
e) On s’intéresse ici à la relation entre le salaire à l’entrée (y) et la date d’entrée (x). (Vous pourriez choisir de
transformer les données sur les années en soustrayant un même nombre (1980, par exemple) de chaque donnée).
(i) Faites un nuage de points pour montrer la relation entre le salaire à l’entrée et la date d’entrée.
On constate une certaine courbure dans la forme du nuage, ce qui fait penser que la relation n’est pas réellement linéaire.
(ii) Utilisez la droite des moindres carrés en (i) pour prédire le salaire (à la date d’engagement) pour chaque sujet.
Construisez une colonne des différences entre les salaires et la prédiction du salaire. Calculez l’écart-type de
ces différences. Comment cet écart-type se compare-t-il à l’écart-type des salaires à la date d’engagement?
Pouvez-vous expliquer pourquoi il y a une aussi grande différence? La droite de régression est y = 4,216 + 1,165x,
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
**
**
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
**
***
*
*
*
*
*
*
*
**
*
* *
*
*
*
*
**
*
*
*
***
*
*
*
*
**
*
*
*
*
*
***
*
*
*
*
*
*
*
*
*
** *
*
* *
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
0 5 10 15 20 25 30
50000
70000
90000
110000
Relation entre le salaire en 2012
et la date d'entrée
Date d'entrée (-1980)
Sala
ire e
n 2
012
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
**
**
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
**
***
*
*
*
*
*
*
*
**
*
* *
*
*
*
*
**
*
*
*
***
*
*
*
*
**
*
*
*
*
*
***
*
*
*
*
*
*
*
*
*
** *
*
* *
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
0 5 10 15 20 25 30
50000
70000
90000
110000
Relation entre le salaire en 2012
et la date d'entrée
Date d'entrée (-1980)
Sala
ire e
n 2
012
STT1000 Solutions Chapitre 1 Statistiques descriptives 15
Serge Alalouf 7 novembre 2017
où x est la date d’engagement moins 1970. L’écart-type des différences entre le salaire réel et le salaire prédit est 3,89.
L’écart-type des salaires à la date d’engagement est 11,16, beaucoup plus grand. Ces écarts-types sont tous deux des
mesures d’erreur. L’écart-type 11,16 mesure l’erreur commise quand on prédit un salaire donné à partir de la moyenne
globale des salaires, sans tenir compte de la date d’engagement. L’écart-type de 3,89 est une mesure de l’erreur commise
lorsque prédit un salaire en tenant compte de la date à laquelle il a été établi.
Voici un graphique qui montre la relation entre les erreurs d'estimation et la date d'entrée.
(iii) Les nuages de points obtenus en (i) et en (iii) montrent clairement que la relation n’est pas linéaire. Si on
suppose que les salaires se sont accrus à un taux constant ce dernières décennies, alors la relation est en fait
exponentielle: y = ex. Auquel cas, ln y = ln + x. Examinez à l’aide d’un nuage de points la relation entre
le logarithme du salaire et la date d’engagement.
Le coefficient de corrélation est r = 0,963. La relation ne s’en est que très légèrement améliorée (le coefficient de
corrélation entre le salaire et la date d’entrée est de 0,937).
(iv) Bien que le graphique en (iii) demeure quelque peu convexe, déterminez la droite des moindres carrés qui lie
le logarithme du salaire à l’année d’engagement. Estimez le salaire moyen d’un professeur engagé en 1988.
*
*
*
*
**
*
*
*
*
*
*
*
*
*
* *
*
*
**
*
**
*
*
*
*
*
*
*
*
*
***
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
* *
*
** *
*
*
*
**
*
*
*
** *
* *
*
*
*
*
*
*
*
*
*
**
**
*
*
*
*
*
**
*
** **
*
*
**
* *
*
*
**
*
*
*
*
***
*
**
*
**
**
*
* *
*
*
*
*
* *
**
**
*
*
*
*
**
*
*
*
* *
**
*
*
*
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
** *
* *
**
*
*
*
*
*
** *
*
*
*
0 5 10 15 20 25 30
-20
-15
-10
-50
510
Erreur d'estimation du salaire (en 1000$)
en fonction de la date d'entrée (-1980)
Date d'entrée (-1980)
Err
eur
d'e
stim
ation
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
** **
*
*
*
* *
*
**
*
*
*
*
*
*
*
*
*
*
**
**
*
*
**
*
**
*
*
*
*
*
**
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
**
*
**
*
*
**
*
*
*
*
*
*
*
***
**
*
*
*
*
*
**
** **
*
* *
*
**
***
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
**
*
**
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
0 5 10 15 20 25 30
9.0
9.5
10.0
10.5
11.0
Relation ln(salaire)
et la date d'entrée
Année d'entrée
ln(S
ala
ire à
l'e
ntr
ée)
16 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
LogSal = 8,97+0,05728(DateEntree). Évaluée à (8=1988 - 1980) nous avons LogSal = 9,425 et donc Sal = 12394 $.
(v) Montrez que le pourcentage d’accroissement annuel dans une relation de la forme y = ex est de 100(e - 1) %.
Estimez le pourcentage annuel d’accroissement (t) à partir des résultats en (iv).
100
( 1)
100( 1)x x
x
ae aee
ae
. = 0,05728293, e =1,05895538 un taux d’accroissement de 6 % environ par année.
f) Revenons au salaire à l’entrée et l’expérience. Utilisez le taux d’accroissement t obtenu en e) (iv) pour ajuster les
salaires y à l’entrée, c’est-à-dire, pour les exprimer en dollars de 2012. Il suffit de multiplier y par (1+t)k , où k est
la différence entre 2012 et l’année d’engagement. Maintenant calculez l’écart-type et le coefficient de variation des
salaires ajustés. Faites un commentaire sur les différences entre ces mesures et celles obtenues pour les salaires de
l’année 2012. Est-ce que les écarts entre professeurs s’accentuent? Le coefficient de variation pour les salaires (à
l’entrée) ajustés est de 0,136, bien plus petit que celui des salaires non ajustés (0,620) et inférieur à celui des salaires de 2012
(0,193). La dispersion des salaires non ajustés est due à deux choses : la variation due à la date et celle due aux différences entre
candidats. La première source ayant été à peu près éliminée (par l’ajustement), il ne reste que la variation entre candidats. Celle-
ci est inférieure à la variation dans les salaires de 2012 car ce sont des salaires offerts pour la plupart à des débutants, alors que
ceux de 1991 sont des salaires gagnés par des gens ayant différents niveaux d’ancienneté.
g) On veut comparer le salaire moyen (en 2012) des femmes et des hommes.
(i) Montrer que le salaire des femmes est nettement inférieur à celui des hommes. Femmes : 73 941 $; Hommes: 83 910 $. Différence: 9969 $ de plus pour les hommes
(ii) Montrer, cependant, que les hommes ont en moyenne plus d'ancienneté. Femmes: 17,63 ans; Hommes: 21,94 ans; différence: 4,31 ans.
(iii) Déterminer la droite des moindres carrés liant le salaire des femmes à leur ancienneté. Salaire = 46792 + 1540(Ancienneté)
(iv) Déterminer la droite des moindres carrés liant le salaire des hommes à leur ancienneté. Salaire = 50275 +1533(Ancienneté)
(v) Estimer le salaire des femmes et le salaire des hommes ayant 18 ans d'ancienneté. Est-ce que la différence
augmente (par rapport à la différence établie en (i)) ou est-ce qu'elle diminue? Interpréter. Femmes: 74511 $; Hommes: 77868 $. Différence: 3357 $ de plus pour les hommes. Le salaire moyen des femmes est
inférieur en partie parce qu'elles ont moins d'ancienneté en moyenne. La différence de 3357 $ calculée ici représente une
différence entre hommes et femmes ayant même ancienneté (18 ans); elle ne peut donc pas être attribuée à l'ancienneté.
1.26 [Données du tableau A02] Le tableau A02 présente quelques données sur 43 maisons vendues. Présentez des tableaux,
des graphiques, ou des mesures descriptives qui permettent de confirmer ou d’infirmer les propositions suivantes (pour
les besoins de cet exercice, une « vieille » maison est une maison de plus de 10 ans):
a) Les vieilles maisons ont moins souvent un sous-sol. Répondez de deux façons: i) en considérant l’âge comme
variable quantitative; et ii) en la considérant comme variables dichotomique: 1 = vieille, 0 = pas vieille.
i) Pourcentages de maisons sans et avec sous-sol, selon l’âge
Sous-sol?
Sans sous-sol Avec sous-sol
Âge de la
maison
Jeune 15,79 % 84,21 % 100 %
Vieille 45,8 % 54,17 % 100 %
ii) Âge des maisons selon qu’elles n’ont pas ou ont un sous-sol :
Sous-sol?
Sans sous-sol Avec sous-sol
Âge de la
maison
Moyenne 47,11 10,48
Écart-type 35,07 9,69
b) Les maisons qui ont deux salles de bains ou plus coûtent en moyenne 10 000 $ de plus que celles qui en ont moins
de deux. Prix des maisons selon qu’elles ont moins de deux salles de bains ou deux salles de bains ou plus :
STT1000 Solutions Chapitre 1 Statistiques descriptives 17
Serge Alalouf 7 novembre 2017
Salles de bains
Moins de deux Deux ou plus Différence
Prix moyen 48 414 $ 73 286 $ 24 872 $
La différence en fait est de 24872 $
c) Le fait d’avoir deux places de garage ajoute plus à la valeur d’une vieille maison qu’à celle d’une moins vieille. Faux. Prix moyen des maisons selon l’âge (jeune ou vieille) et le nombre de places de garage (moins de deux ou deux)
Places de garage
Moins de deux Deux Différence
Âge de la
maison
Jeune 64 150 $ 73 653 $ 9504 $
Vieille 49 108 $ 56 664 $ 7556 $
Le fait d’avoir deux places de garage ajoute en moyenne 9504 $ au prix moyen des maisons jeunes et 7556 $ à celui des
maisons vieilles.
d) En général, plus une maison est vieille, moins elle coûte. C’est vrai. Le coefficient de corrélation entre le prix et l’âge est r = -0,535. Il est vrai que les vieilles maisons ont moins
souvent deux places de garage. Serait-ce la raison principale de leur prix inférieur ? Ceci est démenti par les données du
numéro précédent : les vieilles maisons sont moins cher, même lorsqu’elles ont le même nombre de garages. Voici en outre
une représentation de la dépendance entre l’âge (traitée comme variable quantitative) et le prix selon que la maison a deux
garages ou pas :
e) Le prix des maisons décroît avec l’âge, mais c’est surtout parce que les vieilles maisons ont moins souvent deux
salles de bains. Le graphique suivant montre que si l’on tient compte du nombre de salles de bains, on constate que la
dépendance entre l’âge et le prix s’affaiblit considérablement.
18 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
Il est possible de montrer, cependant, que la dépendance existe quand même. On peut refaire l’analyse en traitant l’âge come
variable dichotomique. Voici les prix moyens des maisons, selon le nombre de salles de bains et l’âge :
Âge des maisons
Jeunes Vieilles Différence
Bains Moins de deux 54680 46571 8109
Deux 76357 67143 9214
Les différences de prix entre les maisons jeunes et les maisons vieilles et de 18 082 $. Lorsqu’on effectue cette comparaison en
séparant les maisons à deux salles de bains des autres, on voit qu’une différence persiste, mais elle est moins importante. On
résume donc : les vieilles maisons coûtent moins cher, en partie parce qu’elles ont moins de deux salles de bains, et en partie
pour d’autres raisons (associées à la vieillesse).
1.27 [Données du tableau A09] Le tableau A09 en annexe présente des données sur une expérience dont l’objet est de
comparer trois méthodes d’enseignement chez des enfants. L’objectif de cet enseignement est de parfaire la
compréhension de texte. Chaque sujet a composé deux pré-tests (A1, A2) avant la période d’apprentissage et 3 post-
tests (B1, B2, B3) après. Comparez la méthode 1 à la méthode 2 de deux façons:
a) Utilisez la moyenne Y de A1 et A2 et la moyenne X de B1 et B2 comme mesures de compréhension avant et après
la période d’apprentissage, respectivement. Comparez les deux groupes par rapport à la différence entre les
moyennes de Y (vous supposerez que les scores aux tests A1, A2, B1, B2 sont comparables, de sorte qu’il est
raisonnable de les additionner, ou de soustraire l’un de l’autre). À première vue, quelle est la méthode la plus
prometteuse?
Moyennes
Groupe 1 Groupe 2
Moyennes 6,113636 8,000000
b) Peut-on attribuer la différence entre les deux groupes à une différence initiale? Considérer cette possibilité en
comparant les aptitudes initiales, que vous mesurerez par le score moyen X = (A1+A2)/2: comparer la moyenne de
X dans les deux groupes.
Groupe 1 Groupe 2
Moyennes 7,886364 7,409091
c) Déterminer une droite des moindres carrés pour chaque groupe.
Groupe 1 Groupe 2
Droite de régression y =1,524 + 0,582 x 3.878 + 0,556 x
STT1000 Solutions Chapitre 1 Statistiques descriptives 19
Serge Alalouf 7 novembre 2017
d) Se servir des équations déterminées en c) afin d'estimer la différence d'aptitude Y pour des personnes ayant la même
aptitude initiale, soit X = 7,5.
Groupe 1 Groupe 2 Différence
Prédiction 1ˆ 5,889y 2
ˆ 8,051y 2 1ˆ ˆ 2,162y y
e) Comparez les méthodes 1 et 2 en n’employant cette fois-ci que la variable B3 comme mesure de compréhension
après la période d’apprentissage (le test B3 est de nature différente des autres; il n’a été donné qu’après une période
d'attente suivant l’apprentissage).
Groupe 1 Groupe 2
Moyennes 41,045 46,727
f) En b), on compare les groupes par rapport à un post-test seulement. Est-ce valable? Si oui, y a-t-il un avantage à
procéder de cette façon, ou est-ce préférable d’utiliser la méthode pré-test/post-test?
Groupe 1 Groupe 2
Moyennes 0,796 1,111
1.28 [Données du tableau A05] Le tableau A05 en annexe présente des données sur la température (en degrés Fahrenheit) de
130 sujets (prises par les sujets eux-mêmes).
a) Il est bon de vérifier de façon empirique ce qui se démontre formellement. Convertissez les températures dans ce
tableau (x) en degrés Celsius (y) et utilisez ces données pour vérifier les propriétés y = a + b x , 2
y = 2 2b x , et y =
|b|x .
b) Dans le même esprit qu’en a), utilisez les données sur la température pour montrer que les cotes Z sont de moyenne
nulle et d’écart-type égal à 1.
c) On utilise souvent en statistique la loi normale, une courbe symétrique en forme de cloche: une loi que plusieurs
variables dans la nature semblent suivre. Représenter la distribution des températures au moyen d'un histogramme,
d'un polygone des fréquences ou d'une moustache. Cette distribution vous semble-t-elle normale?
d) Quel intervalle de températures considérez-vous normal? À partir de quelle valeur diriez-vous qu’une température
est excessive? Considérez toute valeur éloignée de plus de 2,5 écarts-types de la moyenne comme étant excessive.
(i) Si on considère comme « normale » toute valeur se situant à deux écart-types ou moins de la moyenne, quelles
sont les limites « normales »? Avec ce critère, la température maximale observée de 100,8 est-elle anormale?
98,24923; 0,7331; 2,5 96,42; 2,5 100,08y S y S y S . Une température de 100,8 est à la limite de la normale. Il
est vrai aussi que la température minimale observée de 96,3 est dans l’intervalle des valeurs « normales ».
Distribution des températures corporelles
Température
Fré
quence
96 97 98 99 100 101
0.0
0.1
0.2
0.3
0.4
0.5
20 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
(ii) Éliminer les trois données excessives (deux trop faible, une trop forte), ce qui est raisonnable si on estime que
ces trois personnes sont malades (ou ont mal lu le thermomètre). Quelles sont les limites une fois ces données
éliminées?
e) Y a-t-il une différence de température entre hommes et femmes? Répondez par des mesures descriptives et par des
graphiques si ceux-ci sont révélateurs. Éliminez d’abord la plus grande des données.
f) Y a-t-il une relation entre la température (Y) et le nombre de battements du cœur (X)?
(i) Faites un nuage de points et déterminez la droite de régression et le coefficient de corrélation.
Distribution des températures corporelles
après élimination des données extrêmes
Fré
quence
96.5 97.0 97.5 98.0 98.5 99.0 99.5 100.0
0.0
0.1
0.2
0.3
0.4
0.5
96 97 98 99 100 101
0.0
00.1
00.2
00.3
0Distribution de la température corporelle
Femmes et hommes
Températude
Fré
quence Hommes Femmes
STT1000 Solutions Chapitre 1 Statistiques descriptives 21
Serge Alalouf 7 novembre 2017
(ii) Est-ce que la relation entre X et Y semble différente pour les hommes et les femmes?
Femmes Hommes
Droites de régression y = 96,442+0,026x y = 96,400+0,023x
La relation entre les deux variables est à peu près la même chez les hommes et les femmes, sauf que, selon les données
de cet échantillon, pour un même pouls la température des femmes est légèrement supérieure. Il est fort probable,
cependant, que cette différence soit purement fortuite.
1.29 [Données du tableau A03] Le tableau A03 en annexe présente des données sur 28 sujets desquels on a obtenu une mesure
de la grosseur du cerveau ainsi que certaines mesures d’aptitude mentale.
a) Faites un graphique permettant de voir si la variable P, le score de performance, dépend de la taille du cerveau.
Vous devriez constater que la relation, si elle existe, est plutôt faible.
*
*
**
* * **
*** * ** *
** **
* ** ***
** *** ***
** * ***
* * * ** *
* * ** * ** *
* ***
* * **
**
**
*
**
* *
*
***
** ** * *
* *** **
** * ***** ** ** * *
** * **
* ** * * ** * * ** * *
** *
****
**
**
*
60 65 70 75 80 85 90
97
98
99
100
Relation entre la température corporelle et le pouls
Battements du coeur
Tem
péra
ture
corp
ore
lle
Température corporelle = 96.3068 + 0.0263 ( Battements du coeur )
*
*
**
* * **
*** * ** *
** **
* ** ***
** *** ***
** * ***
* * * ** *
* * ** * ** *
* ***
* * **
**
**
60 65 70 75 80 85
96.5
97.0
97.5
98.0
98.5
99.0
99.5
Relation entre la température du corporelle
et le pouls - Femmes et hommes
Battements du coeur
Tem
péra
ture
corp
ore
lle
*
**
* *
*
***
** ** * *
* *** **
** * ***** ** ** * *
** * **
* ** * * ** * * ** * *
** *
****
**
*
Température corporelle = 96.4421 + 0.0263 ( Battements du coeur )
Température corporelle = 96.4421 + 0.0263 ( Battements du coeur )
22 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
Relation entre la grosseur du cerveau et P
b) Utilisez un symbole différent pour les femmes et pour les hommes. Que constatez-vous?
Relation entre la grosseur du cerveau et P (M = homme; F = femme)
c) Vérifiez que la taille du cerveau est corrélée avec la taille de la personne. Coefficient de corrélation: r = 0,597
d) Déterminer deux droites de régression liant l'aptitude P à la grosseur du cerveau (irm = IRM/5000), l'une pour les
femmes l'autre pour les hommes. Commenter sur la différence entre les deux.
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
160 170 180 190 200 210
80
100
120
140
Grosseaur du cerveau
P
P = 5.72 + 0.6 ( Grosseaur du cerveau )
F
M
M
F
F
F
F
M
M
F
M
M
F
F
F
F
M
FM
M
F
M
F
M
F
M
F
F
160 170 180 190 200 210
80
100
120
140
Grosseur du cerveau
P
P = 5.72 + 0.6 ( Grosseur du cerveau )
STT1000 Solutions Chapitre 1 Statistiques descriptives 23
Serge Alalouf 7 novembre 2017
Relation entre P et irm, selon le sexe
e) Étant donné la constatation faite en c), déterminez la relation entre P et irmt = irm/Taille (cette dernière variable
ajuste le poids du cerveau en l’exprimant comme proportion de la taille de la personne). Y a-t-il une amélioration
dans le coefficient de corrélation?
Nuage de points, P en fonction irmt(F = femme; H = homme)
L'amélioration est négligeable: r = 0,424 entre P et irm; 0,4233777 entre P et irmt; r = 0,480
1.30 [Données du tableau A10] Le tableau A10 présente des données démographiques et économiques sur 91 pays.
a) Présenter la distribution du PIB (pib( au moyen d'une moustache. Identifier les pays particulièrement riches.
H
F
H
F
H
F
H
F
H
F
H
F
H
F
H
F
H
FH
F
H
F
H
F
H
F
H
F
160 170 180 190 200 210
80
100
120
140
Grosseur du cerveau
P
F
H
Femmes
Hommes
F
H
H
F
F
F
F
H
H
F
H
H
F
F
F
F
H
FH
H
F
H
F
H
F
H
F
F
2.4 2.6 2.8 3.0
80
100
120
140
irmt
P
P = -39.1 + 57.57 ( irmt )
24 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
.
b) Faites un graphique pour montrer la relation entre pib (x) et l’espérance de vie des hommes espvie0m (y). Vous
verrez qu’elle est loin d’être linéaire. Essayez d’expliquer pourquoi le nuage a cette forme.
espvie0m = 56,94 + 0,0008(pib)
Distribution du PND dans les pays du Proche et Moyen orient
PNB
Effe
ctif
0 5000 10000 15000 20000 25000 30000 35000
01
02
03
04
05
0
STT1000 Solutions Chapitre 1 Statistiques descriptives 25
Serge Alalouf 7 novembre 2017
c) Déterminez maintenant la droite de régression permettant de prédire l’espérance de vie des hommes à partir de lpib,
le logarithme du PIB (c’est-à-dire, construisez une colonne contenant x = ln PIB, puis faites une régression de
espvie0m (y) sur x. Estimez l’espérance de vie des hommes d’un pays dont le PIB est de 1000 $ par habitant. y = 24,47 + 4,78x; r = 0,808.
d) La relation entre le taux de mortalité infantile, mortif et le pib ne semble pas non plus linéaire. Montrer que la
relation entre les logarithmes de ces deux variables est proche d’une relation linéaire. Soit y = lmortit = ln(mortif) et x = lpib = ln(pib). Présenter le nuage de points et tracer la droite de régression de y sur x Calculer le coefficient
de corrélation. Estimez le taux de mortalité d’un pays dont le PNB est de 1000 $ par habitant.
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
***
*
*
** *
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
* *
*
*
*
**
*
*
*
*
*
*
*
*
*
*
**
**
**
0 10000 20000 30000 40000
40
50
60
70
pib
Espéra
nce d
e v
ie à
la n
ais
sance (
Hom
mes)
Espérance de vie à la naissance (Hommes) = 60.21 + 0.00061 ( pib )
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
**
*
*
*
***
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
* *
*
*
*
**
*
*
*
*
*
*
*
*
*
*
**
**
* *
5 6 7 8 9 10
40
50
60
70
ln(pib)
Espéra
nce d
e v
ie
Espérance de vie = 20.89 + 5.53733 ( ln(pib) )
26 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
Mort = 75,342 + 0,0034(PNB) LMort = 7,730+0,559(LPNB)
e) Comparer espvie0f et espvie0m au moyen de deux moustaches. Identifiez les données extrêmes.
f) Évaluez la relation entre espvie0f (y) et espvie0m (x). Interprétez le fait que le coefficient b1 est supérieur à 1.
*
* *
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* **
**
*
*
*
** **
*
*
*
*
**
*
** * *
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
**
* *
*
*
** *
*
*
*
**
*
* *
**
*
*
*
*
** *
**
*
*
0 10000 20000 30000 40000
020
40
60
80
100
120
PIB
Mort
alit
é infa
ntile
Mortalité infantile = 47.14 + -0.00174 ( PIB )
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
* *
*
*
*
*
*
*
*
*
*
*
*
**
*
***
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
5 6 7 8 9 10
12
34
5
ln(pib)
ln(M
ort
alit
é infa
ntile
)
ln(Mortalité infantile) = 7.88 + -0.61506 ( ln(pib) )
STT1000 Solutions Chapitre 1 Statistiques descriptives 27
Serge Alalouf 7 novembre 2017
1.31 [Données du tableau A08] Le tableau A08 présente des données économiques sur 46 grandes villes du monde.
a) Faites un graphique montrant la relation entre le coût des produits (x) et les salaires (y). Salaire = -25,677 + 0,9304(Prix)
b) Considérer les différences iy y ainsi que les différences ˆi iy y , où ˆ
iy est la prédiction de y à partir de xi : ˆiy =
bo+b1xi. Calculez l’écart-type de chacune de ces deux séries. Considérer le sens de ces écarts pour expliquer
pourquoi la deuxième série ne peut pas être plus dispersée que la première.
ˆy y =
13.641 6.020 1.914 2.785 7.512 -14.020 -20.179 18.819 3.630 -3.635 12.839 16.761
26.750 -13.419 -5.884 5.080 2.132 -4.897 -13.678 -7.813 -6.465 16.629 30.624 -11.597
-7.540 -14.958 2.682 14.335 -10.392 13.973 9.410 -18.087 -6.300 -4.345 -6.902 -8.721
4.133 -18.142 -38.679 11.903 -18.258 -9.940 -13.321 18.561 4.404 32.635
y y =
*
*
*
*
*
**
* *
*
**
*
*
*
*
*
*
*
*
*
*
*
*
**
**
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
40 60 80 100
020
40
60
80
100
Relation entre les prix et les salaires
Prix
Sala
ire
Salaire = -25.6766 + 0.9304 ( Prix )
28 Chapitre 1 Statistiques descriptives STT1000 Solutions
Serge Alalouf 7 novembre 2017
9.454 -9.146 -28.046 -34.246 10.954 -27.046 -28.646 22.354 23.354 1.854 20.654 20.854
50.754 27.054 -11.746 6.754 -15.546 -29.646 -36.846 -20.746 6.654 25.654 31.554 10.454
-35.546 -33.846 13.754 16.754 -33.746 26.254 -11.246 24.154 -25.746 6.354 -29.046 -28.446
-6.846 -23.446 -0.346 12.554 -5.046 -12.546 28.454 18.654 11.754 60.454
ˆÉcart-type de ( ) 14,728;Écart-type de ( ) 24,7577y y y y
1.32 [Données du tableau A11] Présentez des données ou des tableaux qui confirment ou infirment les propositions suivantes: Pour toute paire de variables, nous éliminons les cas où l'une ou l'autre des deux valeurs est manquante (réponse = 5).
a) Ceux qui croient à l’évolution n’ont pas tendance à croire à l’astrologie Voici la distribution conjointe des variables Singe et Astro.
Astro
1 2 3 4
Singe
1 14 12 14 2 42 2 7 10 14 8 39 3 4 5 3 6 18 4 1 3 2 1 7
26 30 33 17 106
Afin d'assurer un effectif suffisant dans chaque case, nous groupons certaines valeurs consécutives. Ici, les réponses 3 et 4
sont réunies en une seule pour les deux variables.
Astro
1 2 3+4
Singe 1 14 12 16 42 2 7 10 22 39 3+4 5 8 12 25
26 30 50 106
Voici les distributions conditionnelles de la variable Astro pour chaque niveau de la variable Singe.
Astro
1 2 3+4
Singe 1 33,3 28,6 38,1 100
2 17,9 25,6 56,4 100 3+4 20,0 32,0 48,0 100
24,5 28,3 47,2 100
On constate que ceux qui croient fortement à la théorie de l'évolution (Singe = 1) sont proportionnellement plus nombreux
(33,3%) à croire que « l'astrologie est une ânerie » (Astro = 1) que ceux qui n'en sont pas convaincus (Singe = 2; 17,9 %) ou
ceux qui n'y croient réellement pas (Singe = 3 ou 4; 20,0 %). Et proportionnellement moins nombreux (38,1 %) à nier la
validité de l'astrologie (Astro = 3 ou 4) que ceux qui n'en sont pas convaincus (56,4 %) ou ceux qui n'y croient réellement pas
(48,0 %).
b) Ceux qui vont régulièrement à l’église préfèrent généralement épouser des coreligionnaires. Distribution conjointe des variables Égl et Rel:
Rel
1 2 3 4
Égl
1 2 1 2 3 8
2 1 1 3 6 11
3 1 1 2 11 15
4 7 14 10 47 78
11 17 17 67 112
Nous combinons les réponses 1, 2 et 3 en une seule pour les deux variables
Rel
1+2+3 4
Égl 1+2+3 14 20 34
2 31 47 78
45 67 112
STT1000 Solutions Chapitre 1 Statistiques descriptives 29
Serge Alalouf 7 novembre 2017
Distributions conditionnelles de la variable Rel pour chaque valeur de Égl
Rel
1+2+3 4
Égl 1+2+3 41,2 58,8 100
4 39,7 60,3 100
40,2 59,8 100
La proportion de ceux qui n'épouseraient qu'un coreligionnaire (Rel = 1, 2 ou 3) est presque la même parmi ceux qui vont
régulièrement à l'Église et parmi ceux qui n'y vont pas régulièrement.
c) Ceux qui croient à l’astrologie ont tendance à croire à la signification de la ligne de vie. Pour la variable Astro nous combinons les réponses 1 et 2 ainsi que 3 et 4; pour la variable Paume, nous combinons les trois
premières.
Paume
1+2+3 4
Astro 1+2 16 29 45
3+4 23 18 41
39 47 86
Distributions conditionnelles de la variable Paume pour chaque valeur de Astro.
Paume
1+2+3 4
Astro 1+2 35,6 64,4 100
3+4 56,1 43,9 100
45,3 54,7 100
Ceux qui croient que l'astrologie est une ânerie (Astro = 1 ou 2) sont proportionnellement moins nombreux (35,6 %) à croire à
la validité de la ligne de vie que ceux qui croient en l'astronomie (56,1 %).