Upload
vukhanh
View
236
Download
0
Embed Size (px)
Citation preview
MESURES DE TENDANCE CENTRALE ET DE POSITION 29
3OCMath – Jt 2017
Chapitre 3: Mesures de tendance centrale et de position
Il utilise les statistiques comme l'ivrogne les lampadaires, pour s'appuyer plutôt que pour s'éclairer.
Andrew Lang
Introduction
Nous avons vu aux chapitres précédents comment résumer un grand nombre de données sous la forme de tableaux ou de diagrammes. Il est pourtant souvent possible de caractériser une distribution de manière beaucoup plus succincte par une mesure de l' "emplacement" du centre et une mesure de la dispersion des observations autour de ce centre.
Dans ce chapitre, nous examinerons la première des deux caractéristiques d'une v.s quantitative soit les mesures de tendance centrale. On peut distinguer trois types de mesure relative au centre de la distribution qui sont utilisés les plus fréquemment: la moyenne, la médiane et le mode.
§3.1 Les mesures de tendance centrale d'une variable discrète (k modalités)
La moyenne arithmétiquex :
x =n1 ⋅ x1 + n2 ⋅ x2 +…+ nk ⋅ xk
n1 + n2 +…+ nk
Cette écriture étant un peu "lourde", on va simplifier son
écriture à l'aide du signe ∑ (sigma majuscule) indiquant une somme.
Nous obtenons alors: x =1
Nni ⋅ xi
i=1
k
∑ ou x = f i ⋅ xi
i=1
k
∑
La médiane M:
La médiane M d'une variable discrète est la première modalité dont la fréquence cumulée croissante atteint ou dépasse 50%.
Le Mode M0:
Le Mode M0 d'une variable discrète est la modalité qui a le plus grand effectif ou la plus grande fréquence.
Une variable statistique est dite plurimodale si elle a plusieurs modes.
30 CHAPITRE 3
3OCMath – Jt 2017
Modèle 1:
Considérons le nombre de personnes par ménage dans le canton de Neuchâtel en 1980.
xi ni
1 20'734
2 20'798
3 10'067
4 10'381
5 3'053
6 832
Totaux:
Dans ce tableau, nous avons x1 = 1, x2 = 2, …, les xi représentent le nombre de personnes par ménage. n1 = 20'734, n2 = 20'798,…, les ni indiquant le nombre de ménages comportant xi personnes.
Calculons les mesures de tendance centrale de cette distribution.
Exercice 3.1:
Calculer la moyenne, la médiane et le mode de la v.s suivante:
Modalités Effectifs
10 2
11 3
12 7
13 9
14 14
15 8
16 3
17 1
MESURES DE TENDANCE CENTRALE ET DE POSITION 31
3OCMath – Jt 2017
Exercice 3.2:
a) Déterminer la médiane de cette liste de valeurs classées par ordre de grandeur:
{1; 3; 7; 11; 12} b) Que pourrait être la médiane de cette liste contenant un
nombre pair de valeurs ?
{1; 3; 7; 11; 12; 15} §3.2 Les mesures de tendance centrale d'une variable continue
La moyenne arithmétiquex :
La moyenne arithmétique x d'une variable statistique continue est calculée comme si toutes les données étaient situées aux centres des classes xi . On retrouve donc:
x =1
Nni ⋅ xi
i=1
k
∑ ou x = f i ⋅ xi
i=1
k
∑
Le calcul de la moyenne avec les effectifs donne souvent des grands nombres. Il est préférable de travailler avec les fréquences (2ème formule). On ajoute au tableau de distribution des fréquences la colonne des termes fi · xi.
Exercice 3.3:
Le club PAD organise un grand tournoi de quilles. Voici le tableau de distribution des scores:
[bi-1 ; bi[ ni
[120 ; 140[ 1
[140 ; 160[ 9
[160 ; 180[ 22
[180 ; 200[ 51
[200 ; 220[ 12
[220 ; 240[ 5
Totaux 100
Déterminer la moyenne des scores obtenus.
La médiane M:
La classe médiane d'une variable continue est la première classe où la fréquence cumulée atteint ou dépasse 50%.
Pour définir plus précisément la médiane M, on suppose que les données de la classe médiane sont réparties uniformément et on interpole:
32 CHAPITRE 3
3OCMath – Jt 2017
Graphiquement, sur une courbe de fréquences cumulées:
On généralise ceci grâce à la formule:
M = bi−1 +0,50 − Fi−1
f i⋅ Li
avec bi-1 la borne inférieure de la classe médiane; Fi-1 la fréquence cumulée de la classe qui précède la classe médiane; fi la fréquence de la classe médiane Li la largeur de la classe médiane.
Graphiquement, sur un histogramme:
La médiane d'une variable statistique continue est la valeur qui divise l'histogramme en deux parties de la même aire.
2 4 6 8 10 12 14 16 18 20 22
4
8
12
16
20
24
28
32
36
40
MESURES DE TENDANCE CENTRALE ET DE POSITION 33
3OCMath – Jt 2017
Modèle 2 :
On considère la v.s continue donnée dans le tableau suivant:
[bi-1 ; bi[ ni fi Fi
[30 ; 40[ 4
[40 ; 50[ 7
[50 ; 60[ 11
[60 ; 70[ 12
[70 ; 80[ 8
[80 ; 90[ 5
Totaux 47
Déterminer la médiane de cette v.s.
Exercice 3.4:
Calculer la moyenne et la médiane de la v.s continue suivante:
[bi-1 ; bi[ ni
[0 ; 2[ 3
[2 ; 4[ 8
[4 ; 6[ 15
[6 ; 8[ 14
[8 ; 10[ 6
[10 ; 12[ 2
Totaux
Exercice 3.5:
Démontrer la formule générale M = bi−1 +0,50 − Fi−1
f i⋅ Li
34 CHAPITRE 3
3OCMath – Jt 2017
Le mode M0:
La classe modale d'une variable continue est la classe qui a le plus grand effectif ou la plus haute fréquence.
À l'intérieur de la classe modale, on peut définir plus précisément le mode M0 proportionnellement aux différences d'effectifs de la classe modale avec ses deux classes voisines:
Graphiquement, sur un histogramme:
On généralise ceci grâce à la formule:
M0 = bi−1 +Δ1
Δ1 + Δ 2
⋅ Li
avec bi-1 la borne inférieure de la classe modale; Δ1 la différence d'effectif entre la classe modale et la classe précédente; Δ2 la différence d'effectif entre la classe modale et la classe suivante; Li la largeur de la classe modale.
Modèle 3 :
On considère la v.s continue donnée dans le tableau suivant:
[bi-1 ; bi[ ni [30 ; 40[ 4 [40 ; 50[ 7 [50 ; 60[ 11 [60 ; 70[ 12 [70 ; 80[ 8 [80 ; 90[ 5 Totaux 47
Déterminer la mode de cette v.s.
1 2 3 4 5 6 7 8 9 10 11 12 13
1
2
3
4
5
6
7
8
9
MESURES DE TENDANCE CENTRALE ET DE POSITION 35
3OCMath – Jt 2017
Exercice 3.6:
Calculer le mode de la v.s continue suivante:
[bi-1 ; bi[ ni [0 ; 2[ 3 [2 ; 4[ 8 [4 ; 6[ 15 [6 ; 8[ 14 [8 ; 10[ 6 [10 ; 12[ 2
Totaux
Exercice 3.7:
Démontrer la formule générale M0 = bi−1 +Δ1
Δ1 + Δ 2
⋅ Li
Exercice 3.8:
On a mesuré la taille des 50 professeurs de la HEG:
Taille en cm Nombre de professeurs
[130 ; 140[ 2
[140 ; 150[ 4
[150 ; 160[ 7
[160 ; 170[ 8
[170 ; 180[ 15
[180 ; 190[ 10
[190 ; 200[ 4
Calculer les mesures de tendance centrale puis les représenter sur l'histogramme suivant:
Exercice 3.9:
Le but de cet exercice est de montrer que (xi − x )i=1
n
∑ = 0 , c'est-à-
dire que la somme des écarts à une moyenne est égale à zéro.
a) Vérifier ceci avec x1 = 1, x2 = 2, x3 = 3. b) Généraliser.
130 140 150 160 170 180 190 200
2
4
6
8
10
12
14
16
36 CHAPITRE 3
3OCMath – Jt 2017
§3.3 Les mesures de tendance centrale à l'aide d'OpenOffice
Exercice 3.10:
On reprend les données de l'exercice 3.8, et on veut calculer les mesures de tendance centrale à l'aide d'OpenOffice.
a) Recopier ci-dessous les formules, à indiquer dans les cellules suivantes:
Cellule F9: ……………………
Cellule G2: …………………… qui pourra être copié vers le bas à l'aide de la poignée
Cellule H2: …………………… qui pourra être copié vers le bas à l'aide de la poignée
Cellule I2: …………………… qui pourra être copié vers le bas à l'aide de la poignée
Cellule I9: ……………………
Cellule J3: …………………… qui pourra être copié vers le bas à l'aide de la poignée
Cellule G12: ……………………
Cellule G14: ……………………
Cellule J12: ……………………
b) Reproduisez cette feuille OpenOffice.
Exercice 3.11:
Voici un résumé de l'échelle des salaires annuels des ouvriers de la compagnie CLOCK
Salaire annuel Nombre
d'ouvriers Salaire annuel
Nombre d'ouvriers
[24000 ; 26000[ 3 [32000 ; 34000[ 17 [26000 ; 28000[ 7 [34000 ; 36000[ 8 [28000 ; 30000[ 10 [36000 ; 38000[ 8 [30000 ; 32000[ 13 [38000 ; 40000[ 4
Calculer les mesures de tendance centrale.
MESURES DE TENDANCE CENTRALE ET DE POSITION 37
3OCMath – Jt 2017
Exercice 3.12:
On a fait une enquête auprès des 40 élèves de la classe du professeur MATHS. On leur a demandé le nombre d'enfants dans leur famille, leur âge et leur revenu au cours de l'été dernier. On a condensé les réponses dans les tableaux ci-dessous:
Nombre d'enfants
Nombre d'élèves
Âgé Nombre d'élèves
1 12 [17 ; 18[ 6 2 10 [18 ; 19[ 14 3 8 [19 ; 20[ 12 4 4 [20 ; 21[ 5 5 3 [21 ; 22[ 2 6 1 [22 ; 23[ 1 7 1 8 1
Revenu Nombre d'élèves
[0 ; 400[ 10 [400 ; 800[ 5 [800 ; 1200[ 4 [1200 ; 1600[ 6 [1600 ; 2000[ 5 [2000 ; 2400[ 2 [2400 ; 3600[ 8
a) Calculer les mesures de tendance centrale des 3 variables
statistiques b) Tracer les diagrammes correspondants à ces variables
statistiques et y indiquer les mesures calculées précédemment: • nbre d'enfants: diagramme en colonnes; • Âge: diagramme en secteurs; • Revenu: Histogramme.
38 CHAPITRE 3
3OCMath – Jt 2017
§3.4 Comparaison entre la moyenne, le mode et la médiane
Nous pouvons maintenant faire quelques comparaisons sommaires entre les trois mesures de tendance centrale.
La moyenne:
La moyenne peut être qualifiée de centre de gravité d'une distribution :
Considérons les données fictives suivantes: x1 = 4, x2 = 5, x3 = 5, x4 = 6
et étudions son histogramme:
Par la symétrie de la figure, on constate que la moyenne de ces données est 5. Imaginons maintenant l'axe horizontal de l'histogramme comme planche sur laquelle on aurait placé des poids de 1 kg pour chaque unité relative aux observations. Si nous plaçons sous celle-ci une pomme, au niveau de la moyenne, la planche va être en équilibre. Que se passe-t-il si les données deviennent:
x1 = 4, x2 = 5, x3 = 5, x4 = 10 ?
La médiane:
Comparée à la moyenne, la médiane est nettement plus "conservatrice". Elle donne une vue plus réaliste d'un centre de la distribution, car la moyenne est fortement influencée par les observations extrêmes. Reprenons l'exemple du nombre de personnes par ménage dans le canton de Neuchâtel, supprimons les ménages de 5 et 6 personnes et observons:
1 2 3 4 5 6 7 8 9 10 11
1
2
1 2 3 4 5 6 7 8 9 10 11
1
2
MESURES DE TENDANCE CENTRALE ET DE POSITION 39
3OCMath – Jt 2017
Le mode:
Le mode ne tient pas compte de toutes les données, par contre, il n'est pas influencé par les données extrêmes de la distribution.
Exercice 3.13:
Pour chaque phrase suivante, de quelle mesure de tendance centrale parle-t-on ?
a) Il peut y en avoir plusieurs dans une distribution. b) C'est la mesure la plus utilisée. c) Elle est très instable quand le nombre d'observations est
faible. d) Elle est souvent utilisée pour exprimer des données
démographiques, afin d'éviter que les valeurs extrêmes n'influencent trop la valeur.
e) Elle peut être grandement influencée par le choix des classes.
f) Elle est peu influencée par le choix des classes, et ne peut pas être utilisée s'il y a une classe finale ouverte (sans borne supérieure)
Exercice 3.14:
Montrer que 1
Nni(xi − x )
i=1
k
∑ = 0.
À quelle mesure de tendance centrale est associé ce résultat? §3.4 Les mesures de position
La médiane partage la population en deux parties égales. On peut généraliser cette idée et partager la population en quatre, dix ou cent parties égales. Les valeurs déterminant ce partage sont respectivement les quartiles Q…, les déciles D… et les centiles C…
40 CHAPITRE 3
3OCMath – Jt 2017
Modèle 4:
Dans le cas de cette distribution discrète:
xi ni fi Fi 12 3 0,055 0,055 14 6 0,109 0,164 16 10 0,182 0,345 18 16 0,291 0,636 20 11 0,200 0,836 25 6 0,109 0,945 29 3 0,055 1,000
totaux: 55 1
Déterminer Q1, D9, C75
Modèle 5:
À l'aide des représentations graphiques ci-dessous, déterminer a) La médiane. b) Les trois quartiles Q1, Q2 et Q3. c) Le sixième décile D6.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220
0.10.20.30.40.50.60.70.80.9
1
Fréquences cumul. croissantes
2 4 6 8 10 12 14 16 18 20 22
200
400
600
800Histogramme
MESURES DE TENDANCE CENTRALE ET DE POSITION 41
3OCMath – Jt 2017
Formule:
Dans le cas de cette distribution continue: La formule permettant de calculer la médiane:
M = se généralise et permet ainsi de calculer nième quartile
(n = 1, 2, 3):
Qn =……+……−……
……⋅……
avec bi-1 la borne inférieure de la classe contenant le nième quartile; Fi-1 la fréquence cumulée de la classe qui précède la classe contenant le nième quartile; fi la fréquence de la classe contenant le nième quartile; Li la largeur de la classe contenant le nième quartile.
Modèle 6:
En faisant l'étude des résultats des 500 étudiants inscrits à un concours mathématique, on a regroupé les données et on les synthétise dans le tableau ci-dessous:
[bi-1 ; bi[ xi ni fi Fi [10 ; 20[ 15 25 0,050 0,050 [20 ; 30[ 25 40 0,080 0,130 [30 ; 40[ 35 81 0,162 0,292 [40 ; 50[ 45 107 0,214 0,506 [50 ; 60[ 55 115 0,230 0,736 [60 ; 70[ 65 78 0,156 0,892 [70 ; 80[ 75 38 0,076 0,968 [80 ; 90[ 85 14 0,028 0,996 [90 ; 100[ 95 2 0,004 1,000
500 1
Déterminer le 1er et le 3ème quartile.
Exercice 3.15:
Donner la formule permettant de calculer le αième centile Cα.
42 CHAPITRE 3
3OCMath – Jt 2017
Exercice 3.16:
La variable statistique X représente la taille en centimètres des élèves d'une école:
Taille des élèves Nombre d'élèves
[120 ; 130[ 6 [130 ; 140[ 21 [140 ; 150[ 45 [150 ; 160[ 55 [160 ; 170[ 26 [170 ; 180[ 7
a) Construire le tableau de distribution des fréquences et des
fréquences cumulées croissantes b) Calculer Q3, D4. c) Tracer la courbe des fréquences cumulées croissantes. d) Situer Q3 et D4 sur la courbe des fréquences cumulées
croissantes.
Exercice 3.17:
Dans un groupe de 40 étudiants, on a fait une étude sur le nombre d'heures de classe de chacun la journée de mardi:
4 5 6 3 4 2 2 6 7 4 6 7 4 4 1 3 3 5 1 6 5 5 5 5 5 5 6 3 4 2 3 5 8 4 4 3 4 3 6 5
a) Construire le tableau complet de distribution des fréquences. b) Calculer les mesures de tendance centrale. c) Calculer les 3 quartiles. d) OpenOffice propose directement la fonction Quartile. En sélectionnant les données (le tableau de nombres) puis en
choisissant le Type (1 pour le 1er quartile, …), calculer et comparer, les valeurs des 3 quartiles.
MESURES DE TENDANCE CENTRALE ET DE POSITION 43
3OCMath – Jt 2017
Exercice 3.18:
Un fabricant de céréales fait une enquête pour savoir si ses boîtes de céréales TRUC contiennent effectivement 500 grammes tel que spécifié sur l'emballage. Il vérifie donc les 1000 boîtes sorties de l'usine aujourd'hui. En regroupant les données, il retrouve les résultats suivants:
Poids des boîtes Nombre de
boîtes [492 ; 494[ 6 [494 ; 496[ 27 [496 ; 498[ 168 [498 ; 500[ 415 [500 ; 502[ 293 [502 ; 504[ 75 [504 ; 506[ 14 [506 ; 508[ 2
a) Construire le tableau complet de distribution des fréquences.
b) Tracer l'histogramme, le polygone des fréquences et la courbe des fréquences cumulées.
c) Déterminer les mesures de tendance centrale
d) Calculer D1 et C95
e) Si on juge tolérable une erreur de 4 grammes, exprimer la formule, dépendant d'un Fi et d'un Fi' permettant de calculer la proportion des boîtes que l'on ne peut pas qualifier de tolérable ?
f) Si on juge acceptable une erreur de 5 grammes, quelle est la proportion des boîtes que l'on doit qualifier d'inacceptables ?
44 CHAPITRE 3
3OCMath – Jt 2017
§3.4 La boîte à moustaches (Box Plot)
John Wilder Tukey
1915 – 2000
La boîte à moustaches, traduction de Box & Whiskers Plot, est une invention de John Wilder Tukey (1977). Elle est souvent appelée Box Plot dans les logiciels statistiques. Il s'agit d'une boîte délimitée par les quartiles Q1 et Q3 coupée en deux parties par la médiane et prolongée de chaque côté par des moustaches.
Il existe plusieurs conventions permettant de fixer la valeur des moustaches: • Termes extrêmes : la méthode classique consiste à démarrer
la moustache de gauche à la plus petite des valeurs, Min(xi), et à finir celle de droite par Max(xi). Dans ce premier cas, si la série a des valeurs extrêmes isolées, les moustaches de la série seront très longues et pourraient fausser l'interprétation.
• Moustaches limitées à 1,5 · (Q3 – Q1) : pour éviter le
problème évoqué précédemment, un calcul permet de limiter la taille des moustaches à une fois et demie l'écart interquartile (Q3 – Q1). La moustache de gauche est égale à la plus grande des valeurs entre Min(xi) et Q1 – 1,5 · (Q3 – Q1). La moustache de droite est composée de la plus petite des valeurs entre Max(xi) et Q3 + 1,5 · (Q3 – Q1). Les valeurs dites atypiques situées au-delà des moustaches sont individualisées et représentées par un marqueur (point, croix, …).
• Centiles : une méthode simple consiste à utiliser les centiles
pour fixer la valeur des moustaches. Le centile C10 est utilisé pour la moustache de gauche, et le centile C90 pour la moustache de droite.
La boîte à moustaches permet une bonne visualisation de la zone centrale de la série et de la dispersion. Ce diagramme est extrêmement précieux pour comparer diverses séries statistiques.
MESURES DE TENDANCE CENTRALE ET DE POSITION 45
3OCMath – Jt 2017
Modèle 7:
Le tableau ci-dessous recense la population de la Suisse par tranche d'âge en 2007 (en milliers)
Âge Population fi
masculine Fi
masculine masculine féminine [0 ; 15[ 605,3 571,4 0,162 0,162 [15 ; 30[ 703,0 687,5 0,189 0,351 [30 ; 45[ 875,6 871,2 0,235 0,586 [45 ; 60[ 798,4 790,0 0,214 0,800 [60 ; 75[ 520,4 569,3 0,140 0,940 [75 ; 90[ 209,1 333,7 0,056 0,996 [90 ; 110[ 15,1 43,3 0,004 1,000 Totaux 3726,9 3866,4 1,000
(source: Office fédéral de la statistique OFS)
a) Calculer la valeur des indicateurs nécessaires au diagramme
"boîte à moustaches" pour la population masculine. Ci-dessous, vous trouverez le diagramme en "boîte à moustaches" pour la population féminine :
b) Compléter ce diagramme en "boîte à moustaches" en ajoutant celle de la population masculine.
c) Comparer ces 2 distributions.
Âge
0 10 20 30 40 50 60 70 80 90 100 110
46 CHAPITRE 3
3OCMath – Jt 2017
Exercice 3.19:
3 classes de 34 élèves ont obtenu les notes suivantes au dernier test évalué sur 20 pts:
Classe 1:
5 10 15 12 13 14 12 5 8 9 6 12 14 18 16 15 19 14 12 10 11 12 16 12 15 4 12 8 9 14 5 3 18 17
Classe 2:
8 8 9 10 8 9 10 11 8 9 12 8 12 11 10 12 11 10 12 10 11 12 9 8 7 13 10 11 12 11 10 8 10 11
Classe 3:
2 18 5 15 3 17 6 14 0 20 1 19 8 12 9 11 10 10 12 8 11 9 16 4 15 5 12 8 9 11 9 11 19 1
a) Réaliser le tableau d'effectif et le diagramme en boîte à
moustaches pour les 3 classes. b) Quelles sont les moyennes obtenues pour chaque classe? c) À partir des diagrammes, indiquer la ou les classes répondant
le mieux aux critères suivants:
critère A: "les élèves ont des résultats proches. La classe est homogène"
critère B: "les élèves ont des résultats très différents. La classe est hétérogène".
critère C: "Cette classe possède les meilleurs résultats". critère D: "50% des élèves au moins ont une note comprise
entre 8 et 12" critère E: "25% des élèves au plus ont une note comprise
entre 8 et 12"
MESURES DE TENDANCE CENTRALE ET DE POSITION 47
3OCMath – Jt 2017
Exercice 3.20:
Une compagnie de taxis a relevé les distances parcourues (en milliers de km) par ses véhicules avant qu'elle ne s'en sépare. Les résultats sont consignés dans le tableau suivant:
Distance [60 ; 70[ [70 ; 80[ [80 ; 90[ [90 ; 100[ [100 ; 110[ Effectif 6 10 15 21 25 Distance [110 ; 120[ [120 ; 130[ [130 ; 140[ [140 ; 150[ [150 ; 160[ Effectif 38 18 12 4 1
À l'aide d'OpenOffice, voici le polygone des fréquences cumulées croissantes:
Résumer cette étude à l'aide d'un diagramme en "boîte à moustaches".
48 CHAPITRE 3
3OCMath – Jt 2017