Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Université Paris Ouest Nanterre La DéfenseM2 Droit-Éco
Mise à Niveau en StatistiquesCours et exercices
B. Desgraupes
2015 – 2016
Table des matières
1 Variables statistiques 11.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Les objectifs de la statistique . . . . . . . . . . . . . . . . 11.1.2 Le vocabulaire de la statistique . . . . . . . . . . . . . . . 2
1.2 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.1 Table des observations . . . . . . . . . . . . . . . . . . . . 51.2.2 Table d’effectifs . . . . . . . . . . . . . . . . . . . . . . . . 61.2.3 Table de fréquences . . . . . . . . . . . . . . . . . . . . . 81.2.4 Valeurs cumulées . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Sources statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Logiciel statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Représentations graphiques 132.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Diagrammes à secteurs circulaires . . . . . . . . . . . . . . . . . . 132.3 Diagrammes en bâtons . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Diagrammes d’effectifs cumulés . . . . . . . . . . . . . . . . . . . 182.5 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.6 Polygônes de fréquence . . . . . . . . . . . . . . . . . . . . . . . . 242.7 Diagrammes de dispersion . . . . . . . . . . . . . . . . . . . . . . 262.8 Courbes d’évolution . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Indicateurs de tendance 333.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Caractéristiques de position . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 Classe modale . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.3 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2.4 Quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.5 Déciles et centiles . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Indicateurs de tendance centrale . . . . . . . . . . . . . . . . . . 413.3.1 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . 413.3.2 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . 443.3.3 Moyenne quadratique . . . . . . . . . . . . . . . . . . . . 45
III
IV TABLE DES MATIÈRES
3.3.4 Moyenne d’ordre p . . . . . . . . . . . . . . . . . . . . . . 463.3.5 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . 463.3.6 Comparaison des moyennes . . . . . . . . . . . . . . . . . 47
4 Indicateurs de dispersion 494.1 Indicateurs de dispersion . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.1.2 L’intervalle inter-quartiles . . . . . . . . . . . . . . . . . . 524.1.3 L’écart absolu moyen . . . . . . . . . . . . . . . . . . . . . 534.1.4 La variance et l’écart-type . . . . . . . . . . . . . . . . . . 564.1.5 Propriétés de la variance . . . . . . . . . . . . . . . . . . . 584.1.6 Déviation médiane absolue . . . . . . . . . . . . . . . . . 604.1.7 Coefficient de variation . . . . . . . . . . . . . . . . . . . 61
4.2 Robustesse des indicateurs . . . . . . . . . . . . . . . . . . . . . . 624.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 634.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5 Indicateurs de forme et de concentration 675.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.2 Moments d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2.1 Moments simples . . . . . . . . . . . . . . . . . . . . . . . 685.2.2 Moments centrés . . . . . . . . . . . . . . . . . . . . . . . 69
5.3 Comparaison des indicateurs de tendance centrale . . . . . . . . 705.4 Indicateurs de forme . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4.1 Coefficients d’asymétrie . . . . . . . . . . . . . . . . . . . 725.4.2 Coefficients d’aplatissement . . . . . . . . . . . . . . . . . 74
5.5 Indicateurs de concentration . . . . . . . . . . . . . . . . . . . . . 785.5.1 Médiane et médiale . . . . . . . . . . . . . . . . . . . . . . 785.5.2 Écart à la médiale . . . . . . . . . . . . . . . . . . . . . . 805.5.3 Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . 815.5.4 Coefficient de Gini . . . . . . . . . . . . . . . . . . . . . . 83
5.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6 Taux de croissance et indices élémentaires 896.1 Pourcentages et variations . . . . . . . . . . . . . . . . . . . . . . 89
6.1.1 Calculs de taux . . . . . . . . . . . . . . . . . . . . . . . . 896.1.2 Taux global et taux moyen . . . . . . . . . . . . . . . . . 906.1.3 Évolution des grandeurs composites . . . . . . . . . . . . 94
6.2 Notion d’indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 956.3 Propriétés des indices . . . . . . . . . . . . . . . . . . . . . . . . 97
6.3.1 Circularité . . . . . . . . . . . . . . . . . . . . . . . . . . 976.3.2 Réversibilité . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.4 Indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . 986.5 Exercices complémentaires . . . . . . . . . . . . . . . . . . . . . . 99
TABLE DES MATIÈRES V
7 Indices synthétiques 1037.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.1.1 Notion de panier . . . . . . . . . . . . . . . . . . . . . . . 1047.2 Indices de prix et de quantité . . . . . . . . . . . . . . . . . . . . 105
7.2.1 Indices de Laspeyres . . . . . . . . . . . . . . . . . . . . . 1057.2.2 Indices de Paasche . . . . . . . . . . . . . . . . . . . . . . 1067.2.3 Indices de Fisher . . . . . . . . . . . . . . . . . . . . . . . 1077.2.4 Propriétés des indices synthétiques . . . . . . . . . . . . . 1077.2.5 Tableau récapitulatif . . . . . . . . . . . . . . . . . . . . . 108
7.3 Relations entre indices . . . . . . . . . . . . . . . . . . . . . . . . 1117.3.1 Indices en valeur . . . . . . . . . . . . . . . . . . . . . . . 1117.3.2 Indices et moyennes . . . . . . . . . . . . . . . . . . . . . 1147.3.3 Qualité des indices . . . . . . . . . . . . . . . . . . . . . . 118
VI TABLE DES MATIÈRES
Chapter 1
Variables statistiques
1.1 Notions de base
1.1.1 Les objectifs de la statistique
La statistique est un ensemble de méthodes et d’outils permettant d’analyserdes données. Elle définit des techniques à la fois pour collecter les données, lesarranger, les présenter, les résumer et les analyser.
Le terme provient du latin statisticum qui signifie “ce qui a rapport à l’État”.Les premières enquêtes statistiques datent du 18ième siècle.
On distingue deux grandes branches dans la statistique :
• les statistiques descriptives ont pour but d’obtenir une vue synthétiquede données. Il s’agit de dégager et de résumer l’essentiel de l’informationcontenue dans les données ;
• les statistiques inférentielles ont pour objectif d’utiliser les données collec-tées afin de tester des hypothèses, de rechercher des modèles ou de fairedes prévisions.
Il y a de nombreuses disciplines ayant recours à la statistique :
• l’économie, la finance, la gestion
• la géographie et la démographie
• la médecine
• la biologie
• la physique
• la psychologie
• la linguistique
1
2 CHAPTER 1. VARIABLES STATISTIQUES
et cette liste n’est pas exhaustive...La statistique n’est pas une discipline théorique. Elle s’appuie principale-
ment, pour justifier les méthodes qu’elle emploie, sur la théorie des probabilitésqui fournit un soubassement mathématique rigoureux pour la description desphénomènes aléatoires.
Elle a connu un considérable développement au cours des vingt dernièresannées avec l’arrivée des ordinateurs qui permettent de disposer de capacitésde calcul jusque-là inatteignables. On peut à faible coût (en termes de calculs)manipuler de grandes quantités de données.
La collecte des données, sans laquelle les méthodes ne s’appliqueraient pas,sont néanmoins une opération coûteuse et prennent du temps. La statistiques’appuie sur l’échantillonnage pour limiter à la fois le volume des données et lescoûts afférants.
Même les recensements de population se font depuis 2004 en France parsondage dans des sous-groupes des communes.
Il existe diverses méthodes pour collecter correctement des données et con-struire des échantillons :
• reproduction d’expérience et relevé de résultats ;
• tirage au hasard. On tire au hasard N individus dans une population ;
• méthode des tirages en cascade : on sélectionne les individus par plusieurstirages successifs de sous-ensembles (villes, quartiers, etc.) ;
• méthode des quotas. L’échantillon reproduit à son échelle certaines car-actéristiques (dites quotas) comme par exemple l’âge ;
• méthode des grappes. Elle constitue des sous-groupes comparables maisdans lesquels les individus sont très différents ;
• méthode par stratification. Le tirage se fait dans des strates prédéfiniesde la population. Les strates sont des sous-groupes homogènes ;
• méthode des panels. Cette méthode suit un même groupe d’individu pourl’observer à des périodes différentes ;
• méthode des cohortes. Une cohorte est un panel d’individus ayant uneorigine commune et qui sont observés périodiquement ;
1.1.2 Le vocabulaire de la statistiqueLa statistique utilise une terminologie intuitive mais rigoureuse qu’il faut as-similer afin de savoir avec précision quels sont les objets et les concepts qu’onmanipule.
Tout d’abord, une enquête statistique se déroule toujours dans une popu-lation. C’est un ensemble de référence dont les éléments sont désignés commeindividus ou unités statistiques. Ces individus peuvent être des personnes aussibien que des entités.
1.1. NOTIONS DE BASE 3
Les études statistiques consistent à observer chez ces individus des caractèresou variables statistiques. Ceux-ci peuvent être de nature très variée. L’ensembledes valeurs des caractères relevés chez un “individu” porte le nom d’observation.
Les observations sont rassemblées dans des bases de données appelées fréquem-ment des jeux de données.
Les valeurs des caractères portent le nom demodalités. Les modalités doiventêtre choisies de telle sorte que tout individu puisse se voir attribuer une uniquevaleur. Les modalités sont comme des catégories. Elles constituent une partitiondes valeurs possibles : on dit qu’elles doivent être à la fois
• exhaustives : tout individu entre dans une catégorie ;
• disjonctives : il n’y a pas de recoupement entre les catégories. Autrementdit un individu ne peut pas figurer à la fois dans deux catégories différentes.
Il est fréquent de créer une catégorie appelée Divers ou Autres pour accueillirles observations qui ne trouvent pas leur place dans les modalités naturelles.
On distingue deux types de caractères ou variables :
• les caractères qualitatifs : ce sont ceux qu’on ne peut pas représenter parune mesure.Par exemple : couleur des yeux, sexe, situation familiale, mention aubaccalauréat, catégorie socio-professionnelle. . .
• les caractères quantitatifs : ce sont ceux qu’on peut mesurer et représenternumériquement. Parmi eux on distingue :
– les caractères quantitatifs discrets : leur valeur est en général unnombre entier ou appartient à un ensemble fini de valeurs.Par exemple : nombre d’enfants, nombre de pièces, . . .
– les caractères quantitatifs continus : leur valeur est en général unnombre réel pris dans un certain intervalle.Par exemple : taille, poids, température, chiffre d’affaire, montantimposable. . .
Exemple de nomenclature complexe pour une variable de type qualitatif : lesecteur d’activité. Cette nomenclature est utilisée par l’INSEE dans toutes sestables de données et analyses de conjoncture.
Nomenclature d’Activités Française (NAF)Les modalités d’une variable qualitative ne sont pas des nombres. Ce sont des
catégories dans une nomenclature. Néanmoins on peut les coder numériquementafin de faciliter leur représentation et leur stockage. Mais le code numérique estune convention arbitraire et ne constitue pas une mesure.
Certaines variables qualitatives sont appelées ordinales si il existe une rela-tion d’ordre naturelle sur les différentes modalités. C’est le cas par exemple dela mention au baccalauréat :
TB > B > AB > P
4 CHAPTER 1. VARIABLES STATISTIQUES
Le niveau de satisfaction dans une enquête d’appréciation d’un service estaussi une variable ordinale.
Il existe des méthodes statistiques et des algorithmes qui exploitent le faitqu’une variable soit ordinale.
Les valeurs d’une variable quantitative continue sont fréquemment regroupéesen classes ou en intervalles contigus. Leur domaine de définition est partitionnéen intervalles de la forme [ei, ei+1[. C’est une forme de discrétisation des donnéesobservées.
Les intervalles peuvent être ouverts à gauche et fermés à droite, ou le con-traire. Il faut s’assurer qu’ils sont disjoints et que leur réunion recouvre toutesles valeurs possibles.
Dans les calculs, il arrive qu’on veuille représenter un intervalle par unevaleur numérique. On utilise souvent pour cela le centre de l’intervalle :
ci =ei + ei+1
2
La taille de l’intervalle s’appelle l’amplitude :
ai = ei+1 − ei
Exercice
On a relevé les poids suivants (en kg) parmi 100 individus.
64 85 79 84 68 74 94 75 64 6572 74 78 69 67 64 70 63 69 8262 64 71 74 77 73 77 76 82 8286 48 50 69 76 59 70 61 55 7773 81 76 56 63 84 63 57 76 8662 70 69 66 63 90 72 73 73 7675 70 68 66 74 66 52 66 81 5777 79 55 69 78 60 85 70 67 6476 78 65 81 69 76 72 71 74 5867 76 74 78 79 69 92 64 73 65
a) Déterminer les valeurs extrêmes (min et max).
b) Répartir les données en classes d’amplitude 10 en partant de 45 kg.
c) Préciser les centres des classes.
Corrigé
a) Le poids minimal est 48 kg et le poids maximal est 94 kg.b) On obtient la répartition suivante :
1.2. TABLEAUX STATISTIQUES 5
[45,55[ [55,65[ [65,75[ [75,85[ [85,95[3 21 40 29 7
Remarque: si on avait choisi des intervalles ouverts à gauche, on auraitobtenu des résultats différents :
]45,55] ]55,65] ]65,75] ]75,85] ]85,95]5 22 39 29 5
c) Centres des classes :
50 60 70 80 90
La distinction n’est pas toujours très rigoureuse entre variables discrètes etcontinues. Il arrive que des variables exprimées en nombres entiers soient quandmême considérées comme variables continues.
C’est le cas par exemple de l’âge. Les valeurs possibles sont nombreuses eton les regroupe fréquemment en intervalles. C’est ce regroupement en intervallequi pourrait servir de critère de définition : une variable continue serait unevariable qu’on a besoin de discrétiser en la regroupant en un nombre fini declasses.
En cas d’hésitation, c’est le contexte qui doit permettre au statisticien dedécider ce qui est le plus approprié dans le cadre de son étude.
1.2 Tableaux statistiques
1.2.1 Table des observationsCe sont des tableaux qui représentent l’intégralité des observations collectéesauprès des individus constituant la population ou un échantillon extrait.
Traditionnellement, il s’agit d’un tableau de forme rectangulaire dans lequelchaque ligne correspond à une observation et chaque colonne correspond à unevariable ou un caractère.
Les valeurs de ces tableaux sont qualifiées de données exhaustives (par op-position aux données regroupées qu’on verra plus loin).
Les tables d’observations (dites, en anglais, dataframes) peuvent avoir descolonnes de nature différente : variable qualitative, quantitative, etc. Ce ne sontdonc pas des matrices.
Tableau à une variable X :
Observations XObs1 x1Obs2 x2Obs3 x3...
...ObsN xN
6 CHAPTER 1. VARIABLES STATISTIQUES
Tableau à deux variables X, Y :
Observations X YObs1 x1 y1Obs2 x2 y2Obs3 x3 y3...
......
ObsN xN yN
Tableau à trois variables X, Y , Z :
Observations X Y ZObs1 x1 y1 z1Obs2 x2 y2 z2Obs3 x3 y3 z3...
......
...ObsN xN yN zN
Exemple
• Table des régions et départements de France métropolitaine
• Table des circonscriptions administratives par régions
• Table des communes et population par départements
• Table des conseils régionaux de France métropolitaine et d’outremer
• Chiffre d’affaires dans l’industrie et la construction en août 2014
1.2.2 Table d’effectifsPour chaque modalité vi d’une variable qualitative, chaque valeur vi d’une vari-able quantitative discrète ou chaque classe modale Ci d’une variable quantitativecontinue, on note le nombre ni d’individus présentant cette modalité ou appar-tenant à cette classe : ni est l’effectif de la modalité ou la classe. Obtient ainsiune table d’effectifs de la forme :
Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk
ou
Valeurs [e1, e2[ [e2, e3[ [e3, e4[ · · · [ek, ek+1[Effectifs n1 n2 n3 · · · nk
1.2. TABLEAUX STATISTIQUES 7
Ici k est le nombre de modalités ou de classes.Les tables peuvent aussi être présentées verticalement :
Valeurs Effectifsv1 n1v2 n2v3 n3...
...vk nk
Le nombre total des observations est noté N :
N = n1 + n2 + n3 + · · ·+ nk =k∑i=1
ni
L’ensemble des couples (vi, ni) constitue une distribution statistique.
Exemple
Le tableau suivant est issu du recensement de population de 2011 et dénom-bre les logements déclarés comme résidences principales en fonction du nombrede pièces.
Nombre de pièces Effectifs1 pièce 1 571 9032 pièces 3 417 2333 pièces 5 723 9444 pièces 6 914 9895 pièces 5 315 8386 pièces ou plus 4 403 719
Source : INSEE, RP2011
Exercice
Reprendre la table des régions et des départements :
Table des régions et départements de France métropolitaine
Dresser une table d’effectifs pour chaque région.
Corrigé
8 CHAPTER 1. VARIABLES STATISTIQUES
Alsace Aquitaine Auvergne2 5 4
Basse-Normandie Bourgogne Bretagne3 4 4
Centre Champagne-Ardenne Corse6 4 2
Franche-Comté Haute-Normandie Île-de-France4 2 8
Languedoc-Roussillon Limousin Lorraine5 3 4
Midi-Pyrénées Nord-Pas-de-Calais Pays de Loire8 2 5
Picardie Poitou-Charentes PACA3 4 6
Rhône-Alpes8
1.2.3 Table de fréquences
On appelle fréquence (ou proportion) le rapport entre l’effectif d’une modalitéou d’une classe et l’effectif total :
fi =niN
On dresse donc des tables de fréquences :
Valeurs v1 v2 v3 · · · vkFréquences f1 f2 f3 · · · fk
ou
Valeurs [e1, e2[ [e2, e3[ [e3, e4[ · · · [ek, ek+1[Fréquences f1 f2 f3 · · · fk
Les fréquences sont toujours comprises entre 0 et 1 :
0 ≤ fi ≤ 1
C’est pourquoi on les exprime souvent en pourcentages.
La somme des fréquences est toujours égale à 1, c’est-à-dire à 100% si on
1.2. TABLEAUX STATISTIQUES 9
exprime les valeurs en pourcentage. En effet :
k∑i=1
fi = f1 + f2 + f3 + · · ·+ fk
=n1N
+n2N
+n3N
+ · · ·+ nkN
=1
N(n1 + n2 + n3 + · · ·+ nk)
=N
N= 1
La signification de la fréquence est la proportion, par rapport au nombretotal des observations, des individus pour lesquels la variable statistique prendla valeur vi ou appartient à la classe Ci. On peut écrire cette propriété de lamanière suivante :
fi = P (X = vi)
oufi = P (X ∈ Ci) = P (X ∈ [ei, ei+1[)
C’est cette propriété qui permet de faire le lien entre la statistique et lathéorie des probabilités. Les quantités fi s’appellent alors des fréquences em-piriques.
L’ensemble des couples (vi, fi) constitue une distribution statistique (distri-bution en fréquences par opposition à la distribution en effectifs). De toutesfaçons, il faut bien noter que les effectifs et les fréquences sont proportionnels :on passe de l’un à l’autre en multipliant ou en divisant par la même nombre N .
Exemple
On reprend les données concernant le nombre de pièces des résidences prin-cipales. Le nombre total d’observations est N = 27 347 626.
On obtient donc les proportions en divisant par N :
Nombre de pièces Effectifs Fréquences1 pièce 1 571 903 5,75%2 pièces 3 417 233 12,50%3 pièces 5 723 944 20,93%4 pièces 6 914 989 25,29%5 pièces 5 315 838 19,44%≥ 6 pièces 4 403 719 16,10%
Remarque : en anglais, le terme frequency désigne les effectifs et non pasles fréquences ! On a les équivalents suivants :
français anglaiseffectif frequency
fréquence proportion
10 CHAPTER 1. VARIABLES STATISTIQUES
1.2.4 Valeurs cumulées
On obtient les effectifs cumulés en additionnant successivement les valeurs deseffectifs de chaque modalité ou classe modale.
Cela suppose que la variable soit quantitative ou qualitative ordinale.
Exemple
On a observé le nombre d’enfants dans une population de 150 familles :
Nb d’enfants 0 1 2 3 4 5Effectifs 5 27 63 38 14 3
Effectifs cumulés 5 32 95 133 147 150
La dernière valeur cumulée est toujours égale à N (ici 150).De manière analogue, on obtient les fréquences cumulées en additionnant
successivement les valeurs des fréquences de chaque modalité ou classe modale.Cela suppose aussi que la variable soit quantitative ou qualitative ordinale.
Exemple
En reprenant l’exemple précédent, on obtient :
Nb d’enfants 0 1 2 3 4 5Effectifs 5 27 63 38 14 3
Fréquences 3,33% 18% 42% 25.33% 9.33% 2%Fréq. cumulées 3,33% 21,33% 63,33% 88,67% 98% 100%
La dernière valeur cumulée est toujours égale à 100%.La signification des fréquences cumulées est la proportion, par rapport au
nombre total des observations, des individus pour lesquels la variable statistiqueprend une valeur inférieure ou égale à vi ou appartient à la réunions des classesC1 à Ci, c’est-à-dire à l’intervalle [e1, ei+1[. On peut écrire cette propriété de lamanière suivante :
fi = P (X ≤ vi)
ou
fi = P (X ∈ ∪i1Cj) = P (X ∈ [e1, ei+1[)
Dans l’exemple précédent, 63,33% est la proportion de familles ayant au plus2 enfants.
Exemple
Reprenons les données concernant le nombre de pièces des résidences prin-cipales. Le nombre total d’observations est N = 27 347 626.
On obtient donc les proportions suivantes en divisant par N :
1.3. SOURCES STATISTIQUES 11
Nombre de pièces Effectifs Fréquences Fréquences cumulées1 pièce 1 571 903 5,75% 5,75%2 pièces 3 417 233 12,50% 18,25%3 pièces 5 723 944 20,93% 39,18%4 pièces 6 914 989 25,29% 64,47%5 pièces 5 315 838 19,44% 83,91%≥ 6 pièces 4 403 719 16,10% 100%
Ici 64,47% est la proportion de logements ayant au plus 4 pièces.On note souvent F (a) = P (X ≤ a) pour désigner la fréquence des observa-
tions inférieures ou égales à a.Le complément à 1 de cette fonction est
G(a) = 1− P (X ≤ a) = P (X > a)
C’est la fréquence des observations supérieures strictement à a.
Dans l’exemple précédent, on aurait :
1 2 3 4 5 694,25% 81,75% 60,82% 35,53% 16,09% 0%
Ici, 60.82% est la proportion de logements ayant au moins 4 pièces (stricte-ment plus que 3 pièces).
1.3 Sources statistiquesIl existe quelques sites qui fournissent des données statistiques très variées dansle domaine de l’économie, la démographie et la finance.
• INSEE, Institut national de la statistique et des études économiques :http://www.insee.fr
• Eurostats, banque de données de la Commission européenne :http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home
• Plateforme ouverte des données publiques françaises, banque de donnéesdu gouvernement :
http://www.data.gouv.fr
• OCDE, Organisation de Coopération et de Développement Économiques:
http://www.oecd.org/
• CAF, la Caisse d’Allocations Familiales :http://www.caf.fr/etudes-et-statistiques/donnees-statistiques
http://www.insee.frhttp://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/homehttp://www.data.gouv.frhttp://www.oecd.org/http://www.caf.fr/etudes-et-statistiques/donnees-statistiques
12 CHAPTER 1. VARIABLES STATISTIQUES
1.4 Logiciel statistiqueLe logiciel de calcul statistique R est libre et gratuit. On peut le télécharger àl’adresse suivante :
http://www.r-project.org
• C’est à la fois un outil de calcul numérique, un outil graphique et unlangage de programmation.
• Il permet de faire des statistiques descriptives aussi bien qu’inférentielleset de la modélisation.
• Il est extensible et peut être complété par des bibliothèques externes ou“packages”.
Reprenons l’exemple précédent sur le nombre d’enfants dans 150 familles.Les calculs avec R se font de la manière suivante :
> eff total prop cumul round(cumul,2)[1] 3.33 21.33 63.33 88.67 98.00 100.00
On trouvera une bibliographie succincte dans le document suivant :
Stats_bibliographie.pdf
http://www.r-project.org
Chapter 2
Représentations graphiques
2.1 IntroductionLa statistique descriptive a deux approches pour décrire un jeu de donnéesobservées :
1. une approche graphique qui a pour objectif de fournir des représentationsgraphiques permettant de visualiser la distribution des données.
2. une approche quantitative qui a pour but de calculer des indices numériquescaractérisant la répartition des données, les tendances, la dispersion, laconcentration, etc.
Le présent document passe en revue les principales représentations graphiquesutilisées dans les analyses statistiques et économiques ainsi que dans les arti-cles. Selon le type de variable statistique étudié, on a recours à des graphiquesdifférents.
2.2 Diagrammes à secteurs circulairesLes diagrammes à secteurs circulaires sont aussi appelés camemberts (ou pieen anglais). Ils conviennent pour représenter des variables qualitatives ou desvariables quantitatives discrètes. Il est préférable qu’il y ait un nombre restreintde modalités pour que le graphique reste lisible.
Ce sont des disques découpés en secteurs dont l’angle est proportionnel auxproportions (ou fréquences) de chaque modalité.
Le secteur total étant de 360◦, si fi est la fréquence de la i-ième modalité,on la représente par un secteur d’angle αi défini comme ceci :
αi = fi × 360 =niN× 360
13
14 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
Exemple
On utilise les données suivantes :Taux de réussite au baccalauréat en 2013 dans l’académie de LilleSi on isole les trois grands types de baccalauréats, on obtient les résultats
suivants :
Type Total Proportions AnglesBaccalauréat général 19 772 46.79% 168◦Baccalauréat technologique 9 043 21.40% 77◦Baccalauréat professionnel 13 439 31.81% 115◦
L’effectif total est 19 772 + 9 043 + 13 439 = 42 254.
Bac général
Bac techno
Bac pro
Ce diagramme représente les parts relatives de chacun des types de baccalau-réats.
Exercice 1
Réaliser un diagramme à secteurs circulaires pour les sous-catégoies du bac-calauréat général.
Corrigé
Les données sont les suivantes :
Type Effectifs Proportions AnglesLittéraires 2 889 14.61% 54◦
Sc. économiques et sociales 5 971 30.20% 108◦
Sc. Ecologie Agronomie 178 0.90% 4◦
Scientifiques SVT 9 916 50.15% 180◦
Sciences de l’Ingénieur 818 4.14% 14◦
Ensemble 19 772 100% 360◦
2.3. DIAGRAMMES EN BÂTONS 15
Littéraires
SES
Agronomie
SVT
Ingénieurs
Remarque :Les diagrammes à secteurs circulaires sont très populaires dans la presse
mais sont considérés comme extrêmement imprécis et même trompeurs. Eneffet, l’oeil humain a du mal à apprécier les différences de taille angulaire etdes expériences ont montré qu’on pouvait facilement être abusé par des effetsd’optique dus à la position du diagramme ou aux couleurs utilisées...
2.3 Diagrammes en bâtons
Les diagrammes en bâtons s’appellent aussi des diagrammes à bandes. Ils convi-ennent pour représenter des variables qualitatives ou des variables quantitativesdiscrètes. Il est préférable qu’il y ait un nombre restreint de modalités pour quele graphique reste lisible.
Les modalités sont représentées en abscisse et les effectifs correspondantssont représentés par des lignes ou des bandes verticales dont la hauteur estproportionnelle à la valeur.
C’est donc la hauteur des lignes ou des bandes qui permet d’apprécier lestailles relatives des différentes modalités. Les diagrammes en bâtons sont plusfaciles à lire que les diagrammes circulaires.
Dans le cas d’une variable qualitative, la position des modalités en abscissen’a pas de signification particulière. Si la variable est ordinale, on placera lesmodalités dans leur ordre naturel.
Exemple
16 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
Reprenons l’exemple des catégories du baccalauréat. On obtient le dia-gramme suivant :
général techno pro
05000
10000
15000
On peut aussi faire les diagrammes en proportions plutôt qu’en effectifs:
général techno pro
0.0
0.1
0.2
0.3
0.4
Fréquences et effectifs étant proportionnels (dans le rapport N), l’aspect vi-suel est rigoureusement identique. Seules changent les valeurs sur l’axe vertical.
Un avantage des diagrammes en bâtons par rapport aux diagrammes circu-laires est qu’ils permettent de représenter plusieurs distributions en parallèle.
Pour une même modalité, on peut placer côte à côte plusieurs lignes oubandes verticales, correspondant à des sous-ensembles différents.
Un autre mode de représentation consiste à empiler les valeurs verticalementen faisant plusieurs segments.
Exemple
Le tableau suivant donne les proportions de réussite au baccalauréat dansl’académie de La Réunion pour les filles et les garçons de 2005 à 2011.
2.3. DIAGRAMMES EN BÂTONS 17
Année 2005 2006 2007 2008 2009 2010Filles 60,1 59,7 63,8 63,3 65,5 65,9
Garçons 42,8 44,2 43,5 47,1 48,4 49,4
Les valeurs sont exprimées en pourcentage.Dans le diagramme suivant les valeurs sont placées côte à côte.
2005 2006 2007 2008 2009 2010
Taux de réussite filles/garçons au bac
Académie de La Réunion
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Dans le diagramme suivant les valeurs sont empilées verticalement.
2005 2006 2007 2008 2009 2010
Taux de réussite filles/garçons au bac
Académie de La Réunion
0.0
0.2
0.4
0.6
0.8
1.0
La ligne brisée qui joint les sommets des bâtons s’appelle polygône des ef-fectifs. Par exemple, en reprenant les taux de réussite au bac chez les filles, onobtient le diagramme suivant :
18 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
2005 2006 2007 2008 2009 2010
0.4
00.4
50.5
00.5
50.6
00.6
50.7
0
Taux de réussite des filles au bac
Académie de La Réunion
2.4 Diagrammes d’effectifs cumulés
Les diagrammes d’effectifs cumulés représentent la répartition de la distributiondes effectifs.
Pour chaque modalité, on place en ordonnées la valeurs des fréquences (ouparfois des effectifs) cumulées.
On représente la progression par une fonction en escaliers. Les fréquencesconstituent les paliers.
Ce type de graphique n’a de sens que si les modalités sont ordonnées.
Exemple
Reprenons les données concernant le nombre de pièces des résidences prin-cipales. On avait les effectifs et proportions suivants :
Nombre de pièces Effectifs Fréquences Fréq. cumulées1 pièce 1 571 903 5,75% 5,75%2 pièces 3 417 233 12,50% 18,25%3 pièces 5 723 944 20,93% 39,18%4 pièces 6 914 989 25,29% 64,47%5 pièces 5 315 838 19,44% 83,91%≥ 6 pièces 4 403 719 16,10% 100%
2.5. HISTOGRAMMES 19
1 2 3 4 5 6 7
020
40
60
80
100
Diagramme de fréquences cumulées
Nombre de pièces dans résidence principales
Pourc
enta
ges
2.5 Histogrammes
Les histogrammes sont des graphiques qui permettent de visualiser les propor-tions au moyen de rectangles verticaux. Ils concernent les variables quantita-tives discrètes ou les variables quantitatives continues qu’on regroupe en classescontiguës.
Un histogramme peut être dessiné en effectifs ou en fréquences : comme cesont des grandeurs proportionnelles, cela ne change pas l’allure du graphiquemais seulement les valeurs portées sur l’axe vertical. Dans un contexte derecherche de densités, on préfèrera un histogramme en fréquences.
Voici un histogramme correspondant à des notes obtenues à un examen par1000 étudiants.
20 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
Histogramme en effectifs de 1000 notes
Notes
Effectifs
0 5 10 15 20
050
100
150
200
250
Histogramme en fréquences de 1000 notes
Notes
Effectifs
0 5 10 15 20
0.0
00.0
20.0
40.0
60.0
80.1
00.1
2
Le principe de construction d’un histogramme consiste à découper les don-nées en classes et à dessiner des rectangles dont la surface est proportionnelleaux effectifs (ou aux fréquences).
La base des rectangles correspond à chaque intervalle [ei, ei+1[. La largeurde ces intervalles est l’amplitude ai = ei+1 − ei.
Si on désigne la hauteur par hi, la surface du rectangle est alors
Si = ai × hi
Cette valeur doit correspondre à l’effectif ni (pour un histogramme en effec-tifs) ou à la fréquence fi (pour un histogramme en fréquences).
2.5. HISTOGRAMMES 21
hi
aiei ei+1
ni ∝ ai × hi
La surface représente l’effectif
On a relevé le loyer annuel de 500 domiciles d’une agglomération et obtenule tableau d’effectifs suivant :
Classes Effectifs[4,5[ 13[5,6[ 56[6,8[ 224[8,10[ 115[10,12[ 46[12,14[ 29[14,16[ 15[16,18[ 2
Les loyers sont indiqués en milliers d’euros et répartis en classes.
22 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
4000 6000 8000 10000 12000 14000 16000 18000
050
100
150
200
250
Histogramme des loyers
On remarque que les deux premières classes ont une amplitude de 1 (c’est-à-dire 1000 euros) tandis que les suivantes ont une amplitude de 2 (c’est-à-dire2000 euros).
Cela a pour conséquence que les deux premiers rectangles sont deux fois plushauts et en particulier que le deuxième et le quatrième ont approximativementla même hauteur. En effet le deuxième correspond à la valeur n2 = 56 qui a étémultipliée par 2, à savoir 112, tandis que le quatrième correspond à la valeurn4 = 115.
Dans le cas d’un histogramme en fréquences (ou proportions), la surface Sis’interprète comme la fréquence fi c’est-à-dire la proportion des observationsqui se trouvent dans l’intervalle [ei, ei+1[.
On peut écrire :
Si = P (ei ≤ X < ei+1)
L’intérêt de cette représentation est qu’on peut représenter la proportiond’observations qui sont dans plusieurs intervalles contigus en additionnant lessurfaces des rectangles correspondants.
Par exemple, dans le diagramme suivant, la zone hachurée correspond à laproportion P (5000 ≤ X < 10000) où X est le loyer.
2.5. HISTOGRAMMES 23
4000 6000 8000 10000 12000 14000 16000 18000
050
100
150
200
250
P(5000 < loyer < 10000)
Interprétation des hauteurs
La grande différence entre les diagrammes en bâtons et les histogrammes estque dans les premiers ni est représenté en hauteur tandis que, dans les seconds,il est représenté en surface.
Quelle est alors la signification de la hauteur dans un histogramme ?
On a
ni ∝ ai × hi =⇒ hi ∝niai
Le rapport di =niai
est la densité de la classe Ci. Donc lorsqu’un rectan-
gle est plus haut qu’un autre, c’est que la densité de son intervalle est plusgrande, autrement dit qu’il comporte plus de données à amplitude égale. Leshistogrammes appréciés en hauteur donnent un aperçu de la densité de réparti-tion des données.
24 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
4000 6000 8000 10000 12000 14000 16000 18000
050
100
150
200
250
Histogramme des loyers
Le rectangle en pointillés représente la fusion des deux premières classes.Leur effectif cumulé est de 13 + 56 = 69 et le rectangle a donc une hauteurde 69 pour une amplitude de 2000. Précédemment on avait deux rectangles dehauteurs respectives 2× 13 = 26 et 2× 56 = 112.
2.6 Polygônes de fréquence
On obtient le polygône de fréquence en joignant, par une ligne polygonale, lespoints situés au milieu des arêtes supérieures des rectangles.
Ces graphiques permettent de visualiser les densités au moyen d’une lignecontinue plutôt que par des paliers. L’effet obtenu est de lisser les créneaux des
2.6. POLYGÔNES DE FRÉQUENCE 25
histogrammes.
4000 6000 8000 10000 12000 14000 16000 18000
050
100
150
200
250
Polygône de fréquences
4000 6000 8000 10000 12000 14000 16000 18000
050
100
150
200
250
Polygône de fréquences
On utilise cette technique pour des histogrammes dont les rectangles onttous la même amplitude. En effet, dans ce cas, la surface située sous la courbepolygonale est la même que celle des rectangles.
On voit sur les graphiques suivants comment les aires des triangles délimitéspar les rectangles de l’histogramme et la ligne polygonale se compensent.
26 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
L’interprétation de la surface située sous le polygône de fréquences entre desbornes a et b est la proportion
P (a ≤ X < b)
de données appartenant à l’intervalle [a, b[.
2.7 Diagrammes de dispersion
Les diagrammes de dispersion servent à représenter les corrélations qui peuventexister entre des observations portant sur deux variables différentes. Si x et ysont les deux variables observées, pour chaque observation Oi, on place le pointde coordonnées (xi, yi).
L’ensemble des points obtenus s’appelle un nuage.
Le graphique qui suit est un diagramme de dispersion correspondant àdeux variables x et y distribuées uniformément. Cela signifie simplement queles valeurs observées pour chacune des deux variables sont équiréparties surl’intervalle où elles sont définies.
On voit que les points obtenus sont uniformément répartis dans le carré. Cetexemple est typique de l’absence de corrélation entre les variables x et y.
2.7. DIAGRAMMES DE DISPERSION 27
0 20 40 60 80 100
020
40
60
80
100
Diagramme de dispersion uniforme
x
y
Les deux graphiques qui suivent sont des diagrammes de dispersion corre-spondant à deux variables x et y distribuées. Cette notion sera vue avec précisionpar la suite, mais ici cela signifie simplement que les observations sont masséesautour d’une valeur centrale et qu’elles se raréfient quand on s’en éloigne.
Le deuxième graphique ajoute justement des petits traits (le long des axes)qui matérialisent la répartition des x et des y.
On voit que les points obtenus sont uniformément répartis autour d’un pointcentral. Cet exemple est typique de l’absence de corrélation entre les variablesx et y.
28 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
5 10 15
510
15
20
Diagramme de dispersion ’normale’
x
y
5 10 15
510
15
20
Diagramme de dispersion ’normale’
x
y
5 10 15
L’exemple qui suit est un diagramme qui suggère une corrélation positiveentre les x et les y. Le nuage de points semble orienté dans une directionparticulière.
On verra par la suite comment calculer une droite qui ajuste au plus prèsles points du nuage. C’est ce qu’on appelle une droite de régression.
5 10 15
10
20
30
40
50
Diagramme de dispersion corrélé
x
y
5 10 15
10
20
30
40
50
Diagramme de dispersion corrélé
x
y
2.7. DIAGRAMMES DE DISPERSION 29
On peut généraliser la notion de diagramme de dispersion au cas de jeux dedonnées comportant plus de deux variables.
On présente sur un même graphique les diagrammes de dispersion établispar paires de variables.
C’est un moyen d’explorer ce type de jeux de données en recherchant vi-suellement si certaines variables semblent corrélées ou pas.
Sur la diagonale, on indique le nom des variables. Ce graphique est symétriquepar rapport à la première diagonale.
Exemple
On utilise le jeu de données suivant appelé airquality : Table de donnéesmétéorologiques
Il est constitué de mesures relatives à la qualité de l’air relevées à l’aéroportLa Guardia de New York entre le 1er mai et de 30 septembre 1973.
Il comporte 153 observations portant sur les 6 variables suivantes :
Ozone Taux d’ozone en ppb (parts per billion)Solar.R Rayonnement solaire (langleys)Wind Vitesse du vent (miles par heure)Temp Température (degrés Fahrenheit)Month Mois (entre 1 et 12)Day Jour du mois (entre 1 et 31)
Ozone
0 100 200 300 60 70 80 90
050
10
015
0
01
00
20
030
0
Solar.R
Wind
51
015
20
0 50 100 150
60
70
80
90
5 10 15 20
Temp
30 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
2.8 Courbes d’évolution
Ce sont des diagrammes qui sont utilisés pour représenter des données qui évolu-ent dans le temps. On parle dans ce cas de séries temporelles ou données longi-tudinales.
Le graphique suivant représente l’évolution des températures dans le jeu dedonnées météorologiques.
Températures
Mai − Septembre 1973
Degré
s F
ahre
nheit
1973.4 1973.5 1973.6 1973.7
60
70
80
90
On peut représenter en parallèle plusieurs de ces graphiques comme surl’exemple suivant où on peut suivre l’évolution séparément du taux d’ozone, durayonnement solaire, de la vitesse du vent et de la température.
On observera qu’il y a des trous par endroits. Ceux-ci correspondent auxdonnées manquantes.
2.8. COURBES D’ÉVOLUTION 31
050
10
01
50
Ozone
01
00
200
30
0
Sola
r.R
51
01
52
0
Win
d
60
70
80
90
1973.4 1973.5 1973.6 1973.7
Tem
p
Mai − Septembre 1973
Air quality
Enfin on peut parfois représenter plusieurs courbes sur un même graphiqued’évolution mais cela n’est pas toujours lisible si jamais les courbes s’entrecoupent.Cela pause aussi un problème d’échelle car les intervalles de valeurs peuvent dif-férer considérablement entre différentes variables. La solution dans ce cas est deprésenter les données comme des variations par rapport à une base commune.On choisit en général une “base 100” pour la première observation et on ajusteles autres données par rapport à cette base.
Reprenons l’exemple des taux de réussite au baccalauréat dans l’académiede La Réunion, pour les filles et les garçons, de 2005 à 2011.
Le graphe suivant montre l’évolution de ce taux pour les filles et pour lesgarçons séparément.
32 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES
2005 2006 2007 2008 2009 2010
40
45
50
55
60
65
70
Baccalauréat à La Réunion
Taux d
e r
éussite
Filles
Garçons
Exercice 2
La table suivante indique le mode de cohabitation des 18-24 ans en Franceen 2011.
a) Faire un diagramme circulaire représentant les proportions des diversescatégories.
b) Faire un diagramme en bâton représentant les répartitions.c) Faire un diagramme en bâton représentant les répartitions en distinguant
les femmes et les hommes.
Mode de cohabitation Effectifs RépartitionEnsemble Hommes Femmes
Enfant d’un couple 2 053,2 36,7 41,0 32,3Enfant de famille monoparentale 774,8 13,8 15,5 12,2
En couple sans enfant 708,4 12,7 9,3 16,1En couple avec enfants 259,9 4,6 2,7 6,6
Parent de famille monoparentale 76,0 1,4 0,1 2,6En ménage avec d’autres 527,0 9,4 9,7 9,2
Seul 883,7 15,8 14,9 16,7Hors ménage 312,2 5,6 6,8 4,3
Total 5 595,1 100,0 100,0 100,0
Chapter 3
Indicateurs de tendance
3.1 IntroductionLa statistique descriptive définit des indices ou indicateurs permettant de ré-sumer quantitativement les valeurs observées d’un caractère. On distingue lestypes suivants :
• les indicateurs de position
• les indicateurs de tendance centrale
• les indicateurs de dispersion
• les indicateurs de concentration
On étudiera aussi des indicateurs de prix qui jouent un rôle important enéconomie.
Hormis les caractéristiques de position, les autres indicateurs ne concernentque les variables quantitatives car ils sont calculés à partir des valeurs du car-actère.
3.2 Caractéristiques de positionLes indicateurs de position fournissent des renseignements sur des variables aussibien qualitatives que quantitatives.
Les caractéristiques de position sont de deux types :
• certaines sont relatives aux effectifs : mode et classe modale ;
• d’autres sont relatives au rang occupé par les observations les unes parrapport aux autres plutôt qu’à leur valeur.
Remarque : dans le cas d’une variable qualitative, il faut qu’elle soit or-dinale, c’est-à-dire qu’on puisse ordonner les valeurs du caractère, si on veutpouvoir parler de rang.
33
34 CHAPTER 3. INDICATEURS DE TENDANCE
3.2.1 Mode
Le mode concerne les variables qualitatives ou quantitatives discrètes. Dans cecas, on dresse la table des effectifs qui dénombre les observations correspondantà chaque modalité.
Par définition, le mode est la valeur (ou la modalité) de la variable quia l’effectif le plus élevé. Sur un diagramme en bâtons, c’est la modalité quicorrespond au bâton le plus haut.
Exemple 1
Une enquête de satisfaction a attribué une note entre 1 et 10 pour évaluerla qualité d’un service. Les résultats sont les suivants :
Note 1 2 3 4 5 6 7 8 9 10Effectifs 5 3 4 7 8 10 15 11 6 6
Il s’agit d’une variable quantitative discrète. Le mode est 7.
Le diagramme en bâtons fait clairement apparaître le mode.
1 2 3 4 5 6 7 8 9 10
02
46
810
12
14
Exemple 2
Ménages selon la structure familiale.
Données INSEE pour 2011 (RP2011).
3.2. CARACTÉRISTIQUES DE POSITION 35
Type de ménage en milliersMénages composés uniquement
d’un homme seul 4 032,2d’une femme seule 5 529,5
d’un couple sans enfant 7 250,4d’un couple avec enfant(s) 7 435,6d’une famille monoparentale 2 345,2
Ici les données sont en effectifs. Il s’agit d’une variable qualitative. Le modeest “couple avec enfant(s)”.
Exemple 3
Répartition des résidences principales par statut d’occupation (en %).Données INSEE pour 2013.
Propriétaires 57,9Locataires 39,1Autres 3,0
Ici les données sont en proportion. Il s’agit d’une variable qualitative. Lemode est “Propriétaires”.
Remarque :Le mode n’est pas nécessairement unique. La notion de maximum est une
propriété dite locale plutôt que globale. Si le diagramme en bâtons a la formesuivante, on voit apparaître deux modes et on dit, dans ce cas, que la distributionest bimodale.
1 2 3 4 5 6 7 8 9 10
02
46
810
12
14
3.2.2 Classe modaleLa classe modale concerne les variables quantitatives continues. Dans ce cas, onregroupe les données en classes et on dresse la table des effectifs qui dénombreles observations entrant dans chacune des classes.
36 CHAPTER 3. INDICATEURS DE TENDANCE
On distingue alors deux cas :• si les classes sont d’amplitude égale, la classe modale est celle qui a le plus
grand effectif.• si les classes ne sont pas d’amplitude égale, on ramène tout à une amplitude
commune en divisant les fréquences par la longueur des intervalles. On calculedonc les densités de chaque classe :
di =niai
Par définition, la classe modale est celle de plus forte densité. Graphique-ment, on la repère sur un histogramme comme étant celle dont le rectangle estle plus haut.
Exemple
Une entreprise s’intéresse à la distance parcourue par les employés entre ledomicile et le lieu de travail. On a noté les effectifs suivants :
Kilométrage [0,10[ [10,20[ [20,30[ [30,40[ [40,50[ [50,60[ [60,70[Effectifs 14 23 32 21 12 8 4
Ici toutes les classes sont de même amplitude. La classe modale est [20, 30[.
Exemple
Répartition par âge des salariés de 15 ans ou plusDonnées INSEE RP2011.
Âge Effectif Amplitude Densité15 à 19 ans 487 944 4 121 986,020 à 24 ans 1 950 777 4 487 694,225 à 39 ans 8 911 762 14 636 554,440 à 54 ans 9 483 149 14 677 367,855 à 64 ans 2 722 458 9 302 495,3
65 ans ou plus 149 400 5 29 880,0
Les classes sont de longueur inégale. On doit calculer les amplitudes et lesdensités.
La classe modale est celle des “40 à 54 ans”.
Remarque :dans la table précédente, on a fixé l’amplitude de la classe des “65 ans et
plus” à 5. C’est ce qu’on appelle une estimation a maxima. On ne peut pasdire quel est l’âge maximum d’un salarié mais on sait qu’il existe des salariésde 70 ans, donc la borne supérieure est au moins de 70 et, en divisant par cetteamplitude (70-65=5), on obtient une valeur qui est un majorant la densité.
3.2. CARACTÉRISTIQUES DE POSITION 37
3.2.3 MédianeLa notion de médiane concerne les variables quantitatives.
Définition 3.2.1. La médiane est une quantité qui partage les observations endeux groupes de même taille.
C’est donc une valeur M (parfois aussi notée Me) telle qu’il y ait 50% desobservations pour lesquelles le caractère observé X est inférieur à M et 50%des observations pour lesquelles le caractère observé X est supérieur à M .
On peut écrire :P (X ≤M) = 0.5
On reconnaît la définition des proportions cumulées.
Exemple 1
On a relevé les notes de 9 étudiants à un examen :
11,5 7 16 14 8,5 10,5 13 11 5
Pour trouver la médiane, il faut commencer par ordonner les notes :
5 7 8,5 10,5 11 11,5 13 14 16
La valeurM = 11 est la médiane car elle sépare les données en deux groupesde même taille.
Exemple 2
On ajoute un dixième étudiant qui a obtenu 12 :
11,5 7 16 14 8,5 10,5 13 11 5 12
On ordonne les notes :
5 7 8,5 10,5 11 11,5 12 13 14 16
Les valeurs 11 et 11,5 constituent l’intervalle médian. On prend commemédiane le milieu de cet intervalle, à savoir M = 11, 25.
Exemple 3
Cas d’une variable continueExploitations agricoles selon la superficie agricole utilisée (SAU) en 2010.Source INSEE. Les effectifs sont indiqués en milliers.
SAU Effectifs Proportions Prop. cumuléesMoins de 20 ha 235,4 45.74 45.74
De 20 à moins de 50 ha 88,4 17.18 62.92De 50 à moins de 100 ha 97,6 18.96 81.88De 100 à moins de 200 ha 72,7 14.12 96.00
200 ha ou plus 20,6 4.00 100Total 514,7
38 CHAPTER 3. INDICATEURS DE TENDANCE
On cherche où se situe la proportion cumulée de 50%. D’après la tableau,c’est entre 45.74% et 62.92%.
Il faut faire une interpolation linéaire.L’interpolation linéaire consiste à chercher la valeur M qui soit par rapport
à 20 et 50 comme la valeur 50% par rapport à 45.74% et 62.92%.
SAU Prop. cumulée20 ha 45.74%M ? 50%50 ha 62.92%
Graphiquement, on représente le problème de la manière suivante :
0 10 20 30 40 50 60
30
40
50
60
70
80
SAU
Pro
port
ion c
um
ulé
e
M20 50
45.74 %
62.92 %
50 %
50 − 45.74
62.92 − 45.74=
M − 20
50 − 20
On calcule50− 45.74
62.92− 45.74=M − 2050− 20
On en déduit :4.26
17.18=M − 20
30
Finalement :
M = 20 +4.26× 30
17.18= 20 + 7.44 = 27.44 ha
3.2.4 Quartiles
La notion de quartiles concerne les variables quantitatives.
3.2. CARACTÉRISTIQUES DE POSITION 39
Définition 3.2.2. Les quartiles sont trois quantités qui partagent les observa-tions en quatre groupes de même taille.
Ce sont donc des valeurs, habituellement notées Q1, Q2 et Q3, telles qu’ily ait 25% des observations pour lesquelles le caractère observé X soit comprisdans les intervalles qu’elles délimitent. Plus précisément, on a :
P (X < Q1) = 0.25
P (Q1 < X < Q2) = 0.25
P (Q2 < X < Q3) = 0.25
P (X > Q3) = 0.25
En utilisant les proportions cumulées, c’est équivalent à dire que :
P (X < Q1) = 0.25
P (X < Q2) = 0.50
P (X < Q3) = 0.75
On en déduit, en particulier, que le quartile Q2 n’est autre que la médiane :
Q2 = M
L’intervalle [Q1, Q3] concentre 50% des observations :
P (Q1 < X < Q3) = 0.50
Exemple 1
Cet exemple a déjà été vu dans la séance 01. On a relevé les poids suivants(en kg) parmi 100 individus :
64 85 79 84 68 74 94 75 64 6572 74 78 69 67 64 70 63 69 8262 64 71 74 77 73 77 76 82 8286 48 50 69 76 59 70 61 55 7773 81 76 56 63 84 63 57 76 8662 70 69 66 63 90 72 73 73 7675 70 68 66 74 66 52 66 81 5777 79 55 69 78 60 85 70 67 6476 78 65 81 69 76 72 71 74 5867 76 74 78 79 69 92 64 73 65
On doit d’abord ordonner les poids :
40 CHAPTER 3. INDICATEURS DE TENDANCE
48 50 52 55 55 56 57 57 58 5960 61 62 62 63 63 63 63 64 6464 64 64 64 65 65 65 66 66 6666 67 67 67 68 68 69 69 69 6969 69 69 70 70 70 70 70 71 7172 72 72 73 73 73 73 73 74 7474 74 74 74 75 75 76 76 76 7676 76 76 76 77 77 77 77 78 7878 78 79 79 79 81 81 81 82 8282 84 84 85 85 86 86 90 92 94
On a fait apparaître les valeurs situées en positions 25-26, 50-51 et 75-76.Ce sont des intervalles quartiles. Il faut en prendre le milieu. Par exemple,{
poids[25] = 65
poids[26] = 65=⇒ Q1 = 65
{poids[50] = 71
poids[51] = 72=⇒ Q2 = 71, 5
De même, on trouve Q3 = 77. On peut dire que 50% des personnes observéespèsent entre 65 et 77 kilos.
Exemple 2
Distribution du revenu salarial annuel par sexe ou catégorie socioprofession-nelle sur l’ensemble des salariés en 2010.
Source INSEE (DADS 2010 définitif). Montants en euros courants.
Q1 Q2 Q3Ensemble 9 370 17 510 24 590Femmes 7 930 15 910 22 270Hommes 11 460 19 060 26 820Cadres 24 420 33 650 46 350
Professions intermédiaires 16 130 22 400 27 870Employés 6 010 14 060 18 640Ouvriers 7 410 15 580 20 000
3.2.5 Déciles et centilesDéfinition 3.2.3. Les déciles sont 9 quantités qui partagent les observationsen 10 groupes de même taille (contenant chacun 10% des observations).
On les notes usuellement D1, D2, . . . , D9. L’intervalle [D1, D9] concentre80% des observations. On remarque que le 5ème décile est la médiane: D5 = M .
Définition 3.2.4. Les centiles sont 99 quantités qui partagent les observationsen 100 groupes de même taille (contenant chacun 1% des observations).
3.3. INDICATEURS DE TENDANCE CENTRALE 41
On les notes usuellement C1, C2, . . . , C99 ou aussi parfois P1, P2, . . . , P99 (caren anglais on dit “percentile”). On a C50 = M .
Exemple
On reprend l’exemple de la distribution du revenu salarial annuel par sexe oucatégorie socioprofessionnelle sur l’ensemble des salariés en 2010. Les donnéesde l’INSEE donnent les valeurs suivantes pour les principaux déciles :
D1 D5 D9Ensemble 2 360 17 510 34 600Femmes 1 970 15 910 30 070Hommes 2 840 19 060 39 110Cadres 10 840 33 650 66 600
Professions intermédiaires 6 310 22 400 33 660Employés 1 450 14 060 22 980Ouvriers 1 910 15 580 24 190
La médiane, les quartiles, les déciles et les centiles s’appellent de manièregénérale des quantiles.
En généralisant leur définition on obtient la notion de quantile d’ordre α%.C’est une quantité qα telle que α% des valeurs observées soient inférieures à qα.
Autrement dit, on écrit :
P (X < qα) = α/100
si α est exprimé en pourcentage.
3.3 Indicateurs de tendance centrale
Dans tout ce qui suit, on définira les indicateurs dans deux cas de figures selonla manière dont sont présentées les données :
• sous forme de données exhaustives (on dit aussi des données individuelles);
• sous forme de données regroupées dans des tableaux d’effectifs ou destableaux de fréquences (on dit aussi des données en classes).
3.3.1 Moyenne arithmétique
La valeur centrale la plus simple est la moyenne arithmétique. Si les donnéessont disponibles sous forme exhaustive, c’est la somme des valeurs divisée parle nombre total d’observations :
m =x1 + x2 + · · ·+ xN
N
42 CHAPTER 3. INDICATEURS DE TENDANCE
Cette moyenne est aussi notéem1 ou encore x̄ où x est le “vecteur” contenanttoutes les valeurs observées.
Exemple
20 étudiants ont passé un test noté entre 0 et 5 et on a relevé les notessuivantes :
2 3 1 4 3 2 3 3 3 2 4 3 2 0 4 2 2 4 3 3
La moyenne est :
m =2 + 3 + 1 + 4 + 3 + 2 + 3 + 3 + 3 + 2 + 4 + 3 + 2 + 0 + 4 + 2 + 2 + 4 + 3 + 3
20
=53
20= 2, 65
Si on ordonne ces notes par ordre croissant, le calcul précédent peut s’écrirede la manière suivante :
m =0 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4
20
=0 + 1 + (2 + 2 + 2 + 2 + 2 + 2) + (3 + 3 + 3 + 3 + 3 + 3 + 3 + 3) + (4 + 4 + 4 + 4)
20
=1× 0 + 1× 1 + 6× 2 + 8× 3 + 4× 4
20
=1 + 12 + 24 + 16
20
=53
20= 2, 65
Cette écriture correspond à la table des effectifs associée à ces notes :
Notes 0 1 2 3 4Effectifs 1 1 6 8 4
On aboutit donc à l’autre formule permettant de calculer la moyenne arith-métique lorsque les données sont regroupées dans une table d’effectifs de la forme:
Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk
La formule s’écrit :
m =n1v1 + n2v2 + · · ·+ nkvk
N
avec N = n1 + n2 + · · ·+ nk.
Exercice 3
On a relevé pendant un mois dans une entreprise le nombre d’absences ré-sultant d’arrêts-maladies :
3.3. INDICATEURS DE TENDANCE CENTRALE 43
Durée en jours 1 2 3 4 5 6 7 8Effectifs 7 9 4 4 6 5 2 1
Calculer la durée moyenne d’un arrêt-maladie.
CorrigéL’effectif total est de 38. On applique la formule en données regroupées :
m =7× 1 + 9× 2 + 4× 3 + 4× 4 + 6× 5 + 5× 6 + 2× 7 + 1× 8
38
=135
38
≈ 3, 55
En partant de la formule en données regroupées et en divisant chaque termepar N , on obtient :
m =n1v1 + n2v2 + · · ·+ nkvk
N
=n1Nv1 +
n2Nv2 + · · ·+
nkNvk
= f1v1 + f2v2 + · · ·+ fkvk
où fi = niN est la fréquence.Donc, lorsqu’on a un tableau de proportions (et non plus d’effectifs), la
formule pour la moyenne est :
m = f1v1 + f2v2 + · · ·+ fkvk
Dans le cas d’une variable continue regroupée en classes, on utilise les milieuxdes classes pour faire les calculs.
Exemple
Le tableau suivant donne la répartition des employés d’une entreprise selonle salaire mensuel en milliers d’euros. Calculer la moyenne.
[1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150vi 1.75 2.25 2.75 3.25 3.75 4.5nivi 54.25 76.50 110 84.50 48.75 27 401
Les vi sont les milieux des classes.
m =1
150
(31× 1.75 + 34× 2.25 + 40× 2.75 + 26× 3.25
+ 13× 3.75 + 6× 4.5)
=401
150= 2.67
44 CHAPTER 3. INDICATEURS DE TENDANCE
3.3.2 Moyenne géométriqueLa moyenne géométrique intervient lorsqu’on a affaire à des grandeurs qui sontpar essence multiplicatives. L’exemple le plus courant est celui des coefficientsmultiplicateurs qui permettent de calculer l’évolution d’une grandeur soumise àun taux d’accroissement.
Il faut que les valeurs soient des nombres positifs.Dans le cas de données exhaustives, la formule s’écrit :
m0 =(x1x2 . . . xN
) 1N
= N√x1x2 . . . xN
Avec des données regroupées dans un tableau d’effectifs, la formule s’écritde la manière suivante :
m0 =(vn11 v
n22 . . . v
nkk
) 1N
= N√vn11 v
n12 . . . v
nkk
Exercice 4
Les dépenses de consommation des ménages au cours des deux dernierstrimestres de 2013 et des deux premiers trimestres de 2014 ont évolué de lamanière suivante :
2013 T3 2013 T4 2014 T1 2014 T2Conso. ménages -0,1% 0,2% -0,5% 0,5%
Source : note de conjoncture INSEE.
Montrer que le coefficient multiplicateur moyen est la moyenne géométriquedes coefficients multiplicateurs de chaque trimestre.
Corrigé
Pour un taux d’accroissement r, le coefficient multiplicateur est (1 + r). Onapplique donc successivement les taux multiplicateurs en multipliant par :
(1− 0, 1/100)× (1 + 0, 2/100)× (1− 0, 5/100)× (1 + 0, 5/100)= (1− 0, 001)× (1 + 0, 002)× (1− 0, 005)× (1 + 0, 005)= 0, 999× 1, 002× 0, 995× 1, 005 = 1, 000973
Si on appelle t le taux trimestriel moyen, le coefficient multiplicateur est(1 + t) et on doit avoir, sur quatre mois :
(1 + t)4 = 0, 999× 1, 002× 0, 995× 1, 005
et donc1 + t =
(0, 999× 1, 002× 0, 995× 1, 005
)1/4C’est bien la formule de la moyenne géométrique. Numériquement on trouve :
1 + t = 1, 000243 =⇒ t = 0, 000243 = 0, 0243%
C’est quasiment stable (t ≈ 0%).
3.3. INDICATEURS DE TENDANCE CENTRALE 45
3.3.3 Moyenne quadratiqueLa moyenne quadratique intervient lorsqu’on a affaire à des grandeurs qui sontpar essence des carrés d’une certaine quantité. L’exemple le plus courant estcelui des surfaces. Elle est notée en général m2.
Il s’agit de prendre la moyenne des carrés des valeurs. Mais comme ons’attend à ce qu’une moyenne soit exprimée dans la même unité que les grandeurselles-mêmes, il faut prendre la racine carrée du résultat.
La formule pour des données exhaustives est :
m2 =
(x21 + x
22 + · · ·+ x2NN
) 12
=
√x21 + x
22 + · · ·+ x2NN
Pour des données regroupées en tableau d’effectifs, la formule devient :
m2 =
(n1v
21 + n2v
22 + · · ·+ nkv2kN
) 12
=
√n1v21 + n2v
22 + · · ·+ nkv2kN
Pour des données regroupées en tableau de fréquences, la formule devient :
m2 =(f1v
21 + f2v
22 + · · ·+ fkv2k
) 12 =
√f1v21 + f2v
22 + · · ·+ fkv2k
Exercice 5
Un paysan possède 5 parcelles carrées dont le côté mesure respectivement
1,2 1,5 2,3 4,7 5,1
Il voudrait les échanger contre cinq parcelles carrées identiques pour unemême surface totale. Monter que l’arête des nouvelles parcelles est la moyennequadratique des 5 arêtes.
Attention : l’arête des nouvelles parcelles n’est pas la moyenne arithmé-
tique des cinq arêtes1, 2 + 1, 5 + 2, 3 + 4, 7 + 5, 1
5= 2.96.
Corrigé
Si a est l’arête recherchée, on doit avoir, en écrivant l’égalité des surfaces :
5 a2 = 1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12
On en déduit :
a2 =1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12
5
et donc :
a =
(1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12
5
)1/2
46 CHAPTER 3. INDICATEURS DE TENDANCE
ce qui est bien la formule de la moyenne quadratique.Les calculs donnent
a =
(1, 44 + 2, 25 + 5, 29 + 22, 09 + 26, 01
5
)1/2=
√57, 08
5≈ 3, 38
3.3.4 Moyenne d’ordre pLa moyenne quadratique se généralise sans difficulté au cas de la puissance p(au lieu de la puissance 2). On obtient alors la moyenne d’ordre p qui est notéeen général mp.
Il s’agit de prendre la moyenne des puissances p-ièmes des valeurs. Maiscomme on s’attend à ce qu’une moyenne soit exprimée dans la même unité queles grandeurs elles-mêmes, il faut prendre la racine p-ième du résultat.
La formule pour des données exhaustives est :
mp =
(xp1 + x
p2 + · · ·+ x
pN
N
) 1p
=p
√xp1 + x
p2 + · · ·+ x
pN
N
Pour des données regroupées en tableau d’effectifs, la formule devient :
mp =
(n1v
p1 + n2v
p2 + · · ·+ nkv
pk
N
) 1p
=p
√n1v
p1 + n2v
p2 + · · ·+ nkv
pk
N
Pour des données regroupées en tableau de fréquences, la formule devient :
mp = (f1vp1 + f2v
p2 + · · ·+ fkv
pk)
1p = p
√f1v
p1 + f2v
p2 + · · ·+ fkv
pk
3.3.5 Moyenne harmoniqueSi on prend la valeur p = −1 dans la définition de la moyenne d’ordre p vueprécédemment, on obtient la moyenne harmonique, en générale notée m−1.
La formule pour des données exhaustives est :
m−1 =
(x−11 + x
−12 + · · ·+ x
−1N
N
)−1En appliquant le fait que la puissance -1 d’un nombre est son inverse, on
obtient :m−1 =
N
x−11 + x−12 + · · ·+ x
−1N
Finalement
m−1 =N
1/x1 + 1/x2 + · · ·+ 1/xN
3.3. INDICATEURS DE TENDANCE CENTRALE 47
Exercice 6
(emprunté à M. Crawley, Statistics: An Introduction using R, Ed. Wiley,2005)
Un éléphant habite dans un enclos carré d’un kilomètre de côté. Il en faitle tour tous les jours de la manière suivante : il parcourt le premier côté à lavitesse de 1 km/h, puis le deuxième côté à la vitesse de 2 km/h, le troisièmecôté à la vitesse de 4 km/h, et le dernier côté à la vitesse de 1 km/h.
Quelle est sa vitesse moyenne ?
Attention : nous allons voir que ce n’est pas la moyenne arithmétique des
quatre vitesses1 + 2 + 4 + 1
4= 2.
Corrigé
La vitesse est la distance divisée par le temps : v =d
t.
On sait que la distance parcourue est de d = 4 kilomètres (c’est le périmètrede l’enclos).
Le temps mis à en faire le tour est la somme des temps mis à parcourir chaquearête : 1 heure pour le premier côté, 1/2 heure pour le deuxième, 1/4 heure pourle troisième, 1/2 heure pour le dernier. D’où le temps total :
t = 1 + 1/2 + 1/4 + 1 = 11/4
Finalement :
v =d
t=
4
1/1 + 1/2 + 1/4 + 1/1
C’est la formule de la moyenne harmonique ! Numériquement, on trouvev = 16/11 ≈ 1, 45 km/h.
3.3.6 Comparaison des moyennes
Toutes les moyennes vues précédemment peuvent être comparées entre ellesgrâce au résultat suivant :
Si p < q alors mp ≤ mq.Il y a égalité si et seulement si toutes les valeurs sont égales entre elles.
Autrement l’inégalité est stricte.
Exercice 7
Calculer les moyennes m−1, m0, m1, m2, m3 des nombres 7, 8, 9, 10.
Corrigé
48 CHAPTER 3. INDICATEURS DE TENDANCE
On trouve :
m−1 = 8, 351284
m0 = 8, 425732
m1 = 8, 5
m2 = 8, 573214
m3 = 8, 644585
et on constate effectivement que ces valeurs vont en croissant :
m−1 < m0 < m1 < m2 < m3
Chapter 4
Indicateurs de dispersion
4.1 Indicateurs de dispersionUne fois qu’on a identifié des valeurs donnant la tendance centrale d’un ensembled’observations, on se demande comment les valeurs sont distribuées autour decette valeur centrale (moyenne, médiane, etc.).
Cela consiste à se demander si les observations appartiennent à un intervalleplus ou moins large, si les valeurs sont très “tassées” autour de la valeur centraleou au contraire très étalées, etc.
On définit plusieurs sortes d’indicateurs qui permettent d’apprécier cet as-pect des distributions statistiques. On les appelle indicateurs de dispersion.
Voici quelques cas de figure pour mieux se représenter le problème :
0 5 10 15 20
−1.0
−0.5
0.0
0.5
1.0
49
50 CHAPTER 4. INDICATEURS DE DISPERSION
0 5 10 15 20
−1.0
−0.5
0.0
0.5
1.0
0 5 10 15 20
−1.0
−0.5
0.0
0.5
1.0
4.1. INDICATEURS DE DISPERSION 51
0 5 10 15 20
−1.0
−0.5
0.0
0.5
1.0
4.1.1 L’étendue
L’étendue est la différence entre la valeur maximale et la valeur minimale de ladistribution.
C’est la différence entre les valeurs extrêmes, autrement dit l’amplitude duplus petit intervalle contenant toutes les observations.
Il donne une indication sur l’étalement des valeurs observées mais est trèstributaire des valeurs extrêmes qui peuvent souvent être des valeurs exception-nelles. Il ne donne pas de renseignement sur la manière dont les autres obser-vations se répartissent dans cet intervalle.
C’est donc une estimation grossière.
Exemple
Dans le premier graphique précédent, la distribution était :
7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6
On avait donc une étendue de E = 11.6− 7.8 = 3.8.Dans le dernier graphique précédent, la distribution était :
1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8
On avait donc une étendue de E = 19.8− 1.2 = 18.6.
52 CHAPTER 4. INDICATEURS DE DISPERSION
4.1.2 L’intervalle inter-quartilesOn a défini les quartiles (Q1, Q2 et Q3) qui sont des quantités permettant derépartir les données en quatre sous-classes de même effectif (25% des donnéesobservées).
Définition 4.1.1. On appelle intervalle inter-quartile la différence Q3 −Q1.
C’est l’amplitude de l’intervalle [Q1, Q3]. Cet intervalle contient 50% desobservations : son étendue indique donc si ces 50% d’observations centralessont réparties sur une petite ou une grande étendue de valeurs.
Remarque:Cette quantité est souvent notée IQR qui est l’abréviation de l’anglais “inter
quartile range”.
Exemple
Dans le premier graphique précédent, la distribution était :
7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6
Les quartiles de cette distribution sont :
Min Q1 Q2 Q3 Max7.80 9.55 10.35 10.75 11.60
L’intervalle inter-quartiles est donc : Q3 −Q1 = 10.75− 9.55 = 1.2.
Exemple
Dans le dernier graphique précédent, la distribution était :
1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8
Les quartiles de cette distribution sont :
Min Q1 Q2 Q3 Max1.20 6.35 12.05 15.45 19.80
L’intervalle inter-quartiles est donc : Q3 −Q1 = 15.45− 6.35 = 9.1.On généralise cette notion en définissant des intervalles en quantiles liés aux
déciles ou aux centiles. Par exemple, l’intervalle [D1, D9] est intéressant car ilconcentre 80% des données observées.
Toutes ces quantités sont néanmoins imparfaites car elles ne sont pas ma-nipulables dans des calculs algébriques et donc entrent difficilement dans desformules.
Il faut remarquer qu’elles se fondent sur le rang des observations plutôt quesur leur valeur. Cet aspect est à leur avantage car elles sont moins sensibles auxvariations de valeurs.
Exemple
4.1. INDICATEURS DE DISPERSION 53
Reprenons le dernier exemple de distribution. Les valeurs des déciles sontD1 = 3.75 et D9 = 18.55, l’étendue inter-décile 18.55 − 3.75 = 14.8 pour uneétendue totale de 18.6.
4.1.3 L’écart absolu moyenPour avoir une meilleure idée de la dispersion proprement dite, il faut regarderles écarts par rapport à la valeur centrale. On va commencer par s’intéresseraux écarts par rapport à la moyenne.
0 5 10 15 20
05
10
15
20
Le graphique précédent représente l’ensemble des points de la dernière dis-tribution à des hauteurs différentes pour pouvoir mieux les différencier.
Ces écarts se font vers la gauche ou vers la droite. Comme on sait que leursomme est toujours égale à 0, il faut en fait les envisager en valeur absolue.
Définition 4.1.2. L’écart absolu moyen est la moyenne arithmétique de lavaleur absolue des écarts à la moyenne.
Si les données sont écrites sous forme exhaustive, la formule mathématiques’écrit :
eam =1
N
N∑i=1
|xi −m| =|x1 −m|+ |x2 −m|+ · · ·+ |xN −m|
N
où m = x̄ = 1N∑Ni=1 xi désigne la moyenne artihmétique.
Si les données sont regoupées sous forme de tableau d’effectifs de la forme :
Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk
54 CHAPTER 4. INDICATEURS DE DISPERSION
La formule s’écrit :
eam =n1 × |v1 −m|+ n2 × |v2 −m|+ · · ·+ nk × |vk −m|
N
avec N = n1 + n2 + · · ·+ nk.L’écart absolu moyen est parfois noté ē s’il n’y a pas de risque d’ambiguïté
avec la moyenne x̄.Remarque :Si on ne mettait pas les valeurs absolues, on trouverait que la moyenne des
écarts est égale à 0. C’est un résultat général : la moyenne des écarts à lamoyenne est nulle.
Démonstration
1
N
N∑i=1
(xi − x̄) =1
N
N∑i=1
xi −1
N
N∑i=1
x̄
= x̄− 1NNx̄
= x̄− x̄= 0
Exemple
Reprenons l’exemple de la dernière distribution.
1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8
Voici comment il faut présenter les calculs.On commence par calculer la moyenne arithmétique des valeurs observées :
m =1
20
(1.2 + 3.5 + 4.0 + 4.1 + 5.3 + 7.4 + 7.6 + 7.7 + 10.0 + 11.5
+ 12.6 + 13.2 + 13.7 + 14.4 + 15.4 + 15.5 + 18.0 + 18.2 + 18.9 + 19.8)
=222
20= 11.1
On calcule ensuite tous les écarts par rapport à la moyenne m = 11, 1 :|1.2− 11.1| = 9.9, |3.5− 11.1| = 7.6, |4.0− 11.1| = 7.1, etc.
On obtient les valeurs suivantes :
Valeur absolue des écarts à la moyenne9.9 7.6 7.1 7.0 5.8 3.7 3.5 3.4 1.1 0.41.5 2.1 2.6 3.3 4.3 4.4 6.9 7.1 7.8 8.7
4.1. INDICATEURS DE DISPERSION 55
Il ne reste plus qu’à calculer la moyenne de ces écarts :
eam =1
20
(9.9 + 7.6 + 7.1 + 7.0 + 5.8 + 3.7 + 3.5 + 3.4 + 1.1 + 0.4
+ 1.5 + 2.1 + 2.6 + 3.3 + 4.3 + 4.4 + 6.9 + 7.1 + 7.8 + 8.7)
=98.2
20= 4.91
En moyenne, les données s’écartent d’environ 4,9 de la valeur centrale.
Exercice
Mener les calculs pour les trois premières distributions :• Distribution 1
7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6
• Distribution 23.4 7.5 7.5 8.1 8.1 9.1 9.9 10.0 10.6 11.011.2 11.5 11.7 11.8 12.2 12.5 12.8 13.4 14.5 14.8
• Distribution 30.0 5.0 5.1 6.2 6.3 8.2 9.7 9.9 11.1 12.012.3 12.9 13.5 13.6 14.4 14.9 15.7 16.7 19.1 19.6
Corrigé
On trouve :
Moyenne Ecart absolu moyenDistribution 1 10.195 0.686Distribution 2 10.58 2.104Distribution 3 11.31 4.029
Discussion de l’écart absolu moyen
Avantages L’écart absolu moyen est une quantité qui correspond très bien àl’intuition de ce qu’est une dispersion moyenne.C’est une grandeur qui est toujours positive et qui est exprimée dans lamême unité que la variable observée. Elle est facile à calculer numérique-ment.
Inconvénients Il a cependant le défaut d’être difficile à manipuler algébrique-ment. En effet, les sommes de valeurs absolues ne se transforment pas biendans les expressions algébriques. Par exemple, la valeur absolue d’unesomme n’est pas la somme des valeurs absolues des termes de la somme.
Pour ces raisons, la quantité calculée est un bon indicateur de dispersion maiselle ne permet pas de développements théoriques. On lui préfère habituellementl’écart-type qui va être défini dans la section suivante.
56 CHAPTER 4. INDICATEURS DE DISPERSION
4.1.4 La variance et l’écart-type
La raison d’être des valeurs absolues était d’ignorer dans quel sens se font lesécarts par rapport à la valeur centrale (vers la gauche ou vers la droite, pardéfaut ou par excès). Pour obtenir le même effet, on peut aussi élever ces écartsau carré.
On aboutit ainsi à la notion de variance d’une distribution :
Définition 4.1.3. La variance est la moyenne des carrés des écarts à la moyenne.
C’est une quantité positive.Si les données sont écrites sous forme exhaustive, la formule mathématique
de la variance s’écrit :
Var(x) =1
N
N∑i=1
(xi −m)2 =(x1 −m)2 + (x2 −m)2 + · · ·+ (xN −m)2
N
où m = x̄ = 1N∑Ni=1 xi désigne la moyenne artihmétique.
Si les données sont regoupées sous forme de tableau d’effectifs de la forme :
Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk
la formule s’écrit :
Var(x) =n1 × (v1 −m)2 + n2 × (v2 −m)2 + · · ·+ nk × (vk −m)2
N
avec N = n1 + n2 + · · ·+ nk et m = 1N∑ki=1 ni vi.
Avec un tableau de fréquences, la formule s’écrit :
Var(x) = f1 × (v1 −m)2 + f2 × (v2 −m)2 + · · ·+ fk × (vk −m)2
Exemple
Reprenons l’exemple de la dernière distribution.
1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8
Voici comment il faut présenter les calculs.On a déjà précédemment calculé la moyenne arithmétique des valeurs ob-
servées m = 11.1.On calcule ensuite tous les écarts par rapport à la moyenne : (1.2−11.1)2 =
9.92 = 98.01, (3.5− 11.1)2 = 7.62 = 57.76, (4.0− 11.1)2 = 7.12 = 50.41, etc.On obtient les valeurs suivantes :
4.1. INDICATEURS DE DISPERSION 57
Carré des écarts à la moyenne98.01 57.76 50.41 49.00 33.64 13.69 12.25 11.56 1.21 0.162.25 4.41 6.76 10.89 18.49 19.36 47.61 50.41 60.84 75.69
Il ne reste plus qu’à calculer la moyenne de ces carrés :
Var(x) =1
20
(98.01 + 57.76 + 50.41 + 49.00 + 33.64 + 13.69 + 12.25
+ 11.56 + 1.21 + 0.16 + 2.25 + 4.41 + 6.76 + 10.89 + 18.49
+ 19.36 + 47.61 + 50.41 + 60.84 + 75.69)
=624.4
20= 31.22
La variance est une quantité au carré. Cela signifie que si les valeurs xi sontpar exemple mesurées en mètres, alors la variance est en mètres carrés. Or ons’attend à ce que la mesure de dispersion soit dans la même unité que les valeurselles-mêmes. C’est pourquoi on calcule la racine carrée de la variance commenouvel indice de dispersion.
Définition 4.1.4. On appelle écart-type la racine carrée de la variance.
L’écart-type est souvent noté au moyen de la lettre grecque σ qui se lit sigma.On a les relations suivantes :
Var(x) = σ(x)2
σ(x) =√
Var(x)
Exemple
Dans le cas précédent, on trouve σ =√
31, 22 ≈ 5, 59 .
Exercice
Mener les calculs de la variance et de l’écart-type pour les trois premièresdistributions.
Corrigé
On trouve :
Moyenne Variance Écart-typeDistribution 1 10.195 0.77 0.88Distribution 2 10.58 7.12 2.67Distribution 3 11.31 24.3 4.93
On peut comparer les écart-types avec les écarts absolus moyens : cesderniers sont légèrement inférieurs (respectivement 0.686, 2.104 et 4.029). C’estnormal puisqu’une moyenne arithmétique est toujours inférieure à une moyennequadratique.
Dans le cas d’une variable continue regroupée en classes, on utilise les milieuxdes classes pour faire les calculs.
58 CHAPTER 4. INDICATEURS DE DISPERSION
Exemple
Le tableau suivant donne la répartition des employés d’une entreprise selonle salaire mensuel en milliers d’euros. Calculer l’écart-type.
[1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150xi 1.75 2.25 2.75 3.25 3.75 4.5nixi 54.25 76.50 110 84.50 48.75 27 401
On a déjà calculé la moyenne dans la séance précédente :
m =1
150
(31× 1.75 + 34× 2.25 + 40× 2.75 + 26× 3.25
+ 13× 3.75 + 6× 4.5)
=401
150= 2.67
On calcule ensuite les écarts à la moyenne, puis leurs carrés :
[1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150xi 1.75 2.25 2.75 3.25 3.75 4.5nixi 54.25 76.50 110 84.50 48.75 27 401xi −m -0.92 -0.42 0.08 0.58 1.08 1.83(xi −m)2 0.846 0.176 0.006 0.34 1.167 3.35
ni(xi −m)2 26.24 5.998 0.255 8.746 15.163 20.093 76.495
La variance est finalement
Var(x) =76.495
150= 0.51
et l’écart-type
σ =√
0.51 = 0.714
4.1.5 Propriétés de la varianceIl existe une autre formule (dite formule développée) pour calculer la varianced’une distribution :
Var(x) =1
N
N∑i=1
x2i − x̄2 =x21 + x
22 + · · ·+ x2NN
− x̄2
où x̄ désigne la moyenne arithmétique.On interprète cette formule en disant que
4.1. INDICATEURS DE DISPERSION 59
la variance est égale à la moyenne des carrés diminuée du carré de la moyenne.
Exemple
Reprenons l’exemple de la quatrième distribution.
1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8
On calcule les carrés :
1.44 12.25 16.00 16.81 28.09 54.76 57.76 59.29100.00 132.25 158.76 174.24 187.69 207.36 237.16 240.25324.00 331.24 357.21 392.04
Leur somme vaut 3088.6 et donc la moyenne des carrés est3088.6
20= 154.43.
On a déjà précédemment calculé la moyenne arithmétique m = 11.1.Finalement
Var(x) = 154.43− 11.12 = 154.43− 123.21 = 31.22
Démonstration de la formule développée
Var(x) =1
N
N∑i=1
(xi − x̄)2
=1
N
N∑i=1
(x2i − 2xix̄+ x̄2)
=1
N
N∑i=1
x2i −1
N
N∑i=1
2xix̄+1
N
N∑i=1
x̄2
=1
N
N∑i=1
x2i − 2x̄1
N
N∑i=1
xi +1
NNx̄2
=1
N
N∑i=1
x2i − 2x̄2 + x̄2
=1
N
N∑i=1
x2i − x̄2
Si les données sont regoupées sous forme de tableau d’effectifs, la formuledéveloppée de la variance s’écrit :
Var(x) =n1 × v21 + n2 × v22 + · · ·+ nk × v2k
N− x̄2
=1
N
k∑i=1
ni v2i − x̄2
60 CHAPTER 4. INDICATEURS DE DISPERSION
Avec un tableau de fréquences, la formule s’écrit :
Var(x) =
k∑i=1
fi v2i − x̄2
Voici quelques propriétés de la variance.• La variance est invariante par translation :
Var(x+ b) = Var(x)
• Si on multiplie les valeurs observées par un nombre a, la variance estmultipliée par a2 :
Var(a x) = a2 Var(x)
• En mettant ces deux propriétés ensemble, on obtient :
Var(a x+ b) = a2 Var(x)
4.1.6 Déviation médiane absolueUne autre mesure de dispersion, qui ne tient compte que de la position des ob-servations et non pas de leurs valeurs, consiste à remplacer la notion de moyennepar celle de médiane dans la définition de l’écart absolu moyen.
Au lieu de centrer les valeurs sur la moyenne, on les centre sur la médiane.On obtient ainsi les écarts à la médiane, calculés en valeur absolue.
Ensuite, au lieu de faire la moyenne de ces écarts, on en prend la médiane.La quantité qu’on obtient de cette manière s’appelle la déviation médiane
absolue. Elle est parfois appelée MAD qui est l’abréviation de l’anglais “medianabsolute deviation”.
Exemple
Calculons la déviation médiane absolue de la quatrième distribution.
1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8
La médiane de cette distribution est M = (11.5 + 12.6)/2 = 12.05.On calcule donc les valeurs absolues des écarts à la médiane : |1.2−12.05| =
10.85, |3.5− 12.05| = 8.55, etc. Voici les résultats :
10.85 8.55 8.05 7.95 6.75 4.65 4.45 4.35 2.05 0.550.55 1.15 1.65 2.35 3.35 3.45 5.95 6.15 6.85 7.75
On ordonne ces quantités pour calculer leur médiane :
0.55 0.55 1.15 1.65 2.05 2.35 3.35 3.45 4.35 4.454.65 5.95 6.15 6.75 6.85 7.75 7.95 8.05 8.55 10.85
4.1. INDICATEURS DE DISPERSION 61
La médiane vaut MAD = (4.45+4.65)/2 = 4.55 . C’est la déviation médianeabsolue.
La déviation médiane absolue est un excellent indicateur de dispersion pourplusieurs raisons :
1. il s’agit d’une statistique robuste car elle est résistante à la présence depoints aberrants (voir au paragraphe suivant) ;
2. elle fournit un estimateur consistent de l’écart-type (ces questions serontétudiées dans le cours de statistique inférentielle) ;
3. c’est toujours une quantité finie et on peut donc l’utiliser dans le cas dedistributions qui n’ont pas de moyenne et de variance (ces questions serontétudiées dans le cours de probabilité).
4.1.7 Coefficient de variationLes principaux indicateurs d’une distribution, en particulier la moyenne arith-métique x̄ et l’écart-type σ(x), sont exprimés dans la même unité que la variableobservée x.
Cela soulève un problème lorsqu’on veut comparer deux caractères qui sontexprimés chacun dans son unité : par exemple, les salaires en France et auxÉtats-Unis sont respectivement exprimés en euros et