Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à … · 2015. 9. 8. · Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à Niveau en Statistiques

Université Paris Ouest Nanterre La DéfenseM2 Droit-Éco

Mise à Niveau en StatistiquesCours et exercices

B. Desgraupes

2015 – 2016

Table des matières

1 Variables statistiques 11.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Les objectifs de la statistique . . . . . . . . . . . . . . . . 11.1.2 Le vocabulaire de la statistique . . . . . . . . . . . . . . . 2

1.2 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.1 Table des observations . . . . . . . . . . . . . . . . . . . . 51.2.2 Table d’effectifs . . . . . . . . . . . . . . . . . . . . . . . . 61.2.3 Table de fréquences . . . . . . . . . . . . . . . . . . . . . 81.2.4 Valeurs cumulées . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 Sources statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Logiciel statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Représentations graphiques 132.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Diagrammes à secteurs circulaires . . . . . . . . . . . . . . . . . . 132.3 Diagrammes en bâtons . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Diagrammes d’effectifs cumulés . . . . . . . . . . . . . . . . . . . 182.5 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.6 Polygônes de fréquence . . . . . . . . . . . . . . . . . . . . . . . . 242.7 Diagrammes de dispersion . . . . . . . . . . . . . . . . . . . . . . 262.8 Courbes d’évolution . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Indicateurs de tendance 333.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Caractéristiques de position . . . . . . . . . . . . . . . . . . . . . 33

3.2.1 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 Classe modale . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.3 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2.4 Quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.5 Déciles et centiles . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Indicateurs de tendance centrale . . . . . . . . . . . . . . . . . . 413.3.1 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . 413.3.2 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . 443.3.3 Moyenne quadratique . . . . . . . . . . . . . . . . . . . . 45

III

IV TABLE DES MATIÈRES

3.3.4 Moyenne d’ordre p . . . . . . . . . . . . . . . . . . . . . . 463.3.5 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . 463.3.6 Comparaison des moyennes . . . . . . . . . . . . . . . . . 47

4 Indicateurs de dispersion 494.1 Indicateurs de dispersion . . . . . . . . . . . . . . . . . . . . . . . 49

4.1.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.1.2 L’intervalle inter-quartiles . . . . . . . . . . . . . . . . . . 524.1.3 L’écart absolu moyen . . . . . . . . . . . . . . . . . . . . . 534.1.4 La variance et l’écart-type . . . . . . . . . . . . . . . . . . 564.1.5 Propriétés de la variance . . . . . . . . . . . . . . . . . . . 584.1.6 Déviation médiane absolue . . . . . . . . . . . . . . . . . 604.1.7 Coefficient de variation . . . . . . . . . . . . . . . . . . . 61

4.2 Robustesse des indicateurs . . . . . . . . . . . . . . . . . . . . . . 624.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 634.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5 Indicateurs de forme et de concentration 675.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.2 Moments d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.2.1 Moments simples . . . . . . . . . . . . . . . . . . . . . . . 685.2.2 Moments centrés . . . . . . . . . . . . . . . . . . . . . . . 69

5.3 Comparaison des indicateurs de tendance centrale . . . . . . . . 705.4 Indicateurs de forme . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.4.1 Coefficients d’asymétrie . . . . . . . . . . . . . . . . . . . 725.4.2 Coefficients d’aplatissement . . . . . . . . . . . . . . . . . 74

5.5 Indicateurs de concentration . . . . . . . . . . . . . . . . . . . . . 785.5.1 Médiane et médiale . . . . . . . . . . . . . . . . . . . . . . 785.5.2 Écart à la médiale . . . . . . . . . . . . . . . . . . . . . . 805.5.3 Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . 815.5.4 Coefficient de Gini . . . . . . . . . . . . . . . . . . . . . . 83

5.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6 Taux de croissance et indices élémentaires 896.1 Pourcentages et variations . . . . . . . . . . . . . . . . . . . . . . 89

6.1.1 Calculs de taux . . . . . . . . . . . . . . . . . . . . . . . . 896.1.2 Taux global et taux moyen . . . . . . . . . . . . . . . . . 906.1.3 Évolution des grandeurs composites . . . . . . . . . . . . 94

6.2 Notion d’indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 956.3 Propriétés des indices . . . . . . . . . . . . . . . . . . . . . . . . 97

6.3.1 Circularité . . . . . . . . . . . . . . . . . . . . . . . . . . 976.3.2 Réversibilité . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.4 Indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . 986.5 Exercices complémentaires . . . . . . . . . . . . . . . . . . . . . . 99

TABLE DES MATIÈRES V

7 Indices synthétiques 1037.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7.1.1 Notion de panier . . . . . . . . . . . . . . . . . . . . . . . 1047.2 Indices de prix et de quantité . . . . . . . . . . . . . . . . . . . . 105

7.2.1 Indices de Laspeyres . . . . . . . . . . . . . . . . . . . . . 1057.2.2 Indices de Paasche . . . . . . . . . . . . . . . . . . . . . . 1067.2.3 Indices de Fisher . . . . . . . . . . . . . . . . . . . . . . . 1077.2.4 Propriétés des indices synthétiques . . . . . . . . . . . . . 1077.2.5 Tableau récapitulatif . . . . . . . . . . . . . . . . . . . . . 108

7.3 Relations entre indices . . . . . . . . . . . . . . . . . . . . . . . . 1117.3.1 Indices en valeur . . . . . . . . . . . . . . . . . . . . . . . 1117.3.2 Indices et moyennes . . . . . . . . . . . . . . . . . . . . . 1147.3.3 Qualité des indices . . . . . . . . . . . . . . . . . . . . . . 118

VI TABLE DES MATIÈRES

Chapter 1

Variables statistiques

1.1 Notions de base

1.1.1 Les objectifs de la statistique

La statistique est un ensemble de méthodes et d’outils permettant d’analyserdes données. Elle définit des techniques à la fois pour collecter les données, lesarranger, les présenter, les résumer et les analyser.

Le terme provient du latin statisticum qui signifie “ce qui a rapport à l’État”.Les premières enquêtes statistiques datent du 18ième siècle.

On distingue deux grandes branches dans la statistique :

• les statistiques descriptives ont pour but d’obtenir une vue synthétiquede données. Il s’agit de dégager et de résumer l’essentiel de l’informationcontenue dans les données ;

• les statistiques inférentielles ont pour objectif d’utiliser les données collec-tées afin de tester des hypothèses, de rechercher des modèles ou de fairedes prévisions.

Il y a de nombreuses disciplines ayant recours à la statistique :

• l’économie, la finance, la gestion

• la géographie et la démographie

• la médecine

• la biologie

• la physique

• la psychologie

• la linguistique

1

2 CHAPTER 1. VARIABLES STATISTIQUES

et cette liste n’est pas exhaustive...La statistique n’est pas une discipline théorique. Elle s’appuie principale-

ment, pour justifier les méthodes qu’elle emploie, sur la théorie des probabilitésqui fournit un soubassement mathématique rigoureux pour la description desphénomènes aléatoires.

Elle a connu un considérable développement au cours des vingt dernièresannées avec l’arrivée des ordinateurs qui permettent de disposer de capacitésde calcul jusque-là inatteignables. On peut à faible coût (en termes de calculs)manipuler de grandes quantités de données.

La collecte des données, sans laquelle les méthodes ne s’appliqueraient pas,sont néanmoins une opération coûteuse et prennent du temps. La statistiques’appuie sur l’échantillonnage pour limiter à la fois le volume des données et lescoûts afférants.

Même les recensements de population se font depuis 2004 en France parsondage dans des sous-groupes des communes.

Il existe diverses méthodes pour collecter correctement des données et con-struire des échantillons :

• reproduction d’expérience et relevé de résultats ;

• tirage au hasard. On tire au hasard N individus dans une population ;

• méthode des tirages en cascade : on sélectionne les individus par plusieurstirages successifs de sous-ensembles (villes, quartiers, etc.) ;

• méthode des quotas. L’échantillon reproduit à son échelle certaines car-actéristiques (dites quotas) comme par exemple l’âge ;

• méthode des grappes. Elle constitue des sous-groupes comparables maisdans lesquels les individus sont très différents ;

• méthode par stratification. Le tirage se fait dans des strates prédéfiniesde la population. Les strates sont des sous-groupes homogènes ;

• méthode des panels. Cette méthode suit un même groupe d’individu pourl’observer à des périodes différentes ;

• méthode des cohortes. Une cohorte est un panel d’individus ayant uneorigine commune et qui sont observés périodiquement ;

1.1.2 Le vocabulaire de la statistiqueLa statistique utilise une terminologie intuitive mais rigoureuse qu’il faut as-similer afin de savoir avec précision quels sont les objets et les concepts qu’onmanipule.

Tout d’abord, une enquête statistique se déroule toujours dans une popu-lation. C’est un ensemble de référence dont les éléments sont désignés commeindividus ou unités statistiques. Ces individus peuvent être des personnes aussibien que des entités.

1.1. NOTIONS DE BASE 3

Les études statistiques consistent à observer chez ces individus des caractèresou variables statistiques. Ceux-ci peuvent être de nature très variée. L’ensembledes valeurs des caractères relevés chez un “individu” porte le nom d’observation.

Les observations sont rassemblées dans des bases de données appelées fréquem-ment des jeux de données.

Les valeurs des caractères portent le nom demodalités. Les modalités doiventêtre choisies de telle sorte que tout individu puisse se voir attribuer une uniquevaleur. Les modalités sont comme des catégories. Elles constituent une partitiondes valeurs possibles : on dit qu’elles doivent être à la fois

• exhaustives : tout individu entre dans une catégorie ;

• disjonctives : il n’y a pas de recoupement entre les catégories. Autrementdit un individu ne peut pas figurer à la fois dans deux catégories différentes.

Il est fréquent de créer une catégorie appelée Divers ou Autres pour accueillirles observations qui ne trouvent pas leur place dans les modalités naturelles.

On distingue deux types de caractères ou variables :

• les caractères qualitatifs : ce sont ceux qu’on ne peut pas représenter parune mesure.Par exemple : couleur des yeux, sexe, situation familiale, mention aubaccalauréat, catégorie socio-professionnelle. . .

• les caractères quantitatifs : ce sont ceux qu’on peut mesurer et représenternumériquement. Parmi eux on distingue :

– les caractères quantitatifs discrets : leur valeur est en général unnombre entier ou appartient à un ensemble fini de valeurs.Par exemple : nombre d’enfants, nombre de pièces, . . .

– les caractères quantitatifs continus : leur valeur est en général unnombre réel pris dans un certain intervalle.Par exemple : taille, poids, température, chiffre d’affaire, montantimposable. . .

Exemple de nomenclature complexe pour une variable de type qualitatif : lesecteur d’activité. Cette nomenclature est utilisée par l’INSEE dans toutes sestables de données et analyses de conjoncture.

Nomenclature d’Activités Française (NAF)Les modalités d’une variable qualitative ne sont pas des nombres. Ce sont des

catégories dans une nomenclature. Néanmoins on peut les coder numériquementafin de faciliter leur représentation et leur stockage. Mais le code numérique estune convention arbitraire et ne constitue pas une mesure.

Certaines variables qualitatives sont appelées ordinales si il existe une rela-tion d’ordre naturelle sur les différentes modalités. C’est le cas par exemple dela mention au baccalauréat :

TB > B > AB > P


Le niveau de satisfaction dans une enquête d’appréciation d’un service estaussi une variable ordinale.

Il existe des méthodes statistiques et des algorithmes qui exploitent le faitqu’une variable soit ordinale.

Les valeurs d’une variable quantitative continue sont fréquemment regroupéesen classes ou en intervalles contigus. Leur domaine de définition est partitionnéen intervalles de la forme [ei, ei+1[. C’est une forme de discrétisation des donnéesobservées.

Les intervalles peuvent être ouverts à gauche et fermés à droite, ou le con-traire. Il faut s’assurer qu’ils sont disjoints et que leur réunion recouvre toutesles valeurs possibles.

Dans les calculs, il arrive qu’on veuille représenter un intervalle par unevaleur numérique. On utilise souvent pour cela le centre de l’intervalle :

ci =ei + ei+1

2

La taille de l’intervalle s’appelle l’amplitude :

ai = ei+1 − ei

Exercice

On a relevé les poids suivants (en kg) parmi 100 individus.

64 85 79 84 68 74 94 75 64 6572 74 78 69 67 64 70 63 69 8262 64 71 74 77 73 77 76 82 8286 48 50 69 76 59 70 61 55 7773 81 76 56 63 84 63 57 76 8662 70 69 66 63 90 72 73 73 7675 70 68 66 74 66 52 66 81 5777 79 55 69 78 60 85 70 67 6476 78 65 81 69 76 72 71 74 5867 76 74 78 79 69 92 64 73 65

a) Déterminer les valeurs extrêmes (min et max).

b) Répartir les données en classes d’amplitude 10 en partant de 45 kg.

c) Préciser les centres des classes.

Corrigé

a) Le poids minimal est 48 kg et le poids maximal est 94 kg.b) On obtient la répartition suivante :

1.2. TABLEAUX STATISTIQUES 5

[45,55[ [55,65[ [65,75[ [75,85[ [85,95[3 21 40 29 7

Remarque: si on avait choisi des intervalles ouverts à gauche, on auraitobtenu des résultats différents :

]45,55] ]55,65] ]65,75] ]75,85] ]85,95]5 22 39 29 5

c) Centres des classes :

50 60 70 80 90

La distinction n’est pas toujours très rigoureuse entre variables discrètes etcontinues. Il arrive que des variables exprimées en nombres entiers soient quandmême considérées comme variables continues.

C’est le cas par exemple de l’âge. Les valeurs possibles sont nombreuses eton les regroupe fréquemment en intervalles. C’est ce regroupement en intervallequi pourrait servir de critère de définition : une variable continue serait unevariable qu’on a besoin de discrétiser en la regroupant en un nombre fini declasses.

En cas d’hésitation, c’est le contexte qui doit permettre au statisticien dedécider ce qui est le plus approprié dans le cadre de son étude.

1.2 Tableaux statistiques

1.2.1 Table des observationsCe sont des tableaux qui représentent l’intégralité des observations collectéesauprès des individus constituant la population ou un échantillon extrait.

Traditionnellement, il s’agit d’un tableau de forme rectangulaire dans lequelchaque ligne correspond à une observation et chaque colonne correspond à unevariable ou un caractère.

Les valeurs de ces tableaux sont qualifiées de données exhaustives (par op-position aux données regroupées qu’on verra plus loin).

Les tables d’observations (dites, en anglais, dataframes) peuvent avoir descolonnes de nature différente : variable qualitative, quantitative, etc. Ce ne sontdonc pas des matrices.

Tableau à une variable X :

Observations XObs1 x1Obs2 x2Obs3 x3...

...ObsN xN


Tableau à deux variables X, Y :

Observations X YObs1 x1 y1Obs2 x2 y2Obs3 x3 y3...

......

ObsN xN yN

Tableau à trois variables X, Y , Z :

Observations X Y ZObs1 x1 y1 z1Obs2 x2 y2 z2Obs3 x3 y3 z3...

......

...ObsN xN yN zN

Exemple

• Table des régions et départements de France métropolitaine

• Table des circonscriptions administratives par régions

• Table des communes et population par départements

• Table des conseils régionaux de France métropolitaine et d’outremer

• Chiffre d’affaires dans l’industrie et la construction en août 2014

1.2.2 Table d’effectifsPour chaque modalité vi d’une variable qualitative, chaque valeur vi d’une vari-able quantitative discrète ou chaque classe modale Ci d’une variable quantitativecontinue, on note le nombre ni d’individus présentant cette modalité ou appar-tenant à cette classe : ni est l’effectif de la modalité ou la classe. Obtient ainsiune table d’effectifs de la forme :

Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

ou

Valeurs [e1, e2[ [e2, e3[ [e3, e4[ · · · [ek, ek+1[Effectifs n1 n2 n3 · · · nk


Ici k est le nombre de modalités ou de classes.Les tables peuvent aussi être présentées verticalement :

Valeurs Effectifsv1 n1v2 n2v3 n3...

...vk nk

Le nombre total des observations est noté N :

N = n1 + n2 + n3 + · · ·+ nk =k∑i=1

ni

L’ensemble des couples (vi, ni) constitue une distribution statistique.

Exemple

Le tableau suivant est issu du recensement de population de 2011 et dénom-bre les logements déclarés comme résidences principales en fonction du nombrede pièces.

Nombre de pièces Effectifs1 pièce 1 571 9032 pièces 3 417 2333 pièces 5 723 9444 pièces 6 914 9895 pièces 5 315 8386 pièces ou plus 4 403 719

Source : INSEE, RP2011

Exercice

Reprendre la table des régions et des départements :

Table des régions et départements de France métropolitaine

Dresser une table d’effectifs pour chaque région.

Corrigé


Alsace Aquitaine Auvergne2 5 4

Basse-Normandie Bourgogne Bretagne3 4 4

Centre Champagne-Ardenne Corse6 4 2

Franche-Comté Haute-Normandie Île-de-France4 2 8

Languedoc-Roussillon Limousin Lorraine5 3 4

Midi-Pyrénées Nord-Pas-de-Calais Pays de Loire8 2 5

Picardie Poitou-Charentes PACA3 4 6

Rhône-Alpes8

1.2.3 Table de fréquences

On appelle fréquence (ou proportion) le rapport entre l’effectif d’une modalitéou d’une classe et l’effectif total :

fi =niN

On dresse donc des tables de fréquences :

Valeurs v1 v2 v3 · · · vkFréquences f1 f2 f3 · · · fk

ou

Valeurs [e1, e2[ [e2, e3[ [e3, e4[ · · · [ek, ek+1[Fréquences f1 f2 f3 · · · fk

Les fréquences sont toujours comprises entre 0 et 1 :

0 ≤ fi ≤ 1

C’est pourquoi on les exprime souvent en pourcentages.

La somme des fréquences est toujours égale à 1, c’est-à-dire à 100% si on


exprime les valeurs en pourcentage. En effet :

k∑i=1

fi = f1 + f2 + f3 + · · ·+ fk

=n1N

+n2N

+n3N

+ · · ·+ nkN

=1

N(n1 + n2 + n3 + · · ·+ nk)

=N

N= 1

La signification de la fréquence est la proportion, par rapport au nombretotal des observations, des individus pour lesquels la variable statistique prendla valeur vi ou appartient à la classe Ci. On peut écrire cette propriété de lamanière suivante :

fi = P (X = vi)

oufi = P (X ∈ Ci) = P (X ∈ [ei, ei+1[)

C’est cette propriété qui permet de faire le lien entre la statistique et lathéorie des probabilités. Les quantités fi s’appellent alors des fréquences em-piriques.

L’ensemble des couples (vi, fi) constitue une distribution statistique (distri-bution en fréquences par opposition à la distribution en effectifs). De toutesfaçons, il faut bien noter que les effectifs et les fréquences sont proportionnels :on passe de l’un à l’autre en multipliant ou en divisant par la même nombre N .

Exemple

On reprend les données concernant le nombre de pièces des résidences prin-cipales. Le nombre total d’observations est N = 27 347 626.

On obtient donc les proportions en divisant par N :

Nombre de pièces Effectifs Fréquences1 pièce 1 571 903 5,75%2 pièces 3 417 233 12,50%3 pièces 5 723 944 20,93%4 pièces 6 914 989 25,29%5 pièces 5 315 838 19,44%≥ 6 pièces 4 403 719 16,10%

Remarque : en anglais, le terme frequency désigne les effectifs et non pasles fréquences ! On a les équivalents suivants :

français anglaiseffectif frequency

fréquence proportion


1.2.4 Valeurs cumulées

On obtient les effectifs cumulés en additionnant successivement les valeurs deseffectifs de chaque modalité ou classe modale.

Cela suppose que la variable soit quantitative ou qualitative ordinale.

Exemple

On a observé le nombre d’enfants dans une population de 150 familles :

Nb d’enfants 0 1 2 3 4 5Effectifs 5 27 63 38 14 3

Effectifs cumulés 5 32 95 133 147 150

La dernière valeur cumulée est toujours égale à N (ici 150).De manière analogue, on obtient les fréquences cumulées en additionnant

successivement les valeurs des fréquences de chaque modalité ou classe modale.Cela suppose aussi que la variable soit quantitative ou qualitative ordinale.

Exemple

En reprenant l’exemple précédent, on obtient :

Nb d’enfants 0 1 2 3 4 5Effectifs 5 27 63 38 14 3

Fréquences 3,33% 18% 42% 25.33% 9.33% 2%Fréq. cumulées 3,33% 21,33% 63,33% 88,67% 98% 100%

La dernière valeur cumulée est toujours égale à 100%.La signification des fréquences cumulées est la proportion, par rapport au

nombre total des observations, des individus pour lesquels la variable statistiqueprend une valeur inférieure ou égale à vi ou appartient à la réunions des classesC1 à Ci, c’est-à-dire à l’intervalle [e1, ei+1[. On peut écrire cette propriété de lamanière suivante :

fi = P (X ≤ vi)

ou

fi = P (X ∈ ∪i1Cj) = P (X ∈ [e1, ei+1[)

Dans l’exemple précédent, 63,33% est la proportion de familles ayant au plus2 enfants.

Exemple

Reprenons les données concernant le nombre de pièces des résidences prin-cipales. Le nombre total d’observations est N = 27 347 626.

On obtient donc les proportions suivantes en divisant par N :

1.3. SOURCES STATISTIQUES 11

Nombre de pièces Effectifs Fréquences Fréquences cumulées1 pièce 1 571 903 5,75% 5,75%2 pièces 3 417 233 12,50% 18,25%3 pièces 5 723 944 20,93% 39,18%4 pièces 6 914 989 25,29% 64,47%5 pièces 5 315 838 19,44% 83,91%≥ 6 pièces 4 403 719 16,10% 100%

Ici 64,47% est la proportion de logements ayant au plus 4 pièces.On note souvent F (a) = P (X ≤ a) pour désigner la fréquence des observa-

tions inférieures ou égales à a.Le complément à 1 de cette fonction est

G(a) = 1− P (X ≤ a) = P (X > a)

C’est la fréquence des observations supérieures strictement à a.

Dans l’exemple précédent, on aurait :

1 2 3 4 5 694,25% 81,75% 60,82% 35,53% 16,09% 0%

Ici, 60.82% est la proportion de logements ayant au moins 4 pièces (stricte-ment plus que 3 pièces).

1.3 Sources statistiquesIl existe quelques sites qui fournissent des données statistiques très variées dansle domaine de l’économie, la démographie et la finance.

• INSEE, Institut national de la statistique et des études économiques :http://www.insee.fr

• Eurostats, banque de données de la Commission européenne :http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home

• Plateforme ouverte des données publiques françaises, banque de donnéesdu gouvernement :

http://www.data.gouv.fr

• OCDE, Organisation de Coopération et de Développement Économiques:

http://www.oecd.org/

• CAF, la Caisse d’Allocations Familiales :http://www.caf.fr/etudes-et-statistiques/donnees-statistiques

http://www.insee.frhttp://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/homehttp://www.data.gouv.frhttp://www.oecd.org/http://www.caf.fr/etudes-et-statistiques/donnees-statistiques


1.4 Logiciel statistiqueLe logiciel de calcul statistique R est libre et gratuit. On peut le télécharger àl’adresse suivante :

http://www.r-project.org

• C’est à la fois un outil de calcul numérique, un outil graphique et unlangage de programmation.

• Il permet de faire des statistiques descriptives aussi bien qu’inférentielleset de la modélisation.

• Il est extensible et peut être complété par des bibliothèques externes ou“packages”.

Reprenons l’exemple précédent sur le nombre d’enfants dans 150 familles.Les calculs avec R se font de la manière suivante :

> eff total prop cumul round(cumul,2)[1] 3.33 21.33 63.33 88.67 98.00 100.00

On trouvera une bibliographie succincte dans le document suivant :

Stats_bibliographie.pdf

http://www.r-project.org

Chapter 2

Représentations graphiques

2.1 IntroductionLa statistique descriptive a deux approches pour décrire un jeu de donnéesobservées :

1. une approche graphique qui a pour objectif de fournir des représentationsgraphiques permettant de visualiser la distribution des données.

2. une approche quantitative qui a pour but de calculer des indices numériquescaractérisant la répartition des données, les tendances, la dispersion, laconcentration, etc.

Le présent document passe en revue les principales représentations graphiquesutilisées dans les analyses statistiques et économiques ainsi que dans les arti-cles. Selon le type de variable statistique étudié, on a recours à des graphiquesdifférents.

2.2 Diagrammes à secteurs circulairesLes diagrammes à secteurs circulaires sont aussi appelés camemberts (ou pieen anglais). Ils conviennent pour représenter des variables qualitatives ou desvariables quantitatives discrètes. Il est préférable qu’il y ait un nombre restreintde modalités pour que le graphique reste lisible.

Ce sont des disques découpés en secteurs dont l’angle est proportionnel auxproportions (ou fréquences) de chaque modalité.

Le secteur total étant de 360◦, si fi est la fréquence de la i-ième modalité,on la représente par un secteur d’angle αi défini comme ceci :

αi = fi × 360 =niN× 360

13

14 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

Exemple

On utilise les données suivantes :Taux de réussite au baccalauréat en 2013 dans l’académie de LilleSi on isole les trois grands types de baccalauréats, on obtient les résultats

suivants :

Type Total Proportions AnglesBaccalauréat général 19 772 46.79% 168◦Baccalauréat technologique 9 043 21.40% 77◦Baccalauréat professionnel 13 439 31.81% 115◦

L’effectif total est 19 772 + 9 043 + 13 439 = 42 254.

Bac général

Bac techno

Bac pro

Ce diagramme représente les parts relatives de chacun des types de baccalau-réats.

Exercice 1

Réaliser un diagramme à secteurs circulaires pour les sous-catégoies du bac-calauréat général.

Corrigé

Les données sont les suivantes :

Type Effectifs Proportions AnglesLittéraires 2 889 14.61% 54◦

Sc. économiques et sociales 5 971 30.20% 108◦

Sc. Ecologie Agronomie 178 0.90% 4◦

Scientifiques SVT 9 916 50.15% 180◦

Sciences de l’Ingénieur 818 4.14% 14◦

Ensemble 19 772 100% 360◦

2.3. DIAGRAMMES EN BÂTONS 15

Littéraires

SES

Agronomie

SVT

Ingénieurs

Remarque :Les diagrammes à secteurs circulaires sont très populaires dans la presse

mais sont considérés comme extrêmement imprécis et même trompeurs. Eneffet, l’oeil humain a du mal à apprécier les différences de taille angulaire etdes expériences ont montré qu’on pouvait facilement être abusé par des effetsd’optique dus à la position du diagramme ou aux couleurs utilisées...

2.3 Diagrammes en bâtons

Les diagrammes en bâtons s’appellent aussi des diagrammes à bandes. Ils convi-ennent pour représenter des variables qualitatives ou des variables quantitativesdiscrètes. Il est préférable qu’il y ait un nombre restreint de modalités pour quele graphique reste lisible.

Les modalités sont représentées en abscisse et les effectifs correspondantssont représentés par des lignes ou des bandes verticales dont la hauteur estproportionnelle à la valeur.

C’est donc la hauteur des lignes ou des bandes qui permet d’apprécier lestailles relatives des différentes modalités. Les diagrammes en bâtons sont plusfaciles à lire que les diagrammes circulaires.

Dans le cas d’une variable qualitative, la position des modalités en abscissen’a pas de signification particulière. Si la variable est ordinale, on placera lesmodalités dans leur ordre naturel.

Exemple


Reprenons l’exemple des catégories du baccalauréat. On obtient le dia-gramme suivant :

général techno pro

05000

10000

15000

On peut aussi faire les diagrammes en proportions plutôt qu’en effectifs:

général techno pro

0.0

0.1

0.2

0.3

0.4

Fréquences et effectifs étant proportionnels (dans le rapport N), l’aspect vi-suel est rigoureusement identique. Seules changent les valeurs sur l’axe vertical.

Un avantage des diagrammes en bâtons par rapport aux diagrammes circu-laires est qu’ils permettent de représenter plusieurs distributions en parallèle.

Pour une même modalité, on peut placer côte à côte plusieurs lignes oubandes verticales, correspondant à des sous-ensembles différents.

Un autre mode de représentation consiste à empiler les valeurs verticalementen faisant plusieurs segments.

Exemple

Le tableau suivant donne les proportions de réussite au baccalauréat dansl’académie de La Réunion pour les filles et les garçons de 2005 à 2011.

2.3. DIAGRAMMES EN BÂTONS 17

Année 2005 2006 2007 2008 2009 2010Filles 60,1 59,7 63,8 63,3 65,5 65,9

Garçons 42,8 44,2 43,5 47,1 48,4 49,4

Les valeurs sont exprimées en pourcentage.Dans le diagramme suivant les valeurs sont placées côte à côte.

2005 2006 2007 2008 2009 2010

Taux de réussite filles/garçons au bac

Académie de La Réunion

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Dans le diagramme suivant les valeurs sont empilées verticalement.

2005 2006 2007 2008 2009 2010

Taux de réussite filles/garçons au bac


0.0

0.2

0.4

0.6

0.8

1.0

La ligne brisée qui joint les sommets des bâtons s’appelle polygône des ef-fectifs. Par exemple, en reprenant les taux de réussite au bac chez les filles, onobtient le diagramme suivant :


2005 2006 2007 2008 2009 2010

0.4

00.4

50.5

00.5

50.6

00.6

50.7

0

Taux de réussite des filles au bac


2.4 Diagrammes d’effectifs cumulés

Les diagrammes d’effectifs cumulés représentent la répartition de la distributiondes effectifs.

Pour chaque modalité, on place en ordonnées la valeurs des fréquences (ouparfois des effectifs) cumulées.

On représente la progression par une fonction en escaliers. Les fréquencesconstituent les paliers.

Ce type de graphique n’a de sens que si les modalités sont ordonnées.

Exemple

Reprenons les données concernant le nombre de pièces des résidences prin-cipales. On avait les effectifs et proportions suivants :

Nombre de pièces Effectifs Fréquences Fréq. cumulées1 pièce 1 571 903 5,75% 5,75%2 pièces 3 417 233 12,50% 18,25%3 pièces 5 723 944 20,93% 39,18%4 pièces 6 914 989 25,29% 64,47%5 pièces 5 315 838 19,44% 83,91%≥ 6 pièces 4 403 719 16,10% 100%

2.5. HISTOGRAMMES 19

1 2 3 4 5 6 7

020

40

60

80

100

Diagramme de fréquences cumulées

Nombre de pièces dans résidence principales

Pourc

enta

ges

2.5 Histogrammes

Les histogrammes sont des graphiques qui permettent de visualiser les propor-tions au moyen de rectangles verticaux. Ils concernent les variables quantita-tives discrètes ou les variables quantitatives continues qu’on regroupe en classescontiguës.

Un histogramme peut être dessiné en effectifs ou en fréquences : comme cesont des grandeurs proportionnelles, cela ne change pas l’allure du graphiquemais seulement les valeurs portées sur l’axe vertical. Dans un contexte derecherche de densités, on préfèrera un histogramme en fréquences.

Voici un histogramme correspondant à des notes obtenues à un examen par1000 étudiants.


Histogramme en effectifs de 1000 notes

Notes

Effectifs

0 5 10 15 20

050

100

150

200

250

Histogramme en fréquences de 1000 notes

Notes

Effectifs

0 5 10 15 20

0.0

00.0

20.0

40.0

60.0

80.1

00.1

2

Le principe de construction d’un histogramme consiste à découper les don-nées en classes et à dessiner des rectangles dont la surface est proportionnelleaux effectifs (ou aux fréquences).

La base des rectangles correspond à chaque intervalle [ei, ei+1[. La largeurde ces intervalles est l’amplitude ai = ei+1 − ei.

Si on désigne la hauteur par hi, la surface du rectangle est alors

Si = ai × hi

Cette valeur doit correspondre à l’effectif ni (pour un histogramme en effec-tifs) ou à la fréquence fi (pour un histogramme en fréquences).


hi

aiei ei+1

ni ∝ ai × hi

La surface représente l’effectif

On a relevé le loyer annuel de 500 domiciles d’une agglomération et obtenule tableau d’effectifs suivant :

Classes Effectifs[4,5[ 13[5,6[ 56[6,8[ 224[8,10[ 115[10,12[ 46[12,14[ 29[14,16[ 15[16,18[ 2

Les loyers sont indiqués en milliers d’euros et répartis en classes.


4000 6000 8000 10000 12000 14000 16000 18000

050

100

150

200

250

Histogramme des loyers

On remarque que les deux premières classes ont une amplitude de 1 (c’est-à-dire 1000 euros) tandis que les suivantes ont une amplitude de 2 (c’est-à-dire2000 euros).

Cela a pour conséquence que les deux premiers rectangles sont deux fois plushauts et en particulier que le deuxième et le quatrième ont approximativementla même hauteur. En effet le deuxième correspond à la valeur n2 = 56 qui a étémultipliée par 2, à savoir 112, tandis que le quatrième correspond à la valeurn4 = 115.

Dans le cas d’un histogramme en fréquences (ou proportions), la surface Sis’interprète comme la fréquence fi c’est-à-dire la proportion des observationsqui se trouvent dans l’intervalle [ei, ei+1[.

On peut écrire :

Si = P (ei ≤ X < ei+1)

L’intérêt de cette représentation est qu’on peut représenter la proportiond’observations qui sont dans plusieurs intervalles contigus en additionnant lessurfaces des rectangles correspondants.

Par exemple, dans le diagramme suivant, la zone hachurée correspond à laproportion P (5000 ≤ X < 10000) où X est le loyer.


4000 6000 8000 10000 12000 14000 16000 18000

050

100

150

200

250

P(5000 < loyer < 10000)

Interprétation des hauteurs

La grande différence entre les diagrammes en bâtons et les histogrammes estque dans les premiers ni est représenté en hauteur tandis que, dans les seconds,il est représenté en surface.

Quelle est alors la signification de la hauteur dans un histogramme ?

On a

ni ∝ ai × hi =⇒ hi ∝niai

Le rapport di =niai

est la densité de la classe Ci. Donc lorsqu’un rectan-

gle est plus haut qu’un autre, c’est que la densité de son intervalle est plusgrande, autrement dit qu’il comporte plus de données à amplitude égale. Leshistogrammes appréciés en hauteur donnent un aperçu de la densité de réparti-tion des données.


4000 6000 8000 10000 12000 14000 16000 18000

050

100

150

200

250

Histogramme des loyers

Le rectangle en pointillés représente la fusion des deux premières classes.Leur effectif cumulé est de 13 + 56 = 69 et le rectangle a donc une hauteurde 69 pour une amplitude de 2000. Précédemment on avait deux rectangles dehauteurs respectives 2× 13 = 26 et 2× 56 = 112.

2.6 Polygônes de fréquence

On obtient le polygône de fréquence en joignant, par une ligne polygonale, lespoints situés au milieu des arêtes supérieures des rectangles.

Ces graphiques permettent de visualiser les densités au moyen d’une lignecontinue plutôt que par des paliers. L’effet obtenu est de lisser les créneaux des

2.6. POLYGÔNES DE FRÉQUENCE 25

histogrammes.

4000 6000 8000 10000 12000 14000 16000 18000

050

100

150

200

250

Polygône de fréquences

4000 6000 8000 10000 12000 14000 16000 18000

050

100

150

200

250

Polygône de fréquences

On utilise cette technique pour des histogrammes dont les rectangles onttous la même amplitude. En effet, dans ce cas, la surface située sous la courbepolygonale est la même que celle des rectangles.

On voit sur les graphiques suivants comment les aires des triangles délimitéspar les rectangles de l’histogramme et la ligne polygonale se compensent.


L’interprétation de la surface située sous le polygône de fréquences entre desbornes a et b est la proportion

P (a ≤ X < b)

de données appartenant à l’intervalle [a, b[.

2.7 Diagrammes de dispersion

Les diagrammes de dispersion servent à représenter les corrélations qui peuventexister entre des observations portant sur deux variables différentes. Si x et ysont les deux variables observées, pour chaque observation Oi, on place le pointde coordonnées (xi, yi).

L’ensemble des points obtenus s’appelle un nuage.

Le graphique qui suit est un diagramme de dispersion correspondant àdeux variables x et y distribuées uniformément. Cela signifie simplement queles valeurs observées pour chacune des deux variables sont équiréparties surl’intervalle où elles sont définies.

On voit que les points obtenus sont uniformément répartis dans le carré. Cetexemple est typique de l’absence de corrélation entre les variables x et y.

2.7. DIAGRAMMES DE DISPERSION 27

0 20 40 60 80 100

020

40

60

80

100

Diagramme de dispersion uniforme

x

y

Les deux graphiques qui suivent sont des diagrammes de dispersion corre-spondant à deux variables x et y distribuées. Cette notion sera vue avec précisionpar la suite, mais ici cela signifie simplement que les observations sont masséesautour d’une valeur centrale et qu’elles se raréfient quand on s’en éloigne.

Le deuxième graphique ajoute justement des petits traits (le long des axes)qui matérialisent la répartition des x et des y.

On voit que les points obtenus sont uniformément répartis autour d’un pointcentral. Cet exemple est typique de l’absence de corrélation entre les variablesx et y.


5 10 15

510

15

20

Diagramme de dispersion ’normale’

x

y

5 10 15

510

15

20

Diagramme de dispersion ’normale’

x

y

5 10 15

L’exemple qui suit est un diagramme qui suggère une corrélation positiveentre les x et les y. Le nuage de points semble orienté dans une directionparticulière.

On verra par la suite comment calculer une droite qui ajuste au plus prèsles points du nuage. C’est ce qu’on appelle une droite de régression.

5 10 15

10

20

30

40

50

Diagramme de dispersion corrélé

x

y

5 10 15

10

20

30

40

50

Diagramme de dispersion corrélé

x

y

2.7. DIAGRAMMES DE DISPERSION 29

On peut généraliser la notion de diagramme de dispersion au cas de jeux dedonnées comportant plus de deux variables.

On présente sur un même graphique les diagrammes de dispersion établispar paires de variables.

C’est un moyen d’explorer ce type de jeux de données en recherchant vi-suellement si certaines variables semblent corrélées ou pas.

Sur la diagonale, on indique le nom des variables. Ce graphique est symétriquepar rapport à la première diagonale.

Exemple

On utilise le jeu de données suivant appelé airquality : Table de donnéesmétéorologiques

Il est constitué de mesures relatives à la qualité de l’air relevées à l’aéroportLa Guardia de New York entre le 1er mai et de 30 septembre 1973.

Il comporte 153 observations portant sur les 6 variables suivantes :

Ozone Taux d’ozone en ppb (parts per billion)Solar.R Rayonnement solaire (langleys)Wind Vitesse du vent (miles par heure)Temp Température (degrés Fahrenheit)Month Mois (entre 1 et 12)Day Jour du mois (entre 1 et 31)

Ozone

0 100 200 300 60 70 80 90

050

10

015

0

01

00

20

030

0

Solar.R

Wind

51

015

20

0 50 100 150

60

70

80

90

5 10 15 20

Temp


2.8 Courbes d’évolution

Ce sont des diagrammes qui sont utilisés pour représenter des données qui évolu-ent dans le temps. On parle dans ce cas de séries temporelles ou données longi-tudinales.

Le graphique suivant représente l’évolution des températures dans le jeu dedonnées météorologiques.

Températures

Mai − Septembre 1973

Degré

s F

ahre

nheit

1973.4 1973.5 1973.6 1973.7

60

70

80

90

On peut représenter en parallèle plusieurs de ces graphiques comme surl’exemple suivant où on peut suivre l’évolution séparément du taux d’ozone, durayonnement solaire, de la vitesse du vent et de la température.

On observera qu’il y a des trous par endroits. Ceux-ci correspondent auxdonnées manquantes.

2.8. COURBES D’ÉVOLUTION 31

050

10

01

50

Ozone

01

00

200

30

0

Sola

r.R

51

01

52

0

Win

d

60

70

80

90

1973.4 1973.5 1973.6 1973.7

Tem

p

Mai − Septembre 1973

Air quality

Enfin on peut parfois représenter plusieurs courbes sur un même graphiqued’évolution mais cela n’est pas toujours lisible si jamais les courbes s’entrecoupent.Cela pause aussi un problème d’échelle car les intervalles de valeurs peuvent dif-férer considérablement entre différentes variables. La solution dans ce cas est deprésenter les données comme des variations par rapport à une base commune.On choisit en général une “base 100” pour la première observation et on ajusteles autres données par rapport à cette base.

Reprenons l’exemple des taux de réussite au baccalauréat dans l’académiede La Réunion, pour les filles et les garçons, de 2005 à 2011.

Le graphe suivant montre l’évolution de ce taux pour les filles et pour lesgarçons séparément.


2005 2006 2007 2008 2009 2010

40

45

50

55

60

65

70

Baccalauréat à La Réunion

Taux d

e r

éussite

Filles

Garçons

Exercice 2

La table suivante indique le mode de cohabitation des 18-24 ans en Franceen 2011.

a) Faire un diagramme circulaire représentant les proportions des diversescatégories.

b) Faire un diagramme en bâton représentant les répartitions.c) Faire un diagramme en bâton représentant les répartitions en distinguant

les femmes et les hommes.

Mode de cohabitation Effectifs RépartitionEnsemble Hommes Femmes

Enfant d’un couple 2 053,2 36,7 41,0 32,3Enfant de famille monoparentale 774,8 13,8 15,5 12,2

En couple sans enfant 708,4 12,7 9,3 16,1En couple avec enfants 259,9 4,6 2,7 6,6

Parent de famille monoparentale 76,0 1,4 0,1 2,6En ménage avec d’autres 527,0 9,4 9,7 9,2

Seul 883,7 15,8 14,9 16,7Hors ménage 312,2 5,6 6,8 4,3

Total 5 595,1 100,0 100,0 100,0

Chapter 3

Indicateurs de tendance

3.1 IntroductionLa statistique descriptive définit des indices ou indicateurs permettant de ré-sumer quantitativement les valeurs observées d’un caractère. On distingue lestypes suivants :

• les indicateurs de position

• les indicateurs de tendance centrale

• les indicateurs de dispersion

• les indicateurs de concentration

On étudiera aussi des indicateurs de prix qui jouent un rôle important enéconomie.

Hormis les caractéristiques de position, les autres indicateurs ne concernentque les variables quantitatives car ils sont calculés à partir des valeurs du car-actère.

3.2 Caractéristiques de positionLes indicateurs de position fournissent des renseignements sur des variables aussibien qualitatives que quantitatives.

Les caractéristiques de position sont de deux types :

• certaines sont relatives aux effectifs : mode et classe modale ;

• d’autres sont relatives au rang occupé par les observations les unes parrapport aux autres plutôt qu’à leur valeur.

Remarque : dans le cas d’une variable qualitative, il faut qu’elle soit or-dinale, c’est-à-dire qu’on puisse ordonner les valeurs du caractère, si on veutpouvoir parler de rang.

33

34 CHAPTER 3. INDICATEURS DE TENDANCE

3.2.1 Mode

Le mode concerne les variables qualitatives ou quantitatives discrètes. Dans cecas, on dresse la table des effectifs qui dénombre les observations correspondantà chaque modalité.

Par définition, le mode est la valeur (ou la modalité) de la variable quia l’effectif le plus élevé. Sur un diagramme en bâtons, c’est la modalité quicorrespond au bâton le plus haut.

Exemple 1

Une enquête de satisfaction a attribué une note entre 1 et 10 pour évaluerla qualité d’un service. Les résultats sont les suivants :

Note 1 2 3 4 5 6 7 8 9 10Effectifs 5 3 4 7 8 10 15 11 6 6

Il s’agit d’une variable quantitative discrète. Le mode est 7.

Le diagramme en bâtons fait clairement apparaître le mode.

1 2 3 4 5 6 7 8 9 10

02

46

810

12

14

Exemple 2

Ménages selon la structure familiale.

Données INSEE pour 2011 (RP2011).

3.2. CARACTÉRISTIQUES DE POSITION 35

Type de ménage en milliersMénages composés uniquement

d’un homme seul 4 032,2d’une femme seule 5 529,5

d’un couple sans enfant 7 250,4d’un couple avec enfant(s) 7 435,6d’une famille monoparentale 2 345,2

Ici les données sont en effectifs. Il s’agit d’une variable qualitative. Le modeest “couple avec enfant(s)”.

Exemple 3

Répartition des résidences principales par statut d’occupation (en %).Données INSEE pour 2013.

Propriétaires 57,9Locataires 39,1Autres 3,0

Ici les données sont en proportion. Il s’agit d’une variable qualitative. Lemode est “Propriétaires”.

Remarque :Le mode n’est pas nécessairement unique. La notion de maximum est une

propriété dite locale plutôt que globale. Si le diagramme en bâtons a la formesuivante, on voit apparaître deux modes et on dit, dans ce cas, que la distributionest bimodale.

1 2 3 4 5 6 7 8 9 10

02

46

810

12

14

3.2.2 Classe modaleLa classe modale concerne les variables quantitatives continues. Dans ce cas, onregroupe les données en classes et on dresse la table des effectifs qui dénombreles observations entrant dans chacune des classes.


On distingue alors deux cas :• si les classes sont d’amplitude égale, la classe modale est celle qui a le plus

grand effectif.• si les classes ne sont pas d’amplitude égale, on ramène tout à une amplitude

commune en divisant les fréquences par la longueur des intervalles. On calculedonc les densités de chaque classe :

di =niai

Par définition, la classe modale est celle de plus forte densité. Graphique-ment, on la repère sur un histogramme comme étant celle dont le rectangle estle plus haut.

Exemple

Une entreprise s’intéresse à la distance parcourue par les employés entre ledomicile et le lieu de travail. On a noté les effectifs suivants :

Kilométrage [0,10[ [10,20[ [20,30[ [30,40[ [40,50[ [50,60[ [60,70[Effectifs 14 23 32 21 12 8 4

Ici toutes les classes sont de même amplitude. La classe modale est [20, 30[.

Exemple

Répartition par âge des salariés de 15 ans ou plusDonnées INSEE RP2011.

Âge Effectif Amplitude Densité15 à 19 ans 487 944 4 121 986,020 à 24 ans 1 950 777 4 487 694,225 à 39 ans 8 911 762 14 636 554,440 à 54 ans 9 483 149 14 677 367,855 à 64 ans 2 722 458 9 302 495,3

65 ans ou plus 149 400 5 29 880,0

Les classes sont de longueur inégale. On doit calculer les amplitudes et lesdensités.

La classe modale est celle des “40 à 54 ans”.

Remarque :dans la table précédente, on a fixé l’amplitude de la classe des “65 ans et

plus” à 5. C’est ce qu’on appelle une estimation a maxima. On ne peut pasdire quel est l’âge maximum d’un salarié mais on sait qu’il existe des salariésde 70 ans, donc la borne supérieure est au moins de 70 et, en divisant par cetteamplitude (70-65=5), on obtient une valeur qui est un majorant la densité.


3.2.3 MédianeLa notion de médiane concerne les variables quantitatives.

Définition 3.2.1. La médiane est une quantité qui partage les observations endeux groupes de même taille.

C’est donc une valeur M (parfois aussi notée Me) telle qu’il y ait 50% desobservations pour lesquelles le caractère observé X est inférieur à M et 50%des observations pour lesquelles le caractère observé X est supérieur à M .

On peut écrire :P (X ≤M) = 0.5

On reconnaît la définition des proportions cumulées.

Exemple 1

On a relevé les notes de 9 étudiants à un examen :

11,5 7 16 14 8,5 10,5 13 11 5

Pour trouver la médiane, il faut commencer par ordonner les notes :

5 7 8,5 10,5 11 11,5 13 14 16

La valeurM = 11 est la médiane car elle sépare les données en deux groupesde même taille.

Exemple 2

On ajoute un dixième étudiant qui a obtenu 12 :

11,5 7 16 14 8,5 10,5 13 11 5 12

On ordonne les notes :

5 7 8,5 10,5 11 11,5 12 13 14 16

Les valeurs 11 et 11,5 constituent l’intervalle médian. On prend commemédiane le milieu de cet intervalle, à savoir M = 11, 25.

Exemple 3

Cas d’une variable continueExploitations agricoles selon la superficie agricole utilisée (SAU) en 2010.Source INSEE. Les effectifs sont indiqués en milliers.

SAU Effectifs Proportions Prop. cumuléesMoins de 20 ha 235,4 45.74 45.74

De 20 à moins de 50 ha 88,4 17.18 62.92De 50 à moins de 100 ha 97,6 18.96 81.88De 100 à moins de 200 ha 72,7 14.12 96.00

200 ha ou plus 20,6 4.00 100Total 514,7


On cherche où se situe la proportion cumulée de 50%. D’après la tableau,c’est entre 45.74% et 62.92%.

Il faut faire une interpolation linéaire.L’interpolation linéaire consiste à chercher la valeur M qui soit par rapport

à 20 et 50 comme la valeur 50% par rapport à 45.74% et 62.92%.

SAU Prop. cumulée20 ha 45.74%M ? 50%50 ha 62.92%

Graphiquement, on représente le problème de la manière suivante :

0 10 20 30 40 50 60

30

40

50

60

70

80

SAU

Pro

port

ion c

um

ulé

e

M20 50

45.74 %

62.92 %

50 %

50 − 45.74

62.92 − 45.74=

M − 20

50 − 20

On calcule50− 45.74

62.92− 45.74=M − 2050− 20

On en déduit :4.26

17.18=M − 20

30

Finalement :

M = 20 +4.26× 30

17.18= 20 + 7.44 = 27.44 ha

3.2.4 Quartiles

La notion de quartiles concerne les variables quantitatives.


Définition 3.2.2. Les quartiles sont trois quantités qui partagent les observa-tions en quatre groupes de même taille.

Ce sont donc des valeurs, habituellement notées Q1, Q2 et Q3, telles qu’ily ait 25% des observations pour lesquelles le caractère observé X soit comprisdans les intervalles qu’elles délimitent. Plus précisément, on a :

P (X < Q1) = 0.25

P (Q1 < X < Q2) = 0.25

P (Q2 < X < Q3) = 0.25

P (X > Q3) = 0.25

En utilisant les proportions cumulées, c’est équivalent à dire que :

P (X < Q1) = 0.25

P (X < Q2) = 0.50

P (X < Q3) = 0.75

On en déduit, en particulier, que le quartile Q2 n’est autre que la médiane :

Q2 = M

L’intervalle [Q1, Q3] concentre 50% des observations :

P (Q1 < X < Q3) = 0.50

Exemple 1

Cet exemple a déjà été vu dans la séance 01. On a relevé les poids suivants(en kg) parmi 100 individus :

64 85 79 84 68 74 94 75 64 6572 74 78 69 67 64 70 63 69 8262 64 71 74 77 73 77 76 82 8286 48 50 69 76 59 70 61 55 7773 81 76 56 63 84 63 57 76 8662 70 69 66 63 90 72 73 73 7675 70 68 66 74 66 52 66 81 5777 79 55 69 78 60 85 70 67 6476 78 65 81 69 76 72 71 74 5867 76 74 78 79 69 92 64 73 65

On doit d’abord ordonner les poids :


48 50 52 55 55 56 57 57 58 5960 61 62 62 63 63 63 63 64 6464 64 64 64 65 65 65 66 66 6666 67 67 67 68 68 69 69 69 6969 69 69 70 70 70 70 70 71 7172 72 72 73 73 73 73 73 74 7474 74 74 74 75 75 76 76 76 7676 76 76 76 77 77 77 77 78 7878 78 79 79 79 81 81 81 82 8282 84 84 85 85 86 86 90 92 94

On a fait apparaître les valeurs situées en positions 25-26, 50-51 et 75-76.Ce sont des intervalles quartiles. Il faut en prendre le milieu. Par exemple,{

poids[25] = 65

poids[26] = 65=⇒ Q1 = 65

{poids[50] = 71

poids[51] = 72=⇒ Q2 = 71, 5

De même, on trouve Q3 = 77. On peut dire que 50% des personnes observéespèsent entre 65 et 77 kilos.

Exemple 2

Distribution du revenu salarial annuel par sexe ou catégorie socioprofession-nelle sur l’ensemble des salariés en 2010.

Source INSEE (DADS 2010 définitif). Montants en euros courants.

Q1 Q2 Q3Ensemble 9 370 17 510 24 590Femmes 7 930 15 910 22 270Hommes 11 460 19 060 26 820Cadres 24 420 33 650 46 350

Professions intermédiaires 16 130 22 400 27 870Employés 6 010 14 060 18 640Ouvriers 7 410 15 580 20 000

3.2.5 Déciles et centilesDéfinition 3.2.3. Les déciles sont 9 quantités qui partagent les observationsen 10 groupes de même taille (contenant chacun 10% des observations).

On les notes usuellement D1, D2, . . . , D9. L’intervalle [D1, D9] concentre80% des observations. On remarque que le 5ème décile est la médiane: D5 = M .

Définition 3.2.4. Les centiles sont 99 quantités qui partagent les observationsen 100 groupes de même taille (contenant chacun 1% des observations).

3.3. INDICATEURS DE TENDANCE CENTRALE 41

On les notes usuellement C1, C2, . . . , C99 ou aussi parfois P1, P2, . . . , P99 (caren anglais on dit “percentile”). On a C50 = M .

Exemple

On reprend l’exemple de la distribution du revenu salarial annuel par sexe oucatégorie socioprofessionnelle sur l’ensemble des salariés en 2010. Les donnéesde l’INSEE donnent les valeurs suivantes pour les principaux déciles :

D1 D5 D9Ensemble 2 360 17 510 34 600Femmes 1 970 15 910 30 070Hommes 2 840 19 060 39 110Cadres 10 840 33 650 66 600

Professions intermédiaires 6 310 22 400 33 660Employés 1 450 14 060 22 980Ouvriers 1 910 15 580 24 190

La médiane, les quartiles, les déciles et les centiles s’appellent de manièregénérale des quantiles.

En généralisant leur définition on obtient la notion de quantile d’ordre α%.C’est une quantité qα telle que α% des valeurs observées soient inférieures à qα.

Autrement dit, on écrit :

P (X < qα) = α/100

si α est exprimé en pourcentage.

3.3 Indicateurs de tendance centrale

Dans tout ce qui suit, on définira les indicateurs dans deux cas de figures selonla manière dont sont présentées les données :

• sous forme de données exhaustives (on dit aussi des données individuelles);

• sous forme de données regroupées dans des tableaux d’effectifs ou destableaux de fréquences (on dit aussi des données en classes).

3.3.1 Moyenne arithmétique

La valeur centrale la plus simple est la moyenne arithmétique. Si les donnéessont disponibles sous forme exhaustive, c’est la somme des valeurs divisée parle nombre total d’observations :

m =x1 + x2 + · · ·+ xN

N


Cette moyenne est aussi notéem1 ou encore x̄ où x est le “vecteur” contenanttoutes les valeurs observées.

Exemple

20 étudiants ont passé un test noté entre 0 et 5 et on a relevé les notessuivantes :

2 3 1 4 3 2 3 3 3 2 4 3 2 0 4 2 2 4 3 3

La moyenne est :

m =2 + 3 + 1 + 4 + 3 + 2 + 3 + 3 + 3 + 2 + 4 + 3 + 2 + 0 + 4 + 2 + 2 + 4 + 3 + 3

20

=53

20= 2, 65

Si on ordonne ces notes par ordre croissant, le calcul précédent peut s’écrirede la manière suivante :

m =0 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4

20

=0 + 1 + (2 + 2 + 2 + 2 + 2 + 2) + (3 + 3 + 3 + 3 + 3 + 3 + 3 + 3) + (4 + 4 + 4 + 4)

20

=1× 0 + 1× 1 + 6× 2 + 8× 3 + 4× 4

20

=1 + 12 + 24 + 16

20

=53

20= 2, 65

Cette écriture correspond à la table des effectifs associée à ces notes :

Notes 0 1 2 3 4Effectifs 1 1 6 8 4

On aboutit donc à l’autre formule permettant de calculer la moyenne arith-métique lorsque les données sont regroupées dans une table d’effectifs de la forme:


La formule s’écrit :

m =n1v1 + n2v2 + · · ·+ nkvk

N

avec N = n1 + n2 + · · ·+ nk.

Exercice 3

On a relevé pendant un mois dans une entreprise le nombre d’absences ré-sultant d’arrêts-maladies :


Durée en jours 1 2 3 4 5 6 7 8Effectifs 7 9 4 4 6 5 2 1

Calculer la durée moyenne d’un arrêt-maladie.

CorrigéL’effectif total est de 38. On applique la formule en données regroupées :

m =7× 1 + 9× 2 + 4× 3 + 4× 4 + 6× 5 + 5× 6 + 2× 7 + 1× 8

38

=135

38

≈ 3, 55

En partant de la formule en données regroupées et en divisant chaque termepar N , on obtient :

m =n1v1 + n2v2 + · · ·+ nkvk

N

=n1Nv1 +

n2Nv2 + · · ·+

nkNvk

= f1v1 + f2v2 + · · ·+ fkvk

où fi = niN est la fréquence.Donc, lorsqu’on a un tableau de proportions (et non plus d’effectifs), la

formule pour la moyenne est :

m = f1v1 + f2v2 + · · ·+ fkvk

Dans le cas d’une variable continue regroupée en classes, on utilise les milieuxdes classes pour faire les calculs.

Exemple

Le tableau suivant donne la répartition des employés d’une entreprise selonle salaire mensuel en milliers d’euros. Calculer la moyenne.

[1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150vi 1.75 2.25 2.75 3.25 3.75 4.5nivi 54.25 76.50 110 84.50 48.75 27 401

Les vi sont les milieux des classes.

m =1

150

(31× 1.75 + 34× 2.25 + 40× 2.75 + 26× 3.25

+ 13× 3.75 + 6× 4.5)

=401

150= 2.67


3.3.2 Moyenne géométriqueLa moyenne géométrique intervient lorsqu’on a affaire à des grandeurs qui sontpar essence multiplicatives. L’exemple le plus courant est celui des coefficientsmultiplicateurs qui permettent de calculer l’évolution d’une grandeur soumise àun taux d’accroissement.

Il faut que les valeurs soient des nombres positifs.Dans le cas de données exhaustives, la formule s’écrit :

m0 =(x1x2 . . . xN

) 1N

= N√x1x2 . . . xN

Avec des données regroupées dans un tableau d’effectifs, la formule s’écritde la manière suivante :

m0 =(vn11 v

n22 . . . v

nkk

) 1N

= N√vn11 v

n12 . . . v

nkk

Exercice 4

Les dépenses de consommation des ménages au cours des deux dernierstrimestres de 2013 et des deux premiers trimestres de 2014 ont évolué de lamanière suivante :

2013 T3 2013 T4 2014 T1 2014 T2Conso. ménages -0,1% 0,2% -0,5% 0,5%

Source : note de conjoncture INSEE.

Montrer que le coefficient multiplicateur moyen est la moyenne géométriquedes coefficients multiplicateurs de chaque trimestre.

Corrigé

Pour un taux d’accroissement r, le coefficient multiplicateur est (1 + r). Onapplique donc successivement les taux multiplicateurs en multipliant par :

(1− 0, 1/100)× (1 + 0, 2/100)× (1− 0, 5/100)× (1 + 0, 5/100)= (1− 0, 001)× (1 + 0, 002)× (1− 0, 005)× (1 + 0, 005)= 0, 999× 1, 002× 0, 995× 1, 005 = 1, 000973

Si on appelle t le taux trimestriel moyen, le coefficient multiplicateur est(1 + t) et on doit avoir, sur quatre mois :

(1 + t)4 = 0, 999× 1, 002× 0, 995× 1, 005

et donc1 + t =

(0, 999× 1, 002× 0, 995× 1, 005

)1/4C’est bien la formule de la moyenne géométrique. Numériquement on trouve :

1 + t = 1, 000243 =⇒ t = 0, 000243 = 0, 0243%

C’est quasiment stable (t ≈ 0%).


3.3.3 Moyenne quadratiqueLa moyenne quadratique intervient lorsqu’on a affaire à des grandeurs qui sontpar essence des carrés d’une certaine quantité. L’exemple le plus courant estcelui des surfaces. Elle est notée en général m2.

Il s’agit de prendre la moyenne des carrés des valeurs. Mais comme ons’attend à ce qu’une moyenne soit exprimée dans la même unité que les grandeurselles-mêmes, il faut prendre la racine carrée du résultat.

La formule pour des données exhaustives est :

m2 =

(x21 + x

22 + · · ·+ x2NN

) 12

=

√x21 + x

22 + · · ·+ x2NN

Pour des données regroupées en tableau d’effectifs, la formule devient :

m2 =

(n1v

21 + n2v

22 + · · ·+ nkv2kN

) 12

=

√n1v21 + n2v

22 + · · ·+ nkv2kN

Pour des données regroupées en tableau de fréquences, la formule devient :

m2 =(f1v

21 + f2v

22 + · · ·+ fkv2k

) 12 =

√f1v21 + f2v

22 + · · ·+ fkv2k

Exercice 5

Un paysan possède 5 parcelles carrées dont le côté mesure respectivement

1,2 1,5 2,3 4,7 5,1

Il voudrait les échanger contre cinq parcelles carrées identiques pour unemême surface totale. Monter que l’arête des nouvelles parcelles est la moyennequadratique des 5 arêtes.

Attention : l’arête des nouvelles parcelles n’est pas la moyenne arithmé-

tique des cinq arêtes1, 2 + 1, 5 + 2, 3 + 4, 7 + 5, 1

5= 2.96.

Corrigé

Si a est l’arête recherchée, on doit avoir, en écrivant l’égalité des surfaces :

5 a2 = 1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12

On en déduit :

a2 =1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12

5

et donc :

a =

(1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12

5

)1/2


ce qui est bien la formule de la moyenne quadratique.Les calculs donnent

a =

(1, 44 + 2, 25 + 5, 29 + 22, 09 + 26, 01

5

)1/2=

√57, 08

5≈ 3, 38

3.3.4 Moyenne d’ordre pLa moyenne quadratique se généralise sans difficulté au cas de la puissance p(au lieu de la puissance 2). On obtient alors la moyenne d’ordre p qui est notéeen général mp.

Il s’agit de prendre la moyenne des puissances p-ièmes des valeurs. Maiscomme on s’attend à ce qu’une moyenne soit exprimée dans la même unité queles grandeurs elles-mêmes, il faut prendre la racine p-ième du résultat.


mp =

(xp1 + x

p2 + · · ·+ x

pN

N

) 1p

=p

√xp1 + x

p2 + · · ·+ x

pN

N

Pour des données regroupées en tableau d’effectifs, la formule devient :

mp =

(n1v

p1 + n2v

p2 + · · ·+ nkv

pk

N

) 1p

=p

√n1v

p1 + n2v

p2 + · · ·+ nkv

pk

N

Pour des données regroupées en tableau de fréquences, la formule devient :

mp = (f1vp1 + f2v

p2 + · · ·+ fkv

pk)

1p = p

√f1v

p1 + f2v

p2 + · · ·+ fkv

pk

3.3.5 Moyenne harmoniqueSi on prend la valeur p = −1 dans la définition de la moyenne d’ordre p vueprécédemment, on obtient la moyenne harmonique, en générale notée m−1.


m−1 =

(x−11 + x

−12 + · · ·+ x

−1N

N

)−1En appliquant le fait que la puissance -1 d’un nombre est son inverse, on

obtient :m−1 =

N

x−11 + x−12 + · · ·+ x

−1N

Finalement

m−1 =N

1/x1 + 1/x2 + · · ·+ 1/xN


Exercice 6

(emprunté à M. Crawley, Statistics: An Introduction using R, Ed. Wiley,2005)

Un éléphant habite dans un enclos carré d’un kilomètre de côté. Il en faitle tour tous les jours de la manière suivante : il parcourt le premier côté à lavitesse de 1 km/h, puis le deuxième côté à la vitesse de 2 km/h, le troisièmecôté à la vitesse de 4 km/h, et le dernier côté à la vitesse de 1 km/h.

Quelle est sa vitesse moyenne ?

Attention : nous allons voir que ce n’est pas la moyenne arithmétique des

quatre vitesses1 + 2 + 4 + 1

4= 2.

Corrigé

La vitesse est la distance divisée par le temps : v =d

t.

On sait que la distance parcourue est de d = 4 kilomètres (c’est le périmètrede l’enclos).

Le temps mis à en faire le tour est la somme des temps mis à parcourir chaquearête : 1 heure pour le premier côté, 1/2 heure pour le deuxième, 1/4 heure pourle troisième, 1/2 heure pour le dernier. D’où le temps total :

t = 1 + 1/2 + 1/4 + 1 = 11/4

Finalement :

v =d

t=

4

1/1 + 1/2 + 1/4 + 1/1

C’est la formule de la moyenne harmonique ! Numériquement, on trouvev = 16/11 ≈ 1, 45 km/h.

3.3.6 Comparaison des moyennes

Toutes les moyennes vues précédemment peuvent être comparées entre ellesgrâce au résultat suivant :

Si p < q alors mp ≤ mq.Il y a égalité si et seulement si toutes les valeurs sont égales entre elles.

Autrement l’inégalité est stricte.

Exercice 7

Calculer les moyennes m−1, m0, m1, m2, m3 des nombres 7, 8, 9, 10.

Corrigé


On trouve :

m−1 = 8, 351284

m0 = 8, 425732

m1 = 8, 5

m2 = 8, 573214

m3 = 8, 644585

et on constate effectivement que ces valeurs vont en croissant :

m−1 < m0 < m1 < m2 < m3

Chapter 4

Indicateurs de dispersion

4.1 Indicateurs de dispersionUne fois qu’on a identifié des valeurs donnant la tendance centrale d’un ensembled’observations, on se demande comment les valeurs sont distribuées autour decette valeur centrale (moyenne, médiane, etc.).

Cela consiste à se demander si les observations appartiennent à un intervalleplus ou moins large, si les valeurs sont très “tassées” autour de la valeur centraleou au contraire très étalées, etc.

On définit plusieurs sortes d’indicateurs qui permettent d’apprécier cet as-pect des distributions statistiques. On les appelle indicateurs de dispersion.

Voici quelques cas de figure pour mieux se représenter le problème :

0 5 10 15 20

−1.0

−0.5

0.0

0.5

1.0

49

50 CHAPTER 4. INDICATEURS DE DISPERSION

0 5 10 15 20

−1.0

−0.5

0.0

0.5

1.0

0 5 10 15 20

−1.0

−0.5

0.0

0.5

1.0

4.1. INDICATEURS DE DISPERSION 51

0 5 10 15 20

−1.0

−0.5

0.0

0.5

1.0

4.1.1 L’étendue

L’étendue est la différence entre la valeur maximale et la valeur minimale de ladistribution.

C’est la différence entre les valeurs extrêmes, autrement dit l’amplitude duplus petit intervalle contenant toutes les observations.

Il donne une indication sur l’étalement des valeurs observées mais est trèstributaire des valeurs extrêmes qui peuvent souvent être des valeurs exception-nelles. Il ne donne pas de renseignement sur la manière dont les autres obser-vations se répartissent dans cet intervalle.

C’est donc une estimation grossière.

Exemple

Dans le premier graphique précédent, la distribution était :

7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6

On avait donc une étendue de E = 11.6− 7.8 = 3.8.Dans le dernier graphique précédent, la distribution était :

1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

On avait donc une étendue de E = 19.8− 1.2 = 18.6.


4.1.2 L’intervalle inter-quartilesOn a défini les quartiles (Q1, Q2 et Q3) qui sont des quantités permettant derépartir les données en quatre sous-classes de même effectif (25% des donnéesobservées).

Définition 4.1.1. On appelle intervalle inter-quartile la différence Q3 −Q1.

C’est l’amplitude de l’intervalle [Q1, Q3]. Cet intervalle contient 50% desobservations : son étendue indique donc si ces 50% d’observations centralessont réparties sur une petite ou une grande étendue de valeurs.

Remarque:Cette quantité est souvent notée IQR qui est l’abréviation de l’anglais “inter

quartile range”.

Exemple

Dans le premier graphique précédent, la distribution était :

7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6

Les quartiles de cette distribution sont :

Min Q1 Q2 Q3 Max7.80 9.55 10.35 10.75 11.60

L’intervalle inter-quartiles est donc : Q3 −Q1 = 10.75− 9.55 = 1.2.

Exemple

Dans le dernier graphique précédent, la distribution était :

1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

Les quartiles de cette distribution sont :

Min Q1 Q2 Q3 Max1.20 6.35 12.05 15.45 19.80

L’intervalle inter-quartiles est donc : Q3 −Q1 = 15.45− 6.35 = 9.1.On généralise cette notion en définissant des intervalles en quantiles liés aux

déciles ou aux centiles. Par exemple, l’intervalle [D1, D9] est intéressant car ilconcentre 80% des données observées.

Toutes ces quantités sont néanmoins imparfaites car elles ne sont pas ma-nipulables dans des calculs algébriques et donc entrent difficilement dans desformules.

Il faut remarquer qu’elles se fondent sur le rang des observations plutôt quesur leur valeur. Cet aspect est à leur avantage car elles sont moins sensibles auxvariations de valeurs.

Exemple


Reprenons le dernier exemple de distribution. Les valeurs des déciles sontD1 = 3.75 et D9 = 18.55, l’étendue inter-décile 18.55 − 3.75 = 14.8 pour uneétendue totale de 18.6.

4.1.3 L’écart absolu moyenPour avoir une meilleure idée de la dispersion proprement dite, il faut regarderles écarts par rapport à la valeur centrale. On va commencer par s’intéresseraux écarts par rapport à la moyenne.

0 5 10 15 20

05

10

15

20

Le graphique précédent représente l’ensemble des points de la dernière dis-tribution à des hauteurs différentes pour pouvoir mieux les différencier.

Ces écarts se font vers la gauche ou vers la droite. Comme on sait que leursomme est toujours égale à 0, il faut en fait les envisager en valeur absolue.

Définition 4.1.2. L’écart absolu moyen est la moyenne arithmétique de lavaleur absolue des écarts à la moyenne.

Si les données sont écrites sous forme exhaustive, la formule mathématiques’écrit :

eam =1

N

N∑i=1

|xi −m| =|x1 −m|+ |x2 −m|+ · · ·+ |xN −m|

N

où m = x̄ = 1N∑Ni=1 xi désigne la moyenne artihmétique.

Si les données sont regoupées sous forme de tableau d’effectifs de la forme :



La formule s’écrit :

eam =n1 × |v1 −m|+ n2 × |v2 −m|+ · · ·+ nk × |vk −m|

N

avec N = n1 + n2 + · · ·+ nk.L’écart absolu moyen est parfois noté ē s’il n’y a pas de risque d’ambiguïté

avec la moyenne x̄.Remarque :Si on ne mettait pas les valeurs absolues, on trouverait que la moyenne des

écarts est égale à 0. C’est un résultat général : la moyenne des écarts à lamoyenne est nulle.

Démonstration

1

N

N∑i=1

(xi − x̄) =1

N

N∑i=1

xi −1

N

N∑i=1

x̄

= x̄− 1NNx̄

= x̄− x̄= 0

Exemple

Reprenons l’exemple de la dernière distribution.

1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

Voici comment il faut présenter les calculs.On commence par calculer la moyenne arithmétique des valeurs observées :

m =1

20

(1.2 + 3.5 + 4.0 + 4.1 + 5.3 + 7.4 + 7.6 + 7.7 + 10.0 + 11.5

+ 12.6 + 13.2 + 13.7 + 14.4 + 15.4 + 15.5 + 18.0 + 18.2 + 18.9 + 19.8)

=222

20= 11.1

On calcule ensuite tous les écarts par rapport à la moyenne m = 11, 1 :|1.2− 11.1| = 9.9, |3.5− 11.1| = 7.6, |4.0− 11.1| = 7.1, etc.

On obtient les valeurs suivantes :

Valeur absolue des écarts à la moyenne9.9 7.6 7.1 7.0 5.8 3.7 3.5 3.4 1.1 0.41.5 2.1 2.6 3.3 4.3 4.4 6.9 7.1 7.8 8.7


Il ne reste plus qu’à calculer la moyenne de ces écarts :

eam =1

20

(9.9 + 7.6 + 7.1 + 7.0 + 5.8 + 3.7 + 3.5 + 3.4 + 1.1 + 0.4

+ 1.5 + 2.1 + 2.6 + 3.3 + 4.3 + 4.4 + 6.9 + 7.1 + 7.8 + 8.7)

=98.2

20= 4.91

En moyenne, les données s’écartent d’environ 4,9 de la valeur centrale.

Exercice

Mener les calculs pour les trois premières distributions :• Distribution 1

7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6

• Distribution 23.4 7.5 7.5 8.1 8.1 9.1 9.9 10.0 10.6 11.011.2 11.5 11.7 11.8 12.2 12.5 12.8 13.4 14.5 14.8

• Distribution 30.0 5.0 5.1 6.2 6.3 8.2 9.7 9.9 11.1 12.012.3 12.9 13.5 13.6 14.4 14.9 15.7 16.7 19.1 19.6

Corrigé

On trouve :

Moyenne Ecart absolu moyenDistribution 1 10.195 0.686Distribution 2 10.58 2.104Distribution 3 11.31 4.029

Discussion de l’écart absolu moyen

Avantages L’écart absolu moyen est une quantité qui correspond très bien àl’intuition de ce qu’est une dispersion moyenne.C’est une grandeur qui est toujours positive et qui est exprimée dans lamême unité que la variable observée. Elle est facile à calculer numérique-ment.

Inconvénients Il a cependant le défaut d’être difficile à manipuler algébrique-ment. En effet, les sommes de valeurs absolues ne se transforment pas biendans les expressions algébriques. Par exemple, la valeur absolue d’unesomme n’est pas la somme des valeurs absolues des termes de la somme.

Pour ces raisons, la quantité calculée est un bon indicateur de dispersion maiselle ne permet pas de développements théoriques. On lui préfère habituellementl’écart-type qui va être défini dans la section suivante.


4.1.4 La variance et l’écart-type

La raison d’être des valeurs absolues était d’ignorer dans quel sens se font lesécarts par rapport à la valeur centrale (vers la gauche ou vers la droite, pardéfaut ou par excès). Pour obtenir le même effet, on peut aussi élever ces écartsau carré.

On aboutit ainsi à la notion de variance d’une distribution :

Définition 4.1.3. La variance est la moyenne des carrés des écarts à la moyenne.

C’est une quantité positive.Si les données sont écrites sous forme exhaustive, la formule mathématique

de la variance s’écrit :

Var(x) =1

N

N∑i=1

(xi −m)2 =(x1 −m)2 + (x2 −m)2 + · · ·+ (xN −m)2

N

où m = x̄ = 1N∑Ni=1 xi désigne la moyenne artihmétique.

Si les données sont regoupées sous forme de tableau d’effectifs de la forme :


la formule s’écrit :

Var(x) =n1 × (v1 −m)2 + n2 × (v2 −m)2 + · · ·+ nk × (vk −m)2

N

avec N = n1 + n2 + · · ·+ nk et m = 1N∑ki=1 ni vi.

Avec un tableau de fréquences, la formule s’écrit :

Var(x) = f1 × (v1 −m)2 + f2 × (v2 −m)2 + · · ·+ fk × (vk −m)2

Exemple

Reprenons l’exemple de la dernière distribution.

1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

Voici comment il faut présenter les calculs.On a déjà précédemment calculé la moyenne arithmétique des valeurs ob-

servées m = 11.1.On calcule ensuite tous les écarts par rapport à la moyenne : (1.2−11.1)2 =

9.92 = 98.01, (3.5− 11.1)2 = 7.62 = 57.76, (4.0− 11.1)2 = 7.12 = 50.41, etc.On obtient les valeurs suivantes :


Carré des écarts à la moyenne98.01 57.76 50.41 49.00 33.64 13.69 12.25 11.56 1.21 0.162.25 4.41 6.76 10.89 18.49 19.36 47.61 50.41 60.84 75.69

Il ne reste plus qu’à calculer la moyenne de ces carrés :

Var(x) =1

20

(98.01 + 57.76 + 50.41 + 49.00 + 33.64 + 13.69 + 12.25

+ 11.56 + 1.21 + 0.16 + 2.25 + 4.41 + 6.76 + 10.89 + 18.49

+ 19.36 + 47.61 + 50.41 + 60.84 + 75.69)

=624.4

20= 31.22

La variance est une quantité au carré. Cela signifie que si les valeurs xi sontpar exemple mesurées en mètres, alors la variance est en mètres carrés. Or ons’attend à ce que la mesure de dispersion soit dans la même unité que les valeurselles-mêmes. C’est pourquoi on calcule la racine carrée de la variance commenouvel indice de dispersion.

Définition 4.1.4. On appelle écart-type la racine carrée de la variance.

L’écart-type est souvent noté au moyen de la lettre grecque σ qui se lit sigma.On a les relations suivantes :

Var(x) = σ(x)2

σ(x) =√

Var(x)

Exemple

Dans le cas précédent, on trouve σ =√

31, 22 ≈ 5, 59 .

Exercice

Mener les calculs de la variance et de l’écart-type pour les trois premièresdistributions.

Corrigé

On trouve :

Moyenne Variance Écart-typeDistribution 1 10.195 0.77 0.88Distribution 2 10.58 7.12 2.67Distribution 3 11.31 24.3 4.93

On peut comparer les écart-types avec les écarts absolus moyens : cesderniers sont légèrement inférieurs (respectivement 0.686, 2.104 et 4.029). C’estnormal puisqu’une moyenne arithmétique est toujours inférieure à une moyennequadratique.

Dans le cas d’une variable continue regroupée en classes, on utilise les milieuxdes classes pour faire les calculs.


Exemple

Le tableau suivant donne la répartition des employés d’une entreprise selonle salaire mensuel en milliers d’euros. Calculer l’écart-type.

[1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150xi 1.75 2.25 2.75 3.25 3.75 4.5nixi 54.25 76.50 110 84.50 48.75 27 401

On a déjà calculé la moyenne dans la séance précédente :

m =1

150

(31× 1.75 + 34× 2.25 + 40× 2.75 + 26× 3.25

+ 13× 3.75 + 6× 4.5)

=401

150= 2.67

On calcule ensuite les écarts à la moyenne, puis leurs carrés :

[1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150xi 1.75 2.25 2.75 3.25 3.75 4.5nixi 54.25 76.50 110 84.50 48.75 27 401xi −m -0.92 -0.42 0.08 0.58 1.08 1.83(xi −m)2 0.846 0.176 0.006 0.34 1.167 3.35

ni(xi −m)2 26.24 5.998 0.255 8.746 15.163 20.093 76.495

La variance est finalement

Var(x) =76.495

150= 0.51

et l’écart-type

σ =√

0.51 = 0.714

4.1.5 Propriétés de la varianceIl existe une autre formule (dite formule développée) pour calculer la varianced’une distribution :

Var(x) =1

N

N∑i=1

x2i − x̄2 =x21 + x

22 + · · ·+ x2NN

− x̄2

où x̄ désigne la moyenne arithmétique.On interprète cette formule en disant que


la variance est égale à la moyenne des carrés diminuée du carré de la moyenne.

Exemple

Reprenons l’exemple de la quatrième distribution.

1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

On calcule les carrés :

1.44 12.25 16.00 16.81 28.09 54.76 57.76 59.29100.00 132.25 158.76 174.24 187.69 207.36 237.16 240.25324.00 331.24 357.21 392.04

Leur somme vaut 3088.6 et donc la moyenne des carrés est3088.6

20= 154.43.

On a déjà précédemment calculé la moyenne arithmétique m = 11.1.Finalement

Var(x) = 154.43− 11.12 = 154.43− 123.21 = 31.22

Démonstration de la formule développée

Var(x) =1

N

N∑i=1

(xi − x̄)2

=1

N

N∑i=1

(x2i − 2xix̄+ x̄2)

=1

N

N∑i=1

x2i −1

N

N∑i=1

2xix̄+1

N

N∑i=1

x̄2

=1

N

N∑i=1

x2i − 2x̄1

N

N∑i=1

xi +1

NNx̄2

=1

N

N∑i=1

x2i − 2x̄2 + x̄2

=1

N

N∑i=1

x2i − x̄2

Si les données sont regoupées sous forme de tableau d’effectifs, la formuledéveloppée de la variance s’écrit :

Var(x) =n1 × v21 + n2 × v22 + · · ·+ nk × v2k

N− x̄2

=1

N

k∑i=1

ni v2i − x̄2


Avec un tableau de fréquences, la formule s’écrit :

Var(x) =

k∑i=1

fi v2i − x̄2

Voici quelques propriétés de la variance.• La variance est invariante par translation :

Var(x+ b) = Var(x)

• Si on multiplie les valeurs observées par un nombre a, la variance estmultipliée par a2 :

Var(a x) = a2 Var(x)

• En mettant ces deux propriétés ensemble, on obtient :

Var(a x+ b) = a2 Var(x)

4.1.6 Déviation médiane absolueUne autre mesure de dispersion, qui ne tient compte que de la position des ob-servations et non pas de leurs valeurs, consiste à remplacer la notion de moyennepar celle de médiane dans la définition de l’écart absolu moyen.

Au lieu de centrer les valeurs sur la moyenne, on les centre sur la médiane.On obtient ainsi les écarts à la médiane, calculés en valeur absolue.

Ensuite, au lieu de faire la moyenne de ces écarts, on en prend la médiane.La quantité qu’on obtient de cette manière s’appelle la déviation médiane

absolue. Elle est parfois appelée MAD qui est l’abréviation de l’anglais “medianabsolute deviation”.

Exemple

Calculons la déviation médiane absolue de la quatrième distribution.

1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

La médiane de cette distribution est M = (11.5 + 12.6)/2 = 12.05.On calcule donc les valeurs absolues des écarts à la médiane : |1.2−12.05| =

10.85, |3.5− 12.05| = 8.55, etc. Voici les résultats :

10.85 8.55 8.05 7.95 6.75 4.65 4.45 4.35 2.05 0.550.55 1.15 1.65 2.35 3.35 3.45 5.95 6.15 6.85 7.75

On ordonne ces quantités pour calculer leur médiane :

0.55 0.55 1.15 1.65 2.05 2.35 3.35 3.45 4.35 4.454.65 5.95 6.15 6.75 6.85 7.75 7.95 8.05 8.55 10.85


La médiane vaut MAD = (4.45+4.65)/2 = 4.55 . C’est la déviation médianeabsolue.

La déviation médiane absolue est un excellent indicateur de dispersion pourplusieurs raisons :

1. il s’agit d’une statistique robuste car elle est résistante à la présence depoints aberrants (voir au paragraphe suivant) ;

2. elle fournit un estimateur consistent de l’écart-type (ces questions serontétudiées dans le cours de statistique inférentielle) ;

3. c’est toujours une quantité finie et on peut donc l’utiliser dans le cas dedistributions qui n’ont pas de moyenne et de variance (ces questions serontétudiées dans le cours de probabilité).

4.1.7 Coefficient de variationLes principaux indicateurs d’une distribution, en particulier la moyenne arith-métique x̄ et l’écart-type σ(x), sont exprimés dans la même unité que la variableobservée x.

Cela soulève un problème lorsqu’on veut comparer deux caractères qui sontexprimés chacun dans son unité : par exemple, les salaires en France et auxÉtats-Unis sont respectivement exprimés en euros et

Documents

Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à … · 2015. 9. 8. · Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à Niveau en Statistiques