125
Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à Niveau en Statistiques Cours et exercices B. Desgraupes 2015 – 2016

Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à … · 2015. 9. 8. · Université Paris Ouest Nanterre La Défense M2 Droit-Éco Mise à Niveau en Statistiques

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Université Paris Ouest Nanterre La DéfenseM2 Droit-Éco

    Mise à Niveau en StatistiquesCours et exercices

    B. Desgraupes

    2015 – 2016

  • Table des matières

    1 Variables statistiques 11.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.1.1 Les objectifs de la statistique . . . . . . . . . . . . . . . . 11.1.2 Le vocabulaire de la statistique . . . . . . . . . . . . . . . 2

    1.2 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.1 Table des observations . . . . . . . . . . . . . . . . . . . . 51.2.2 Table d’effectifs . . . . . . . . . . . . . . . . . . . . . . . . 61.2.3 Table de fréquences . . . . . . . . . . . . . . . . . . . . . 81.2.4 Valeurs cumulées . . . . . . . . . . . . . . . . . . . . . . . 10

    1.3 Sources statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Logiciel statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2 Représentations graphiques 132.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Diagrammes à secteurs circulaires . . . . . . . . . . . . . . . . . . 132.3 Diagrammes en bâtons . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Diagrammes d’effectifs cumulés . . . . . . . . . . . . . . . . . . . 182.5 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.6 Polygônes de fréquence . . . . . . . . . . . . . . . . . . . . . . . . 242.7 Diagrammes de dispersion . . . . . . . . . . . . . . . . . . . . . . 262.8 Courbes d’évolution . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3 Indicateurs de tendance 333.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Caractéristiques de position . . . . . . . . . . . . . . . . . . . . . 33

    3.2.1 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 Classe modale . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.3 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2.4 Quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.5 Déciles et centiles . . . . . . . . . . . . . . . . . . . . . . . 40

    3.3 Indicateurs de tendance centrale . . . . . . . . . . . . . . . . . . 413.3.1 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . 413.3.2 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . 443.3.3 Moyenne quadratique . . . . . . . . . . . . . . . . . . . . 45

    III

  • IV TABLE DES MATIÈRES

    3.3.4 Moyenne d’ordre p . . . . . . . . . . . . . . . . . . . . . . 463.3.5 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . 463.3.6 Comparaison des moyennes . . . . . . . . . . . . . . . . . 47

    4 Indicateurs de dispersion 494.1 Indicateurs de dispersion . . . . . . . . . . . . . . . . . . . . . . . 49

    4.1.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.1.2 L’intervalle inter-quartiles . . . . . . . . . . . . . . . . . . 524.1.3 L’écart absolu moyen . . . . . . . . . . . . . . . . . . . . . 534.1.4 La variance et l’écart-type . . . . . . . . . . . . . . . . . . 564.1.5 Propriétés de la variance . . . . . . . . . . . . . . . . . . . 584.1.6 Déviation médiane absolue . . . . . . . . . . . . . . . . . 604.1.7 Coefficient de variation . . . . . . . . . . . . . . . . . . . 61

    4.2 Robustesse des indicateurs . . . . . . . . . . . . . . . . . . . . . . 624.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 634.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    5 Indicateurs de forme et de concentration 675.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.2 Moments d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5.2.1 Moments simples . . . . . . . . . . . . . . . . . . . . . . . 685.2.2 Moments centrés . . . . . . . . . . . . . . . . . . . . . . . 69

    5.3 Comparaison des indicateurs de tendance centrale . . . . . . . . 705.4 Indicateurs de forme . . . . . . . . . . . . . . . . . . . . . . . . . 72

    5.4.1 Coefficients d’asymétrie . . . . . . . . . . . . . . . . . . . 725.4.2 Coefficients d’aplatissement . . . . . . . . . . . . . . . . . 74

    5.5 Indicateurs de concentration . . . . . . . . . . . . . . . . . . . . . 785.5.1 Médiane et médiale . . . . . . . . . . . . . . . . . . . . . . 785.5.2 Écart à la médiale . . . . . . . . . . . . . . . . . . . . . . 805.5.3 Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . 815.5.4 Coefficient de Gini . . . . . . . . . . . . . . . . . . . . . . 83

    5.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

    6 Taux de croissance et indices élémentaires 896.1 Pourcentages et variations . . . . . . . . . . . . . . . . . . . . . . 89

    6.1.1 Calculs de taux . . . . . . . . . . . . . . . . . . . . . . . . 896.1.2 Taux global et taux moyen . . . . . . . . . . . . . . . . . 906.1.3 Évolution des grandeurs composites . . . . . . . . . . . . 94

    6.2 Notion d’indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 956.3 Propriétés des indices . . . . . . . . . . . . . . . . . . . . . . . . 97

    6.3.1 Circularité . . . . . . . . . . . . . . . . . . . . . . . . . . 976.3.2 Réversibilité . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    6.4 Indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . 986.5 Exercices complémentaires . . . . . . . . . . . . . . . . . . . . . . 99

  • TABLE DES MATIÈRES V

    7 Indices synthétiques 1037.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

    7.1.1 Notion de panier . . . . . . . . . . . . . . . . . . . . . . . 1047.2 Indices de prix et de quantité . . . . . . . . . . . . . . . . . . . . 105

    7.2.1 Indices de Laspeyres . . . . . . . . . . . . . . . . . . . . . 1057.2.2 Indices de Paasche . . . . . . . . . . . . . . . . . . . . . . 1067.2.3 Indices de Fisher . . . . . . . . . . . . . . . . . . . . . . . 1077.2.4 Propriétés des indices synthétiques . . . . . . . . . . . . . 1077.2.5 Tableau récapitulatif . . . . . . . . . . . . . . . . . . . . . 108

    7.3 Relations entre indices . . . . . . . . . . . . . . . . . . . . . . . . 1117.3.1 Indices en valeur . . . . . . . . . . . . . . . . . . . . . . . 1117.3.2 Indices et moyennes . . . . . . . . . . . . . . . . . . . . . 1147.3.3 Qualité des indices . . . . . . . . . . . . . . . . . . . . . . 118

  • VI TABLE DES MATIÈRES

  • Chapter 1

    Variables statistiques

    1.1 Notions de base

    1.1.1 Les objectifs de la statistique

    La statistique est un ensemble de méthodes et d’outils permettant d’analyserdes données. Elle définit des techniques à la fois pour collecter les données, lesarranger, les présenter, les résumer et les analyser.

    Le terme provient du latin statisticum qui signifie “ce qui a rapport à l’État”.Les premières enquêtes statistiques datent du 18ième siècle.

    On distingue deux grandes branches dans la statistique :

    • les statistiques descriptives ont pour but d’obtenir une vue synthétiquede données. Il s’agit de dégager et de résumer l’essentiel de l’informationcontenue dans les données ;

    • les statistiques inférentielles ont pour objectif d’utiliser les données collec-tées afin de tester des hypothèses, de rechercher des modèles ou de fairedes prévisions.

    Il y a de nombreuses disciplines ayant recours à la statistique :

    • l’économie, la finance, la gestion

    • la géographie et la démographie

    • la médecine

    • la biologie

    • la physique

    • la psychologie

    • la linguistique

    1

  • 2 CHAPTER 1. VARIABLES STATISTIQUES

    et cette liste n’est pas exhaustive...La statistique n’est pas une discipline théorique. Elle s’appuie principale-

    ment, pour justifier les méthodes qu’elle emploie, sur la théorie des probabilitésqui fournit un soubassement mathématique rigoureux pour la description desphénomènes aléatoires.

    Elle a connu un considérable développement au cours des vingt dernièresannées avec l’arrivée des ordinateurs qui permettent de disposer de capacitésde calcul jusque-là inatteignables. On peut à faible coût (en termes de calculs)manipuler de grandes quantités de données.

    La collecte des données, sans laquelle les méthodes ne s’appliqueraient pas,sont néanmoins une opération coûteuse et prennent du temps. La statistiques’appuie sur l’échantillonnage pour limiter à la fois le volume des données et lescoûts afférants.

    Même les recensements de population se font depuis 2004 en France parsondage dans des sous-groupes des communes.

    Il existe diverses méthodes pour collecter correctement des données et con-struire des échantillons :

    • reproduction d’expérience et relevé de résultats ;

    • tirage au hasard. On tire au hasard N individus dans une population ;

    • méthode des tirages en cascade : on sélectionne les individus par plusieurstirages successifs de sous-ensembles (villes, quartiers, etc.) ;

    • méthode des quotas. L’échantillon reproduit à son échelle certaines car-actéristiques (dites quotas) comme par exemple l’âge ;

    • méthode des grappes. Elle constitue des sous-groupes comparables maisdans lesquels les individus sont très différents ;

    • méthode par stratification. Le tirage se fait dans des strates prédéfiniesde la population. Les strates sont des sous-groupes homogènes ;

    • méthode des panels. Cette méthode suit un même groupe d’individu pourl’observer à des périodes différentes ;

    • méthode des cohortes. Une cohorte est un panel d’individus ayant uneorigine commune et qui sont observés périodiquement ;

    1.1.2 Le vocabulaire de la statistiqueLa statistique utilise une terminologie intuitive mais rigoureuse qu’il faut as-similer afin de savoir avec précision quels sont les objets et les concepts qu’onmanipule.

    Tout d’abord, une enquête statistique se déroule toujours dans une popu-lation. C’est un ensemble de référence dont les éléments sont désignés commeindividus ou unités statistiques. Ces individus peuvent être des personnes aussibien que des entités.

  • 1.1. NOTIONS DE BASE 3

    Les études statistiques consistent à observer chez ces individus des caractèresou variables statistiques. Ceux-ci peuvent être de nature très variée. L’ensembledes valeurs des caractères relevés chez un “individu” porte le nom d’observation.

    Les observations sont rassemblées dans des bases de données appelées fréquem-ment des jeux de données.

    Les valeurs des caractères portent le nom demodalités. Les modalités doiventêtre choisies de telle sorte que tout individu puisse se voir attribuer une uniquevaleur. Les modalités sont comme des catégories. Elles constituent une partitiondes valeurs possibles : on dit qu’elles doivent être à la fois

    • exhaustives : tout individu entre dans une catégorie ;

    • disjonctives : il n’y a pas de recoupement entre les catégories. Autrementdit un individu ne peut pas figurer à la fois dans deux catégories différentes.

    Il est fréquent de créer une catégorie appelée Divers ou Autres pour accueillirles observations qui ne trouvent pas leur place dans les modalités naturelles.

    On distingue deux types de caractères ou variables :

    • les caractères qualitatifs : ce sont ceux qu’on ne peut pas représenter parune mesure.Par exemple : couleur des yeux, sexe, situation familiale, mention aubaccalauréat, catégorie socio-professionnelle. . .

    • les caractères quantitatifs : ce sont ceux qu’on peut mesurer et représenternumériquement. Parmi eux on distingue :

    – les caractères quantitatifs discrets : leur valeur est en général unnombre entier ou appartient à un ensemble fini de valeurs.Par exemple : nombre d’enfants, nombre de pièces, . . .

    – les caractères quantitatifs continus : leur valeur est en général unnombre réel pris dans un certain intervalle.Par exemple : taille, poids, température, chiffre d’affaire, montantimposable. . .

    Exemple de nomenclature complexe pour une variable de type qualitatif : lesecteur d’activité. Cette nomenclature est utilisée par l’INSEE dans toutes sestables de données et analyses de conjoncture.

    Nomenclature d’Activités Française (NAF)Les modalités d’une variable qualitative ne sont pas des nombres. Ce sont des

    catégories dans une nomenclature. Néanmoins on peut les coder numériquementafin de faciliter leur représentation et leur stockage. Mais le code numérique estune convention arbitraire et ne constitue pas une mesure.

    Certaines variables qualitatives sont appelées ordinales si il existe une rela-tion d’ordre naturelle sur les différentes modalités. C’est le cas par exemple dela mention au baccalauréat :

    TB > B > AB > P

  • 4 CHAPTER 1. VARIABLES STATISTIQUES

    Le niveau de satisfaction dans une enquête d’appréciation d’un service estaussi une variable ordinale.

    Il existe des méthodes statistiques et des algorithmes qui exploitent le faitqu’une variable soit ordinale.

    Les valeurs d’une variable quantitative continue sont fréquemment regroupéesen classes ou en intervalles contigus. Leur domaine de définition est partitionnéen intervalles de la forme [ei, ei+1[. C’est une forme de discrétisation des donnéesobservées.

    Les intervalles peuvent être ouverts à gauche et fermés à droite, ou le con-traire. Il faut s’assurer qu’ils sont disjoints et que leur réunion recouvre toutesles valeurs possibles.

    Dans les calculs, il arrive qu’on veuille représenter un intervalle par unevaleur numérique. On utilise souvent pour cela le centre de l’intervalle :

    ci =ei + ei+1

    2

    La taille de l’intervalle s’appelle l’amplitude :

    ai = ei+1 − ei

    Exercice

    On a relevé les poids suivants (en kg) parmi 100 individus.

    64 85 79 84 68 74 94 75 64 6572 74 78 69 67 64 70 63 69 8262 64 71 74 77 73 77 76 82 8286 48 50 69 76 59 70 61 55 7773 81 76 56 63 84 63 57 76 8662 70 69 66 63 90 72 73 73 7675 70 68 66 74 66 52 66 81 5777 79 55 69 78 60 85 70 67 6476 78 65 81 69 76 72 71 74 5867 76 74 78 79 69 92 64 73 65

    a) Déterminer les valeurs extrêmes (min et max).

    b) Répartir les données en classes d’amplitude 10 en partant de 45 kg.

    c) Préciser les centres des classes.

    Corrigé

    a) Le poids minimal est 48 kg et le poids maximal est 94 kg.b) On obtient la répartition suivante :

  • 1.2. TABLEAUX STATISTIQUES 5

    [45,55[ [55,65[ [65,75[ [75,85[ [85,95[3 21 40 29 7

    Remarque: si on avait choisi des intervalles ouverts à gauche, on auraitobtenu des résultats différents :

    ]45,55] ]55,65] ]65,75] ]75,85] ]85,95]5 22 39 29 5

    c) Centres des classes :

    50 60 70 80 90

    La distinction n’est pas toujours très rigoureuse entre variables discrètes etcontinues. Il arrive que des variables exprimées en nombres entiers soient quandmême considérées comme variables continues.

    C’est le cas par exemple de l’âge. Les valeurs possibles sont nombreuses eton les regroupe fréquemment en intervalles. C’est ce regroupement en intervallequi pourrait servir de critère de définition : une variable continue serait unevariable qu’on a besoin de discrétiser en la regroupant en un nombre fini declasses.

    En cas d’hésitation, c’est le contexte qui doit permettre au statisticien dedécider ce qui est le plus approprié dans le cadre de son étude.

    1.2 Tableaux statistiques

    1.2.1 Table des observationsCe sont des tableaux qui représentent l’intégralité des observations collectéesauprès des individus constituant la population ou un échantillon extrait.

    Traditionnellement, il s’agit d’un tableau de forme rectangulaire dans lequelchaque ligne correspond à une observation et chaque colonne correspond à unevariable ou un caractère.

    Les valeurs de ces tableaux sont qualifiées de données exhaustives (par op-position aux données regroupées qu’on verra plus loin).

    Les tables d’observations (dites, en anglais, dataframes) peuvent avoir descolonnes de nature différente : variable qualitative, quantitative, etc. Ce ne sontdonc pas des matrices.

    Tableau à une variable X :

    Observations XObs1 x1Obs2 x2Obs3 x3...

    ...ObsN xN

  • 6 CHAPTER 1. VARIABLES STATISTIQUES

    Tableau à deux variables X, Y :

    Observations X YObs1 x1 y1Obs2 x2 y2Obs3 x3 y3...

    ......

    ObsN xN yN

    Tableau à trois variables X, Y , Z :

    Observations X Y ZObs1 x1 y1 z1Obs2 x2 y2 z2Obs3 x3 y3 z3...

    ......

    ...ObsN xN yN zN

    Exemple

    • Table des régions et départements de France métropolitaine

    • Table des circonscriptions administratives par régions

    • Table des communes et population par départements

    • Table des conseils régionaux de France métropolitaine et d’outremer

    • Chiffre d’affaires dans l’industrie et la construction en août 2014

    1.2.2 Table d’effectifsPour chaque modalité vi d’une variable qualitative, chaque valeur vi d’une vari-able quantitative discrète ou chaque classe modale Ci d’une variable quantitativecontinue, on note le nombre ni d’individus présentant cette modalité ou appar-tenant à cette classe : ni est l’effectif de la modalité ou la classe. Obtient ainsiune table d’effectifs de la forme :

    Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

    ou

    Valeurs [e1, e2[ [e2, e3[ [e3, e4[ · · · [ek, ek+1[Effectifs n1 n2 n3 · · · nk

  • 1.2. TABLEAUX STATISTIQUES 7

    Ici k est le nombre de modalités ou de classes.Les tables peuvent aussi être présentées verticalement :

    Valeurs Effectifsv1 n1v2 n2v3 n3...

    ...vk nk

    Le nombre total des observations est noté N :

    N = n1 + n2 + n3 + · · ·+ nk =k∑i=1

    ni

    L’ensemble des couples (vi, ni) constitue une distribution statistique.

    Exemple

    Le tableau suivant est issu du recensement de population de 2011 et dénom-bre les logements déclarés comme résidences principales en fonction du nombrede pièces.

    Nombre de pièces Effectifs1 pièce 1 571 9032 pièces 3 417 2333 pièces 5 723 9444 pièces 6 914 9895 pièces 5 315 8386 pièces ou plus 4 403 719

    Source : INSEE, RP2011

    Exercice

    Reprendre la table des régions et des départements :

    Table des régions et départements de France métropolitaine

    Dresser une table d’effectifs pour chaque région.

    Corrigé

  • 8 CHAPTER 1. VARIABLES STATISTIQUES

    Alsace Aquitaine Auvergne2 5 4

    Basse-Normandie Bourgogne Bretagne3 4 4

    Centre Champagne-Ardenne Corse6 4 2

    Franche-Comté Haute-Normandie Île-de-France4 2 8

    Languedoc-Roussillon Limousin Lorraine5 3 4

    Midi-Pyrénées Nord-Pas-de-Calais Pays de Loire8 2 5

    Picardie Poitou-Charentes PACA3 4 6

    Rhône-Alpes8

    1.2.3 Table de fréquences

    On appelle fréquence (ou proportion) le rapport entre l’effectif d’une modalitéou d’une classe et l’effectif total :

    fi =niN

    On dresse donc des tables de fréquences :

    Valeurs v1 v2 v3 · · · vkFréquences f1 f2 f3 · · · fk

    ou

    Valeurs [e1, e2[ [e2, e3[ [e3, e4[ · · · [ek, ek+1[Fréquences f1 f2 f3 · · · fk

    Les fréquences sont toujours comprises entre 0 et 1 :

    0 ≤ fi ≤ 1

    C’est pourquoi on les exprime souvent en pourcentages.

    La somme des fréquences est toujours égale à 1, c’est-à-dire à 100% si on

  • 1.2. TABLEAUX STATISTIQUES 9

    exprime les valeurs en pourcentage. En effet :

    k∑i=1

    fi = f1 + f2 + f3 + · · ·+ fk

    =n1N

    +n2N

    +n3N

    + · · ·+ nkN

    =1

    N(n1 + n2 + n3 + · · ·+ nk)

    =N

    N= 1

    La signification de la fréquence est la proportion, par rapport au nombretotal des observations, des individus pour lesquels la variable statistique prendla valeur vi ou appartient à la classe Ci. On peut écrire cette propriété de lamanière suivante :

    fi = P (X = vi)

    oufi = P (X ∈ Ci) = P (X ∈ [ei, ei+1[)

    C’est cette propriété qui permet de faire le lien entre la statistique et lathéorie des probabilités. Les quantités fi s’appellent alors des fréquences em-piriques.

    L’ensemble des couples (vi, fi) constitue une distribution statistique (distri-bution en fréquences par opposition à la distribution en effectifs). De toutesfaçons, il faut bien noter que les effectifs et les fréquences sont proportionnels :on passe de l’un à l’autre en multipliant ou en divisant par la même nombre N .

    Exemple

    On reprend les données concernant le nombre de pièces des résidences prin-cipales. Le nombre total d’observations est N = 27 347 626.

    On obtient donc les proportions en divisant par N :

    Nombre de pièces Effectifs Fréquences1 pièce 1 571 903 5,75%2 pièces 3 417 233 12,50%3 pièces 5 723 944 20,93%4 pièces 6 914 989 25,29%5 pièces 5 315 838 19,44%≥ 6 pièces 4 403 719 16,10%

    Remarque : en anglais, le terme frequency désigne les effectifs et non pasles fréquences ! On a les équivalents suivants :

    français anglaiseffectif frequency

    fréquence proportion

  • 10 CHAPTER 1. VARIABLES STATISTIQUES

    1.2.4 Valeurs cumulées

    On obtient les effectifs cumulés en additionnant successivement les valeurs deseffectifs de chaque modalité ou classe modale.

    Cela suppose que la variable soit quantitative ou qualitative ordinale.

    Exemple

    On a observé le nombre d’enfants dans une population de 150 familles :

    Nb d’enfants 0 1 2 3 4 5Effectifs 5 27 63 38 14 3

    Effectifs cumulés 5 32 95 133 147 150

    La dernière valeur cumulée est toujours égale à N (ici 150).De manière analogue, on obtient les fréquences cumulées en additionnant

    successivement les valeurs des fréquences de chaque modalité ou classe modale.Cela suppose aussi que la variable soit quantitative ou qualitative ordinale.

    Exemple

    En reprenant l’exemple précédent, on obtient :

    Nb d’enfants 0 1 2 3 4 5Effectifs 5 27 63 38 14 3

    Fréquences 3,33% 18% 42% 25.33% 9.33% 2%Fréq. cumulées 3,33% 21,33% 63,33% 88,67% 98% 100%

    La dernière valeur cumulée est toujours égale à 100%.La signification des fréquences cumulées est la proportion, par rapport au

    nombre total des observations, des individus pour lesquels la variable statistiqueprend une valeur inférieure ou égale à vi ou appartient à la réunions des classesC1 à Ci, c’est-à-dire à l’intervalle [e1, ei+1[. On peut écrire cette propriété de lamanière suivante :

    fi = P (X ≤ vi)

    ou

    fi = P (X ∈ ∪i1Cj) = P (X ∈ [e1, ei+1[)

    Dans l’exemple précédent, 63,33% est la proportion de familles ayant au plus2 enfants.

    Exemple

    Reprenons les données concernant le nombre de pièces des résidences prin-cipales. Le nombre total d’observations est N = 27 347 626.

    On obtient donc les proportions suivantes en divisant par N :

  • 1.3. SOURCES STATISTIQUES 11

    Nombre de pièces Effectifs Fréquences Fréquences cumulées1 pièce 1 571 903 5,75% 5,75%2 pièces 3 417 233 12,50% 18,25%3 pièces 5 723 944 20,93% 39,18%4 pièces 6 914 989 25,29% 64,47%5 pièces 5 315 838 19,44% 83,91%≥ 6 pièces 4 403 719 16,10% 100%

    Ici 64,47% est la proportion de logements ayant au plus 4 pièces.On note souvent F (a) = P (X ≤ a) pour désigner la fréquence des observa-

    tions inférieures ou égales à a.Le complément à 1 de cette fonction est

    G(a) = 1− P (X ≤ a) = P (X > a)

    C’est la fréquence des observations supérieures strictement à a.

    Dans l’exemple précédent, on aurait :

    1 2 3 4 5 694,25% 81,75% 60,82% 35,53% 16,09% 0%

    Ici, 60.82% est la proportion de logements ayant au moins 4 pièces (stricte-ment plus que 3 pièces).

    1.3 Sources statistiquesIl existe quelques sites qui fournissent des données statistiques très variées dansle domaine de l’économie, la démographie et la finance.

    • INSEE, Institut national de la statistique et des études économiques :http://www.insee.fr

    • Eurostats, banque de données de la Commission européenne :http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home

    • Plateforme ouverte des données publiques françaises, banque de donnéesdu gouvernement :

    http://www.data.gouv.fr

    • OCDE, Organisation de Coopération et de Développement Économiques:

    http://www.oecd.org/

    • CAF, la Caisse d’Allocations Familiales :http://www.caf.fr/etudes-et-statistiques/donnees-statistiques

    http://www.insee.frhttp://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/homehttp://www.data.gouv.frhttp://www.oecd.org/http://www.caf.fr/etudes-et-statistiques/donnees-statistiques

  • 12 CHAPTER 1. VARIABLES STATISTIQUES

    1.4 Logiciel statistiqueLe logiciel de calcul statistique R est libre et gratuit. On peut le télécharger àl’adresse suivante :

    http://www.r-project.org

    • C’est à la fois un outil de calcul numérique, un outil graphique et unlangage de programmation.

    • Il permet de faire des statistiques descriptives aussi bien qu’inférentielleset de la modélisation.

    • Il est extensible et peut être complété par des bibliothèques externes ou“packages”.

    Reprenons l’exemple précédent sur le nombre d’enfants dans 150 familles.Les calculs avec R se font de la manière suivante :

    > eff total prop cumul round(cumul,2)[1] 3.33 21.33 63.33 88.67 98.00 100.00

    On trouvera une bibliographie succincte dans le document suivant :

    Stats_bibliographie.pdf

    http://www.r-project.org

  • Chapter 2

    Représentations graphiques

    2.1 IntroductionLa statistique descriptive a deux approches pour décrire un jeu de donnéesobservées :

    1. une approche graphique qui a pour objectif de fournir des représentationsgraphiques permettant de visualiser la distribution des données.

    2. une approche quantitative qui a pour but de calculer des indices numériquescaractérisant la répartition des données, les tendances, la dispersion, laconcentration, etc.

    Le présent document passe en revue les principales représentations graphiquesutilisées dans les analyses statistiques et économiques ainsi que dans les arti-cles. Selon le type de variable statistique étudié, on a recours à des graphiquesdifférents.

    2.2 Diagrammes à secteurs circulairesLes diagrammes à secteurs circulaires sont aussi appelés camemberts (ou pieen anglais). Ils conviennent pour représenter des variables qualitatives ou desvariables quantitatives discrètes. Il est préférable qu’il y ait un nombre restreintde modalités pour que le graphique reste lisible.

    Ce sont des disques découpés en secteurs dont l’angle est proportionnel auxproportions (ou fréquences) de chaque modalité.

    Le secteur total étant de 360◦, si fi est la fréquence de la i-ième modalité,on la représente par un secteur d’angle αi défini comme ceci :

    αi = fi × 360 =niN× 360

    13

  • 14 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    Exemple

    On utilise les données suivantes :Taux de réussite au baccalauréat en 2013 dans l’académie de LilleSi on isole les trois grands types de baccalauréats, on obtient les résultats

    suivants :

    Type Total Proportions AnglesBaccalauréat général 19 772 46.79% 168◦Baccalauréat technologique 9 043 21.40% 77◦Baccalauréat professionnel 13 439 31.81% 115◦

    L’effectif total est 19 772 + 9 043 + 13 439 = 42 254.

    Bac général

    Bac techno

    Bac pro

    Ce diagramme représente les parts relatives de chacun des types de baccalau-réats.

    Exercice 1

    Réaliser un diagramme à secteurs circulaires pour les sous-catégoies du bac-calauréat général.

    Corrigé

    Les données sont les suivantes :

    Type Effectifs Proportions AnglesLittéraires 2 889 14.61% 54◦

    Sc. économiques et sociales 5 971 30.20% 108◦

    Sc. Ecologie Agronomie 178 0.90% 4◦

    Scientifiques SVT 9 916 50.15% 180◦

    Sciences de l’Ingénieur 818 4.14% 14◦

    Ensemble 19 772 100% 360◦

  • 2.3. DIAGRAMMES EN BÂTONS 15

    Littéraires

    SES

    Agronomie

    SVT

    Ingénieurs

    Remarque :Les diagrammes à secteurs circulaires sont très populaires dans la presse

    mais sont considérés comme extrêmement imprécis et même trompeurs. Eneffet, l’oeil humain a du mal à apprécier les différences de taille angulaire etdes expériences ont montré qu’on pouvait facilement être abusé par des effetsd’optique dus à la position du diagramme ou aux couleurs utilisées...

    2.3 Diagrammes en bâtons

    Les diagrammes en bâtons s’appellent aussi des diagrammes à bandes. Ils convi-ennent pour représenter des variables qualitatives ou des variables quantitativesdiscrètes. Il est préférable qu’il y ait un nombre restreint de modalités pour quele graphique reste lisible.

    Les modalités sont représentées en abscisse et les effectifs correspondantssont représentés par des lignes ou des bandes verticales dont la hauteur estproportionnelle à la valeur.

    C’est donc la hauteur des lignes ou des bandes qui permet d’apprécier lestailles relatives des différentes modalités. Les diagrammes en bâtons sont plusfaciles à lire que les diagrammes circulaires.

    Dans le cas d’une variable qualitative, la position des modalités en abscissen’a pas de signification particulière. Si la variable est ordinale, on placera lesmodalités dans leur ordre naturel.

    Exemple

  • 16 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    Reprenons l’exemple des catégories du baccalauréat. On obtient le dia-gramme suivant :

    général techno pro

    05000

    10000

    15000

    On peut aussi faire les diagrammes en proportions plutôt qu’en effectifs:

    général techno pro

    0.0

    0.1

    0.2

    0.3

    0.4

    Fréquences et effectifs étant proportionnels (dans le rapport N), l’aspect vi-suel est rigoureusement identique. Seules changent les valeurs sur l’axe vertical.

    Un avantage des diagrammes en bâtons par rapport aux diagrammes circu-laires est qu’ils permettent de représenter plusieurs distributions en parallèle.

    Pour une même modalité, on peut placer côte à côte plusieurs lignes oubandes verticales, correspondant à des sous-ensembles différents.

    Un autre mode de représentation consiste à empiler les valeurs verticalementen faisant plusieurs segments.

    Exemple

    Le tableau suivant donne les proportions de réussite au baccalauréat dansl’académie de La Réunion pour les filles et les garçons de 2005 à 2011.

  • 2.3. DIAGRAMMES EN BÂTONS 17

    Année 2005 2006 2007 2008 2009 2010Filles 60,1 59,7 63,8 63,3 65,5 65,9

    Garçons 42,8 44,2 43,5 47,1 48,4 49,4

    Les valeurs sont exprimées en pourcentage.Dans le diagramme suivant les valeurs sont placées côte à côte.

    2005 2006 2007 2008 2009 2010

    Taux de réussite filles/garçons au bac

    Académie de La Réunion

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    Dans le diagramme suivant les valeurs sont empilées verticalement.

    2005 2006 2007 2008 2009 2010

    Taux de réussite filles/garçons au bac

    Académie de La Réunion

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    La ligne brisée qui joint les sommets des bâtons s’appelle polygône des ef-fectifs. Par exemple, en reprenant les taux de réussite au bac chez les filles, onobtient le diagramme suivant :

  • 18 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    2005 2006 2007 2008 2009 2010

    0.4

    00.4

    50.5

    00.5

    50.6

    00.6

    50.7

    0

    Taux de réussite des filles au bac

    Académie de La Réunion

    2.4 Diagrammes d’effectifs cumulés

    Les diagrammes d’effectifs cumulés représentent la répartition de la distributiondes effectifs.

    Pour chaque modalité, on place en ordonnées la valeurs des fréquences (ouparfois des effectifs) cumulées.

    On représente la progression par une fonction en escaliers. Les fréquencesconstituent les paliers.

    Ce type de graphique n’a de sens que si les modalités sont ordonnées.

    Exemple

    Reprenons les données concernant le nombre de pièces des résidences prin-cipales. On avait les effectifs et proportions suivants :

    Nombre de pièces Effectifs Fréquences Fréq. cumulées1 pièce 1 571 903 5,75% 5,75%2 pièces 3 417 233 12,50% 18,25%3 pièces 5 723 944 20,93% 39,18%4 pièces 6 914 989 25,29% 64,47%5 pièces 5 315 838 19,44% 83,91%≥ 6 pièces 4 403 719 16,10% 100%

  • 2.5. HISTOGRAMMES 19

    1 2 3 4 5 6 7

    020

    40

    60

    80

    100

    Diagramme de fréquences cumulées

    Nombre de pièces dans résidence principales

    Pourc

    enta

    ges

    2.5 Histogrammes

    Les histogrammes sont des graphiques qui permettent de visualiser les propor-tions au moyen de rectangles verticaux. Ils concernent les variables quantita-tives discrètes ou les variables quantitatives continues qu’on regroupe en classescontiguës.

    Un histogramme peut être dessiné en effectifs ou en fréquences : comme cesont des grandeurs proportionnelles, cela ne change pas l’allure du graphiquemais seulement les valeurs portées sur l’axe vertical. Dans un contexte derecherche de densités, on préfèrera un histogramme en fréquences.

    Voici un histogramme correspondant à des notes obtenues à un examen par1000 étudiants.

  • 20 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    Histogramme en effectifs de 1000 notes

    Notes

    Effectifs

    0 5 10 15 20

    050

    100

    150

    200

    250

    Histogramme en fréquences de 1000 notes

    Notes

    Effectifs

    0 5 10 15 20

    0.0

    00.0

    20.0

    40.0

    60.0

    80.1

    00.1

    2

    Le principe de construction d’un histogramme consiste à découper les don-nées en classes et à dessiner des rectangles dont la surface est proportionnelleaux effectifs (ou aux fréquences).

    La base des rectangles correspond à chaque intervalle [ei, ei+1[. La largeurde ces intervalles est l’amplitude ai = ei+1 − ei.

    Si on désigne la hauteur par hi, la surface du rectangle est alors

    Si = ai × hi

    Cette valeur doit correspondre à l’effectif ni (pour un histogramme en effec-tifs) ou à la fréquence fi (pour un histogramme en fréquences).

  • 2.5. HISTOGRAMMES 21

    hi

    aiei ei+1

    ni ∝ ai × hi

    La surface représente l’effectif

    On a relevé le loyer annuel de 500 domiciles d’une agglomération et obtenule tableau d’effectifs suivant :

    Classes Effectifs[4,5[ 13[5,6[ 56[6,8[ 224[8,10[ 115[10,12[ 46[12,14[ 29[14,16[ 15[16,18[ 2

    Les loyers sont indiqués en milliers d’euros et répartis en classes.

  • 22 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    4000 6000 8000 10000 12000 14000 16000 18000

    050

    100

    150

    200

    250

    Histogramme des loyers

    On remarque que les deux premières classes ont une amplitude de 1 (c’est-à-dire 1000 euros) tandis que les suivantes ont une amplitude de 2 (c’est-à-dire2000 euros).

    Cela a pour conséquence que les deux premiers rectangles sont deux fois plushauts et en particulier que le deuxième et le quatrième ont approximativementla même hauteur. En effet le deuxième correspond à la valeur n2 = 56 qui a étémultipliée par 2, à savoir 112, tandis que le quatrième correspond à la valeurn4 = 115.

    Dans le cas d’un histogramme en fréquences (ou proportions), la surface Sis’interprète comme la fréquence fi c’est-à-dire la proportion des observationsqui se trouvent dans l’intervalle [ei, ei+1[.

    On peut écrire :

    Si = P (ei ≤ X < ei+1)

    L’intérêt de cette représentation est qu’on peut représenter la proportiond’observations qui sont dans plusieurs intervalles contigus en additionnant lessurfaces des rectangles correspondants.

    Par exemple, dans le diagramme suivant, la zone hachurée correspond à laproportion P (5000 ≤ X < 10000) où X est le loyer.

  • 2.5. HISTOGRAMMES 23

    4000 6000 8000 10000 12000 14000 16000 18000

    050

    100

    150

    200

    250

    P(5000 < loyer < 10000)

    Interprétation des hauteurs

    La grande différence entre les diagrammes en bâtons et les histogrammes estque dans les premiers ni est représenté en hauteur tandis que, dans les seconds,il est représenté en surface.

    Quelle est alors la signification de la hauteur dans un histogramme ?

    On a

    ni ∝ ai × hi =⇒ hi ∝niai

    Le rapport di =niai

    est la densité de la classe Ci. Donc lorsqu’un rectan-

    gle est plus haut qu’un autre, c’est que la densité de son intervalle est plusgrande, autrement dit qu’il comporte plus de données à amplitude égale. Leshistogrammes appréciés en hauteur donnent un aperçu de la densité de réparti-tion des données.

  • 24 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    4000 6000 8000 10000 12000 14000 16000 18000

    050

    100

    150

    200

    250

    Histogramme des loyers

    Le rectangle en pointillés représente la fusion des deux premières classes.Leur effectif cumulé est de 13 + 56 = 69 et le rectangle a donc une hauteurde 69 pour une amplitude de 2000. Précédemment on avait deux rectangles dehauteurs respectives 2× 13 = 26 et 2× 56 = 112.

    2.6 Polygônes de fréquence

    On obtient le polygône de fréquence en joignant, par une ligne polygonale, lespoints situés au milieu des arêtes supérieures des rectangles.

    Ces graphiques permettent de visualiser les densités au moyen d’une lignecontinue plutôt que par des paliers. L’effet obtenu est de lisser les créneaux des

  • 2.6. POLYGÔNES DE FRÉQUENCE 25

    histogrammes.

    4000 6000 8000 10000 12000 14000 16000 18000

    050

    100

    150

    200

    250

    Polygône de fréquences

    4000 6000 8000 10000 12000 14000 16000 18000

    050

    100

    150

    200

    250

    Polygône de fréquences

    On utilise cette technique pour des histogrammes dont les rectangles onttous la même amplitude. En effet, dans ce cas, la surface située sous la courbepolygonale est la même que celle des rectangles.

    On voit sur les graphiques suivants comment les aires des triangles délimitéspar les rectangles de l’histogramme et la ligne polygonale se compensent.

  • 26 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    L’interprétation de la surface située sous le polygône de fréquences entre desbornes a et b est la proportion

    P (a ≤ X < b)

    de données appartenant à l’intervalle [a, b[.

    2.7 Diagrammes de dispersion

    Les diagrammes de dispersion servent à représenter les corrélations qui peuventexister entre des observations portant sur deux variables différentes. Si x et ysont les deux variables observées, pour chaque observation Oi, on place le pointde coordonnées (xi, yi).

    L’ensemble des points obtenus s’appelle un nuage.

    Le graphique qui suit est un diagramme de dispersion correspondant àdeux variables x et y distribuées uniformément. Cela signifie simplement queles valeurs observées pour chacune des deux variables sont équiréparties surl’intervalle où elles sont définies.

    On voit que les points obtenus sont uniformément répartis dans le carré. Cetexemple est typique de l’absence de corrélation entre les variables x et y.

  • 2.7. DIAGRAMMES DE DISPERSION 27

    0 20 40 60 80 100

    020

    40

    60

    80

    100

    Diagramme de dispersion uniforme

    x

    y

    Les deux graphiques qui suivent sont des diagrammes de dispersion corre-spondant à deux variables x et y distribuées. Cette notion sera vue avec précisionpar la suite, mais ici cela signifie simplement que les observations sont masséesautour d’une valeur centrale et qu’elles se raréfient quand on s’en éloigne.

    Le deuxième graphique ajoute justement des petits traits (le long des axes)qui matérialisent la répartition des x et des y.

    On voit que les points obtenus sont uniformément répartis autour d’un pointcentral. Cet exemple est typique de l’absence de corrélation entre les variablesx et y.

  • 28 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    5 10 15

    510

    15

    20

    Diagramme de dispersion ’normale’

    x

    y

    5 10 15

    510

    15

    20

    Diagramme de dispersion ’normale’

    x

    y

    5 10 15

    L’exemple qui suit est un diagramme qui suggère une corrélation positiveentre les x et les y. Le nuage de points semble orienté dans une directionparticulière.

    On verra par la suite comment calculer une droite qui ajuste au plus prèsles points du nuage. C’est ce qu’on appelle une droite de régression.

    5 10 15

    10

    20

    30

    40

    50

    Diagramme de dispersion corrélé

    x

    y

    5 10 15

    10

    20

    30

    40

    50

    Diagramme de dispersion corrélé

    x

    y

  • 2.7. DIAGRAMMES DE DISPERSION 29

    On peut généraliser la notion de diagramme de dispersion au cas de jeux dedonnées comportant plus de deux variables.

    On présente sur un même graphique les diagrammes de dispersion établispar paires de variables.

    C’est un moyen d’explorer ce type de jeux de données en recherchant vi-suellement si certaines variables semblent corrélées ou pas.

    Sur la diagonale, on indique le nom des variables. Ce graphique est symétriquepar rapport à la première diagonale.

    Exemple

    On utilise le jeu de données suivant appelé airquality : Table de donnéesmétéorologiques

    Il est constitué de mesures relatives à la qualité de l’air relevées à l’aéroportLa Guardia de New York entre le 1er mai et de 30 septembre 1973.

    Il comporte 153 observations portant sur les 6 variables suivantes :

    Ozone Taux d’ozone en ppb (parts per billion)Solar.R Rayonnement solaire (langleys)Wind Vitesse du vent (miles par heure)Temp Température (degrés Fahrenheit)Month Mois (entre 1 et 12)Day Jour du mois (entre 1 et 31)

    Ozone

    0 100 200 300 60 70 80 90

    050

    10

    015

    0

    01

    00

    20

    030

    0

    Solar.R

    Wind

    51

    015

    20

    0 50 100 150

    60

    70

    80

    90

    5 10 15 20

    Temp

  • 30 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    2.8 Courbes d’évolution

    Ce sont des diagrammes qui sont utilisés pour représenter des données qui évolu-ent dans le temps. On parle dans ce cas de séries temporelles ou données longi-tudinales.

    Le graphique suivant représente l’évolution des températures dans le jeu dedonnées météorologiques.

    Températures

    Mai − Septembre 1973

    Degré

    s F

    ahre

    nheit

    1973.4 1973.5 1973.6 1973.7

    60

    70

    80

    90

    On peut représenter en parallèle plusieurs de ces graphiques comme surl’exemple suivant où on peut suivre l’évolution séparément du taux d’ozone, durayonnement solaire, de la vitesse du vent et de la température.

    On observera qu’il y a des trous par endroits. Ceux-ci correspondent auxdonnées manquantes.

  • 2.8. COURBES D’ÉVOLUTION 31

    050

    10

    01

    50

    Ozone

    01

    00

    200

    30

    0

    Sola

    r.R

    51

    01

    52

    0

    Win

    d

    60

    70

    80

    90

    1973.4 1973.5 1973.6 1973.7

    Tem

    p

    Mai − Septembre 1973

    Air quality

    Enfin on peut parfois représenter plusieurs courbes sur un même graphiqued’évolution mais cela n’est pas toujours lisible si jamais les courbes s’entrecoupent.Cela pause aussi un problème d’échelle car les intervalles de valeurs peuvent dif-férer considérablement entre différentes variables. La solution dans ce cas est deprésenter les données comme des variations par rapport à une base commune.On choisit en général une “base 100” pour la première observation et on ajusteles autres données par rapport à cette base.

    Reprenons l’exemple des taux de réussite au baccalauréat dans l’académiede La Réunion, pour les filles et les garçons, de 2005 à 2011.

    Le graphe suivant montre l’évolution de ce taux pour les filles et pour lesgarçons séparément.

  • 32 CHAPTER 2. REPRÉSENTATIONS GRAPHIQUES

    2005 2006 2007 2008 2009 2010

    40

    45

    50

    55

    60

    65

    70

    Baccalauréat à La Réunion

    Taux d

    e r

    éussite

    Filles

    Garçons

    Exercice 2

    La table suivante indique le mode de cohabitation des 18-24 ans en Franceen 2011.

    a) Faire un diagramme circulaire représentant les proportions des diversescatégories.

    b) Faire un diagramme en bâton représentant les répartitions.c) Faire un diagramme en bâton représentant les répartitions en distinguant

    les femmes et les hommes.

    Mode de cohabitation Effectifs RépartitionEnsemble Hommes Femmes

    Enfant d’un couple 2 053,2 36,7 41,0 32,3Enfant de famille monoparentale 774,8 13,8 15,5 12,2

    En couple sans enfant 708,4 12,7 9,3 16,1En couple avec enfants 259,9 4,6 2,7 6,6

    Parent de famille monoparentale 76,0 1,4 0,1 2,6En ménage avec d’autres 527,0 9,4 9,7 9,2

    Seul 883,7 15,8 14,9 16,7Hors ménage 312,2 5,6 6,8 4,3

    Total 5 595,1 100,0 100,0 100,0

  • Chapter 3

    Indicateurs de tendance

    3.1 IntroductionLa statistique descriptive définit des indices ou indicateurs permettant de ré-sumer quantitativement les valeurs observées d’un caractère. On distingue lestypes suivants :

    • les indicateurs de position

    • les indicateurs de tendance centrale

    • les indicateurs de dispersion

    • les indicateurs de concentration

    On étudiera aussi des indicateurs de prix qui jouent un rôle important enéconomie.

    Hormis les caractéristiques de position, les autres indicateurs ne concernentque les variables quantitatives car ils sont calculés à partir des valeurs du car-actère.

    3.2 Caractéristiques de positionLes indicateurs de position fournissent des renseignements sur des variables aussibien qualitatives que quantitatives.

    Les caractéristiques de position sont de deux types :

    • certaines sont relatives aux effectifs : mode et classe modale ;

    • d’autres sont relatives au rang occupé par les observations les unes parrapport aux autres plutôt qu’à leur valeur.

    Remarque : dans le cas d’une variable qualitative, il faut qu’elle soit or-dinale, c’est-à-dire qu’on puisse ordonner les valeurs du caractère, si on veutpouvoir parler de rang.

    33

  • 34 CHAPTER 3. INDICATEURS DE TENDANCE

    3.2.1 Mode

    Le mode concerne les variables qualitatives ou quantitatives discrètes. Dans cecas, on dresse la table des effectifs qui dénombre les observations correspondantà chaque modalité.

    Par définition, le mode est la valeur (ou la modalité) de la variable quia l’effectif le plus élevé. Sur un diagramme en bâtons, c’est la modalité quicorrespond au bâton le plus haut.

    Exemple 1

    Une enquête de satisfaction a attribué une note entre 1 et 10 pour évaluerla qualité d’un service. Les résultats sont les suivants :

    Note 1 2 3 4 5 6 7 8 9 10Effectifs 5 3 4 7 8 10 15 11 6 6

    Il s’agit d’une variable quantitative discrète. Le mode est 7.

    Le diagramme en bâtons fait clairement apparaître le mode.

    1 2 3 4 5 6 7 8 9 10

    02

    46

    810

    12

    14

    Exemple 2

    Ménages selon la structure familiale.

    Données INSEE pour 2011 (RP2011).

  • 3.2. CARACTÉRISTIQUES DE POSITION 35

    Type de ménage en milliersMénages composés uniquement

    d’un homme seul 4 032,2d’une femme seule 5 529,5

    d’un couple sans enfant 7 250,4d’un couple avec enfant(s) 7 435,6d’une famille monoparentale 2 345,2

    Ici les données sont en effectifs. Il s’agit d’une variable qualitative. Le modeest “couple avec enfant(s)”.

    Exemple 3

    Répartition des résidences principales par statut d’occupation (en %).Données INSEE pour 2013.

    Propriétaires 57,9Locataires 39,1Autres 3,0

    Ici les données sont en proportion. Il s’agit d’une variable qualitative. Lemode est “Propriétaires”.

    Remarque :Le mode n’est pas nécessairement unique. La notion de maximum est une

    propriété dite locale plutôt que globale. Si le diagramme en bâtons a la formesuivante, on voit apparaître deux modes et on dit, dans ce cas, que la distributionest bimodale.

    1 2 3 4 5 6 7 8 9 10

    02

    46

    810

    12

    14

    3.2.2 Classe modaleLa classe modale concerne les variables quantitatives continues. Dans ce cas, onregroupe les données en classes et on dresse la table des effectifs qui dénombreles observations entrant dans chacune des classes.

  • 36 CHAPTER 3. INDICATEURS DE TENDANCE

    On distingue alors deux cas :• si les classes sont d’amplitude égale, la classe modale est celle qui a le plus

    grand effectif.• si les classes ne sont pas d’amplitude égale, on ramène tout à une amplitude

    commune en divisant les fréquences par la longueur des intervalles. On calculedonc les densités de chaque classe :

    di =niai

    Par définition, la classe modale est celle de plus forte densité. Graphique-ment, on la repère sur un histogramme comme étant celle dont le rectangle estle plus haut.

    Exemple

    Une entreprise s’intéresse à la distance parcourue par les employés entre ledomicile et le lieu de travail. On a noté les effectifs suivants :

    Kilométrage [0,10[ [10,20[ [20,30[ [30,40[ [40,50[ [50,60[ [60,70[Effectifs 14 23 32 21 12 8 4

    Ici toutes les classes sont de même amplitude. La classe modale est [20, 30[.

    Exemple

    Répartition par âge des salariés de 15 ans ou plusDonnées INSEE RP2011.

    Âge Effectif Amplitude Densité15 à 19 ans 487 944 4 121 986,020 à 24 ans 1 950 777 4 487 694,225 à 39 ans 8 911 762 14 636 554,440 à 54 ans 9 483 149 14 677 367,855 à 64 ans 2 722 458 9 302 495,3

    65 ans ou plus 149 400 5 29 880,0

    Les classes sont de longueur inégale. On doit calculer les amplitudes et lesdensités.

    La classe modale est celle des “40 à 54 ans”.

    Remarque :dans la table précédente, on a fixé l’amplitude de la classe des “65 ans et

    plus” à 5. C’est ce qu’on appelle une estimation a maxima. On ne peut pasdire quel est l’âge maximum d’un salarié mais on sait qu’il existe des salariésde 70 ans, donc la borne supérieure est au moins de 70 et, en divisant par cetteamplitude (70-65=5), on obtient une valeur qui est un majorant la densité.

  • 3.2. CARACTÉRISTIQUES DE POSITION 37

    3.2.3 MédianeLa notion de médiane concerne les variables quantitatives.

    Définition 3.2.1. La médiane est une quantité qui partage les observations endeux groupes de même taille.

    C’est donc une valeur M (parfois aussi notée Me) telle qu’il y ait 50% desobservations pour lesquelles le caractère observé X est inférieur à M et 50%des observations pour lesquelles le caractère observé X est supérieur à M .

    On peut écrire :P (X ≤M) = 0.5

    On reconnaît la définition des proportions cumulées.

    Exemple 1

    On a relevé les notes de 9 étudiants à un examen :

    11,5 7 16 14 8,5 10,5 13 11 5

    Pour trouver la médiane, il faut commencer par ordonner les notes :

    5 7 8,5 10,5 11 11,5 13 14 16

    La valeurM = 11 est la médiane car elle sépare les données en deux groupesde même taille.

    Exemple 2

    On ajoute un dixième étudiant qui a obtenu 12 :

    11,5 7 16 14 8,5 10,5 13 11 5 12

    On ordonne les notes :

    5 7 8,5 10,5 11 11,5 12 13 14 16

    Les valeurs 11 et 11,5 constituent l’intervalle médian. On prend commemédiane le milieu de cet intervalle, à savoir M = 11, 25.

    Exemple 3

    Cas d’une variable continueExploitations agricoles selon la superficie agricole utilisée (SAU) en 2010.Source INSEE. Les effectifs sont indiqués en milliers.

    SAU Effectifs Proportions Prop. cumuléesMoins de 20 ha 235,4 45.74 45.74

    De 20 à moins de 50 ha 88,4 17.18 62.92De 50 à moins de 100 ha 97,6 18.96 81.88De 100 à moins de 200 ha 72,7 14.12 96.00

    200 ha ou plus 20,6 4.00 100Total 514,7

  • 38 CHAPTER 3. INDICATEURS DE TENDANCE

    On cherche où se situe la proportion cumulée de 50%. D’après la tableau,c’est entre 45.74% et 62.92%.

    Il faut faire une interpolation linéaire.L’interpolation linéaire consiste à chercher la valeur M qui soit par rapport

    à 20 et 50 comme la valeur 50% par rapport à 45.74% et 62.92%.

    SAU Prop. cumulée20 ha 45.74%M ? 50%50 ha 62.92%

    Graphiquement, on représente le problème de la manière suivante :

    0 10 20 30 40 50 60

    30

    40

    50

    60

    70

    80

    SAU

    Pro

    port

    ion c

    um

    ulé

    e

    M20 50

    45.74 %

    62.92 %

    50 %

    50 − 45.74

    62.92 − 45.74=

    M − 20

    50 − 20

    On calcule50− 45.74

    62.92− 45.74=M − 2050− 20

    On en déduit :4.26

    17.18=M − 20

    30

    Finalement :

    M = 20 +4.26× 30

    17.18= 20 + 7.44 = 27.44 ha

    3.2.4 Quartiles

    La notion de quartiles concerne les variables quantitatives.

  • 3.2. CARACTÉRISTIQUES DE POSITION 39

    Définition 3.2.2. Les quartiles sont trois quantités qui partagent les observa-tions en quatre groupes de même taille.

    Ce sont donc des valeurs, habituellement notées Q1, Q2 et Q3, telles qu’ily ait 25% des observations pour lesquelles le caractère observé X soit comprisdans les intervalles qu’elles délimitent. Plus précisément, on a :

    P (X < Q1) = 0.25

    P (Q1 < X < Q2) = 0.25

    P (Q2 < X < Q3) = 0.25

    P (X > Q3) = 0.25

    En utilisant les proportions cumulées, c’est équivalent à dire que :

    P (X < Q1) = 0.25

    P (X < Q2) = 0.50

    P (X < Q3) = 0.75

    On en déduit, en particulier, que le quartile Q2 n’est autre que la médiane :

    Q2 = M

    L’intervalle [Q1, Q3] concentre 50% des observations :

    P (Q1 < X < Q3) = 0.50

    Exemple 1

    Cet exemple a déjà été vu dans la séance 01. On a relevé les poids suivants(en kg) parmi 100 individus :

    64 85 79 84 68 74 94 75 64 6572 74 78 69 67 64 70 63 69 8262 64 71 74 77 73 77 76 82 8286 48 50 69 76 59 70 61 55 7773 81 76 56 63 84 63 57 76 8662 70 69 66 63 90 72 73 73 7675 70 68 66 74 66 52 66 81 5777 79 55 69 78 60 85 70 67 6476 78 65 81 69 76 72 71 74 5867 76 74 78 79 69 92 64 73 65

    On doit d’abord ordonner les poids :

  • 40 CHAPTER 3. INDICATEURS DE TENDANCE

    48 50 52 55 55 56 57 57 58 5960 61 62 62 63 63 63 63 64 6464 64 64 64 65 65 65 66 66 6666 67 67 67 68 68 69 69 69 6969 69 69 70 70 70 70 70 71 7172 72 72 73 73 73 73 73 74 7474 74 74 74 75 75 76 76 76 7676 76 76 76 77 77 77 77 78 7878 78 79 79 79 81 81 81 82 8282 84 84 85 85 86 86 90 92 94

    On a fait apparaître les valeurs situées en positions 25-26, 50-51 et 75-76.Ce sont des intervalles quartiles. Il faut en prendre le milieu. Par exemple,{

    poids[25] = 65

    poids[26] = 65=⇒ Q1 = 65

    {poids[50] = 71

    poids[51] = 72=⇒ Q2 = 71, 5

    De même, on trouve Q3 = 77. On peut dire que 50% des personnes observéespèsent entre 65 et 77 kilos.

    Exemple 2

    Distribution du revenu salarial annuel par sexe ou catégorie socioprofession-nelle sur l’ensemble des salariés en 2010.

    Source INSEE (DADS 2010 définitif). Montants en euros courants.

    Q1 Q2 Q3Ensemble 9 370 17 510 24 590Femmes 7 930 15 910 22 270Hommes 11 460 19 060 26 820Cadres 24 420 33 650 46 350

    Professions intermédiaires 16 130 22 400 27 870Employés 6 010 14 060 18 640Ouvriers 7 410 15 580 20 000

    3.2.5 Déciles et centilesDéfinition 3.2.3. Les déciles sont 9 quantités qui partagent les observationsen 10 groupes de même taille (contenant chacun 10% des observations).

    On les notes usuellement D1, D2, . . . , D9. L’intervalle [D1, D9] concentre80% des observations. On remarque que le 5ème décile est la médiane: D5 = M .

    Définition 3.2.4. Les centiles sont 99 quantités qui partagent les observationsen 100 groupes de même taille (contenant chacun 1% des observations).

  • 3.3. INDICATEURS DE TENDANCE CENTRALE 41

    On les notes usuellement C1, C2, . . . , C99 ou aussi parfois P1, P2, . . . , P99 (caren anglais on dit “percentile”). On a C50 = M .

    Exemple

    On reprend l’exemple de la distribution du revenu salarial annuel par sexe oucatégorie socioprofessionnelle sur l’ensemble des salariés en 2010. Les donnéesde l’INSEE donnent les valeurs suivantes pour les principaux déciles :

    D1 D5 D9Ensemble 2 360 17 510 34 600Femmes 1 970 15 910 30 070Hommes 2 840 19 060 39 110Cadres 10 840 33 650 66 600

    Professions intermédiaires 6 310 22 400 33 660Employés 1 450 14 060 22 980Ouvriers 1 910 15 580 24 190

    La médiane, les quartiles, les déciles et les centiles s’appellent de manièregénérale des quantiles.

    En généralisant leur définition on obtient la notion de quantile d’ordre α%.C’est une quantité qα telle que α% des valeurs observées soient inférieures à qα.

    Autrement dit, on écrit :

    P (X < qα) = α/100

    si α est exprimé en pourcentage.

    3.3 Indicateurs de tendance centrale

    Dans tout ce qui suit, on définira les indicateurs dans deux cas de figures selonla manière dont sont présentées les données :

    • sous forme de données exhaustives (on dit aussi des données individuelles);

    • sous forme de données regroupées dans des tableaux d’effectifs ou destableaux de fréquences (on dit aussi des données en classes).

    3.3.1 Moyenne arithmétique

    La valeur centrale la plus simple est la moyenne arithmétique. Si les donnéessont disponibles sous forme exhaustive, c’est la somme des valeurs divisée parle nombre total d’observations :

    m =x1 + x2 + · · ·+ xN

    N

  • 42 CHAPTER 3. INDICATEURS DE TENDANCE

    Cette moyenne est aussi notéem1 ou encore x̄ où x est le “vecteur” contenanttoutes les valeurs observées.

    Exemple

    20 étudiants ont passé un test noté entre 0 et 5 et on a relevé les notessuivantes :

    2 3 1 4 3 2 3 3 3 2 4 3 2 0 4 2 2 4 3 3

    La moyenne est :

    m =2 + 3 + 1 + 4 + 3 + 2 + 3 + 3 + 3 + 2 + 4 + 3 + 2 + 0 + 4 + 2 + 2 + 4 + 3 + 3

    20

    =53

    20= 2, 65

    Si on ordonne ces notes par ordre croissant, le calcul précédent peut s’écrirede la manière suivante :

    m =0 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4

    20

    =0 + 1 + (2 + 2 + 2 + 2 + 2 + 2) + (3 + 3 + 3 + 3 + 3 + 3 + 3 + 3) + (4 + 4 + 4 + 4)

    20

    =1× 0 + 1× 1 + 6× 2 + 8× 3 + 4× 4

    20

    =1 + 12 + 24 + 16

    20

    =53

    20= 2, 65

    Cette écriture correspond à la table des effectifs associée à ces notes :

    Notes 0 1 2 3 4Effectifs 1 1 6 8 4

    On aboutit donc à l’autre formule permettant de calculer la moyenne arith-métique lorsque les données sont regroupées dans une table d’effectifs de la forme:

    Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

    La formule s’écrit :

    m =n1v1 + n2v2 + · · ·+ nkvk

    N

    avec N = n1 + n2 + · · ·+ nk.

    Exercice 3

    On a relevé pendant un mois dans une entreprise le nombre d’absences ré-sultant d’arrêts-maladies :

  • 3.3. INDICATEURS DE TENDANCE CENTRALE 43

    Durée en jours 1 2 3 4 5 6 7 8Effectifs 7 9 4 4 6 5 2 1

    Calculer la durée moyenne d’un arrêt-maladie.

    CorrigéL’effectif total est de 38. On applique la formule en données regroupées :

    m =7× 1 + 9× 2 + 4× 3 + 4× 4 + 6× 5 + 5× 6 + 2× 7 + 1× 8

    38

    =135

    38

    ≈ 3, 55

    En partant de la formule en données regroupées et en divisant chaque termepar N , on obtient :

    m =n1v1 + n2v2 + · · ·+ nkvk

    N

    =n1Nv1 +

    n2Nv2 + · · ·+

    nkNvk

    = f1v1 + f2v2 + · · ·+ fkvk

    où fi = niN est la fréquence.Donc, lorsqu’on a un tableau de proportions (et non plus d’effectifs), la

    formule pour la moyenne est :

    m = f1v1 + f2v2 + · · ·+ fkvk

    Dans le cas d’une variable continue regroupée en classes, on utilise les milieuxdes classes pour faire les calculs.

    Exemple

    Le tableau suivant donne la répartition des employés d’une entreprise selonle salaire mensuel en milliers d’euros. Calculer la moyenne.

    [1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150vi 1.75 2.25 2.75 3.25 3.75 4.5nivi 54.25 76.50 110 84.50 48.75 27 401

    Les vi sont les milieux des classes.

    m =1

    150

    (31× 1.75 + 34× 2.25 + 40× 2.75 + 26× 3.25

    + 13× 3.75 + 6× 4.5)

    =401

    150= 2.67

  • 44 CHAPTER 3. INDICATEURS DE TENDANCE

    3.3.2 Moyenne géométriqueLa moyenne géométrique intervient lorsqu’on a affaire à des grandeurs qui sontpar essence multiplicatives. L’exemple le plus courant est celui des coefficientsmultiplicateurs qui permettent de calculer l’évolution d’une grandeur soumise àun taux d’accroissement.

    Il faut que les valeurs soient des nombres positifs.Dans le cas de données exhaustives, la formule s’écrit :

    m0 =(x1x2 . . . xN

    ) 1N

    = N√x1x2 . . . xN

    Avec des données regroupées dans un tableau d’effectifs, la formule s’écritde la manière suivante :

    m0 =(vn11 v

    n22 . . . v

    nkk

    ) 1N

    = N√vn11 v

    n12 . . . v

    nkk

    Exercice 4

    Les dépenses de consommation des ménages au cours des deux dernierstrimestres de 2013 et des deux premiers trimestres de 2014 ont évolué de lamanière suivante :

    2013 T3 2013 T4 2014 T1 2014 T2Conso. ménages -0,1% 0,2% -0,5% 0,5%

    Source : note de conjoncture INSEE.

    Montrer que le coefficient multiplicateur moyen est la moyenne géométriquedes coefficients multiplicateurs de chaque trimestre.

    Corrigé

    Pour un taux d’accroissement r, le coefficient multiplicateur est (1 + r). Onapplique donc successivement les taux multiplicateurs en multipliant par :

    (1− 0, 1/100)× (1 + 0, 2/100)× (1− 0, 5/100)× (1 + 0, 5/100)= (1− 0, 001)× (1 + 0, 002)× (1− 0, 005)× (1 + 0, 005)= 0, 999× 1, 002× 0, 995× 1, 005 = 1, 000973

    Si on appelle t le taux trimestriel moyen, le coefficient multiplicateur est(1 + t) et on doit avoir, sur quatre mois :

    (1 + t)4 = 0, 999× 1, 002× 0, 995× 1, 005

    et donc1 + t =

    (0, 999× 1, 002× 0, 995× 1, 005

    )1/4C’est bien la formule de la moyenne géométrique. Numériquement on trouve :

    1 + t = 1, 000243 =⇒ t = 0, 000243 = 0, 0243%

    C’est quasiment stable (t ≈ 0%).

  • 3.3. INDICATEURS DE TENDANCE CENTRALE 45

    3.3.3 Moyenne quadratiqueLa moyenne quadratique intervient lorsqu’on a affaire à des grandeurs qui sontpar essence des carrés d’une certaine quantité. L’exemple le plus courant estcelui des surfaces. Elle est notée en général m2.

    Il s’agit de prendre la moyenne des carrés des valeurs. Mais comme ons’attend à ce qu’une moyenne soit exprimée dans la même unité que les grandeurselles-mêmes, il faut prendre la racine carrée du résultat.

    La formule pour des données exhaustives est :

    m2 =

    (x21 + x

    22 + · · ·+ x2NN

    ) 12

    =

    √x21 + x

    22 + · · ·+ x2NN

    Pour des données regroupées en tableau d’effectifs, la formule devient :

    m2 =

    (n1v

    21 + n2v

    22 + · · ·+ nkv2kN

    ) 12

    =

    √n1v21 + n2v

    22 + · · ·+ nkv2kN

    Pour des données regroupées en tableau de fréquences, la formule devient :

    m2 =(f1v

    21 + f2v

    22 + · · ·+ fkv2k

    ) 12 =

    √f1v21 + f2v

    22 + · · ·+ fkv2k

    Exercice 5

    Un paysan possède 5 parcelles carrées dont le côté mesure respectivement

    1,2 1,5 2,3 4,7 5,1

    Il voudrait les échanger contre cinq parcelles carrées identiques pour unemême surface totale. Monter que l’arête des nouvelles parcelles est la moyennequadratique des 5 arêtes.

    Attention : l’arête des nouvelles parcelles n’est pas la moyenne arithmé-

    tique des cinq arêtes1, 2 + 1, 5 + 2, 3 + 4, 7 + 5, 1

    5= 2.96.

    Corrigé

    Si a est l’arête recherchée, on doit avoir, en écrivant l’égalité des surfaces :

    5 a2 = 1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12

    On en déduit :

    a2 =1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12

    5

    et donc :

    a =

    (1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12

    5

    )1/2

  • 46 CHAPTER 3. INDICATEURS DE TENDANCE

    ce qui est bien la formule de la moyenne quadratique.Les calculs donnent

    a =

    (1, 44 + 2, 25 + 5, 29 + 22, 09 + 26, 01

    5

    )1/2=

    √57, 08

    5≈ 3, 38

    3.3.4 Moyenne d’ordre pLa moyenne quadratique se généralise sans difficulté au cas de la puissance p(au lieu de la puissance 2). On obtient alors la moyenne d’ordre p qui est notéeen général mp.

    Il s’agit de prendre la moyenne des puissances p-ièmes des valeurs. Maiscomme on s’attend à ce qu’une moyenne soit exprimée dans la même unité queles grandeurs elles-mêmes, il faut prendre la racine p-ième du résultat.

    La formule pour des données exhaustives est :

    mp =

    (xp1 + x

    p2 + · · ·+ x

    pN

    N

    ) 1p

    =p

    √xp1 + x

    p2 + · · ·+ x

    pN

    N

    Pour des données regroupées en tableau d’effectifs, la formule devient :

    mp =

    (n1v

    p1 + n2v

    p2 + · · ·+ nkv

    pk

    N

    ) 1p

    =p

    √n1v

    p1 + n2v

    p2 + · · ·+ nkv

    pk

    N

    Pour des données regroupées en tableau de fréquences, la formule devient :

    mp = (f1vp1 + f2v

    p2 + · · ·+ fkv

    pk)

    1p = p

    √f1v

    p1 + f2v

    p2 + · · ·+ fkv

    pk

    3.3.5 Moyenne harmoniqueSi on prend la valeur p = −1 dans la définition de la moyenne d’ordre p vueprécédemment, on obtient la moyenne harmonique, en générale notée m−1.

    La formule pour des données exhaustives est :

    m−1 =

    (x−11 + x

    −12 + · · ·+ x

    −1N

    N

    )−1En appliquant le fait que la puissance -1 d’un nombre est son inverse, on

    obtient :m−1 =

    N

    x−11 + x−12 + · · ·+ x

    −1N

    Finalement

    m−1 =N

    1/x1 + 1/x2 + · · ·+ 1/xN

  • 3.3. INDICATEURS DE TENDANCE CENTRALE 47

    Exercice 6

    (emprunté à M. Crawley, Statistics: An Introduction using R, Ed. Wiley,2005)

    Un éléphant habite dans un enclos carré d’un kilomètre de côté. Il en faitle tour tous les jours de la manière suivante : il parcourt le premier côté à lavitesse de 1 km/h, puis le deuxième côté à la vitesse de 2 km/h, le troisièmecôté à la vitesse de 4 km/h, et le dernier côté à la vitesse de 1 km/h.

    Quelle est sa vitesse moyenne ?

    Attention : nous allons voir que ce n’est pas la moyenne arithmétique des

    quatre vitesses1 + 2 + 4 + 1

    4= 2.

    Corrigé

    La vitesse est la distance divisée par le temps : v =d

    t.

    On sait que la distance parcourue est de d = 4 kilomètres (c’est le périmètrede l’enclos).

    Le temps mis à en faire le tour est la somme des temps mis à parcourir chaquearête : 1 heure pour le premier côté, 1/2 heure pour le deuxième, 1/4 heure pourle troisième, 1/2 heure pour le dernier. D’où le temps total :

    t = 1 + 1/2 + 1/4 + 1 = 11/4

    Finalement :

    v =d

    t=

    4

    1/1 + 1/2 + 1/4 + 1/1

    C’est la formule de la moyenne harmonique ! Numériquement, on trouvev = 16/11 ≈ 1, 45 km/h.

    3.3.6 Comparaison des moyennes

    Toutes les moyennes vues précédemment peuvent être comparées entre ellesgrâce au résultat suivant :

    Si p < q alors mp ≤ mq.Il y a égalité si et seulement si toutes les valeurs sont égales entre elles.

    Autrement l’inégalité est stricte.

    Exercice 7

    Calculer les moyennes m−1, m0, m1, m2, m3 des nombres 7, 8, 9, 10.

    Corrigé

  • 48 CHAPTER 3. INDICATEURS DE TENDANCE

    On trouve :

    m−1 = 8, 351284

    m0 = 8, 425732

    m1 = 8, 5

    m2 = 8, 573214

    m3 = 8, 644585

    et on constate effectivement que ces valeurs vont en croissant :

    m−1 < m0 < m1 < m2 < m3

  • Chapter 4

    Indicateurs de dispersion

    4.1 Indicateurs de dispersionUne fois qu’on a identifié des valeurs donnant la tendance centrale d’un ensembled’observations, on se demande comment les valeurs sont distribuées autour decette valeur centrale (moyenne, médiane, etc.).

    Cela consiste à se demander si les observations appartiennent à un intervalleplus ou moins large, si les valeurs sont très “tassées” autour de la valeur centraleou au contraire très étalées, etc.

    On définit plusieurs sortes d’indicateurs qui permettent d’apprécier cet as-pect des distributions statistiques. On les appelle indicateurs de dispersion.

    Voici quelques cas de figure pour mieux se représenter le problème :

    0 5 10 15 20

    −1.0

    −0.5

    0.0

    0.5

    1.0

    49

  • 50 CHAPTER 4. INDICATEURS DE DISPERSION

    0 5 10 15 20

    −1.0

    −0.5

    0.0

    0.5

    1.0

    0 5 10 15 20

    −1.0

    −0.5

    0.0

    0.5

    1.0

  • 4.1. INDICATEURS DE DISPERSION 51

    0 5 10 15 20

    −1.0

    −0.5

    0.0

    0.5

    1.0

    4.1.1 L’étendue

    L’étendue est la différence entre la valeur maximale et la valeur minimale de ladistribution.

    C’est la différence entre les valeurs extrêmes, autrement dit l’amplitude duplus petit intervalle contenant toutes les observations.

    Il donne une indication sur l’étalement des valeurs observées mais est trèstributaire des valeurs extrêmes qui peuvent souvent être des valeurs exception-nelles. Il ne donne pas de renseignement sur la manière dont les autres obser-vations se répartissent dans cet intervalle.

    C’est donc une estimation grossière.

    Exemple

    Dans le premier graphique précédent, la distribution était :

    7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6

    On avait donc une étendue de E = 11.6− 7.8 = 3.8.Dans le dernier graphique précédent, la distribution était :

    1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

    On avait donc une étendue de E = 19.8− 1.2 = 18.6.

  • 52 CHAPTER 4. INDICATEURS DE DISPERSION

    4.1.2 L’intervalle inter-quartilesOn a défini les quartiles (Q1, Q2 et Q3) qui sont des quantités permettant derépartir les données en quatre sous-classes de même effectif (25% des donnéesobservées).

    Définition 4.1.1. On appelle intervalle inter-quartile la différence Q3 −Q1.

    C’est l’amplitude de l’intervalle [Q1, Q3]. Cet intervalle contient 50% desobservations : son étendue indique donc si ces 50% d’observations centralessont réparties sur une petite ou une grande étendue de valeurs.

    Remarque:Cette quantité est souvent notée IQR qui est l’abréviation de l’anglais “inter

    quartile range”.

    Exemple

    Dans le premier graphique précédent, la distribution était :

    7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6

    Les quartiles de cette distribution sont :

    Min Q1 Q2 Q3 Max7.80 9.55 10.35 10.75 11.60

    L’intervalle inter-quartiles est donc : Q3 −Q1 = 10.75− 9.55 = 1.2.

    Exemple

    Dans le dernier graphique précédent, la distribution était :

    1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

    Les quartiles de cette distribution sont :

    Min Q1 Q2 Q3 Max1.20 6.35 12.05 15.45 19.80

    L’intervalle inter-quartiles est donc : Q3 −Q1 = 15.45− 6.35 = 9.1.On généralise cette notion en définissant des intervalles en quantiles liés aux

    déciles ou aux centiles. Par exemple, l’intervalle [D1, D9] est intéressant car ilconcentre 80% des données observées.

    Toutes ces quantités sont néanmoins imparfaites car elles ne sont pas ma-nipulables dans des calculs algébriques et donc entrent difficilement dans desformules.

    Il faut remarquer qu’elles se fondent sur le rang des observations plutôt quesur leur valeur. Cet aspect est à leur avantage car elles sont moins sensibles auxvariations de valeurs.

    Exemple

  • 4.1. INDICATEURS DE DISPERSION 53

    Reprenons le dernier exemple de distribution. Les valeurs des déciles sontD1 = 3.75 et D9 = 18.55, l’étendue inter-décile 18.55 − 3.75 = 14.8 pour uneétendue totale de 18.6.

    4.1.3 L’écart absolu moyenPour avoir une meilleure idée de la dispersion proprement dite, il faut regarderles écarts par rapport à la valeur centrale. On va commencer par s’intéresseraux écarts par rapport à la moyenne.

    0 5 10 15 20

    05

    10

    15

    20

    Le graphique précédent représente l’ensemble des points de la dernière dis-tribution à des hauteurs différentes pour pouvoir mieux les différencier.

    Ces écarts se font vers la gauche ou vers la droite. Comme on sait que leursomme est toujours égale à 0, il faut en fait les envisager en valeur absolue.

    Définition 4.1.2. L’écart absolu moyen est la moyenne arithmétique de lavaleur absolue des écarts à la moyenne.

    Si les données sont écrites sous forme exhaustive, la formule mathématiques’écrit :

    eam =1

    N

    N∑i=1

    |xi −m| =|x1 −m|+ |x2 −m|+ · · ·+ |xN −m|

    N

    où m = x̄ = 1N∑Ni=1 xi désigne la moyenne artihmétique.

    Si les données sont regoupées sous forme de tableau d’effectifs de la forme :

    Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

  • 54 CHAPTER 4. INDICATEURS DE DISPERSION

    La formule s’écrit :

    eam =n1 × |v1 −m|+ n2 × |v2 −m|+ · · ·+ nk × |vk −m|

    N

    avec N = n1 + n2 + · · ·+ nk.L’écart absolu moyen est parfois noté ē s’il n’y a pas de risque d’ambiguïté

    avec la moyenne x̄.Remarque :Si on ne mettait pas les valeurs absolues, on trouverait que la moyenne des

    écarts est égale à 0. C’est un résultat général : la moyenne des écarts à lamoyenne est nulle.

    Démonstration

    1

    N

    N∑i=1

    (xi − x̄) =1

    N

    N∑i=1

    xi −1

    N

    N∑i=1

    = x̄− 1NNx̄

    = x̄− x̄= 0

    Exemple

    Reprenons l’exemple de la dernière distribution.

    1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

    Voici comment il faut présenter les calculs.On commence par calculer la moyenne arithmétique des valeurs observées :

    m =1

    20

    (1.2 + 3.5 + 4.0 + 4.1 + 5.3 + 7.4 + 7.6 + 7.7 + 10.0 + 11.5

    + 12.6 + 13.2 + 13.7 + 14.4 + 15.4 + 15.5 + 18.0 + 18.2 + 18.9 + 19.8)

    =222

    20= 11.1

    On calcule ensuite tous les écarts par rapport à la moyenne m = 11, 1 :|1.2− 11.1| = 9.9, |3.5− 11.1| = 7.6, |4.0− 11.1| = 7.1, etc.

    On obtient les valeurs suivantes :

    Valeur absolue des écarts à la moyenne9.9 7.6 7.1 7.0 5.8 3.7 3.5 3.4 1.1 0.41.5 2.1 2.6 3.3 4.3 4.4 6.9 7.1 7.8 8.7

  • 4.1. INDICATEURS DE DISPERSION 55

    Il ne reste plus qu’à calculer la moyenne de ces écarts :

    eam =1

    20

    (9.9 + 7.6 + 7.1 + 7.0 + 5.8 + 3.7 + 3.5 + 3.4 + 1.1 + 0.4

    + 1.5 + 2.1 + 2.6 + 3.3 + 4.3 + 4.4 + 6.9 + 7.1 + 7.8 + 8.7)

    =98.2

    20= 4.91

    En moyenne, les données s’écartent d’environ 4,9 de la valeur centrale.

    Exercice

    Mener les calculs pour les trois premières distributions :• Distribution 1

    7.8 9.2 9.2 9.4 9.4 9.7 10.0 10.0 10.2 10.310.4 10.5 10.6 10.6 10.7 10.8 10.9 11.1 11.5 11.6

    • Distribution 23.4 7.5 7.5 8.1 8.1 9.1 9.9 10.0 10.6 11.011.2 11.5 11.7 11.8 12.2 12.5 12.8 13.4 14.5 14.8

    • Distribution 30.0 5.0 5.1 6.2 6.3 8.2 9.7 9.9 11.1 12.012.3 12.9 13.5 13.6 14.4 14.9 15.7 16.7 19.1 19.6

    Corrigé

    On trouve :

    Moyenne Ecart absolu moyenDistribution 1 10.195 0.686Distribution 2 10.58 2.104Distribution 3 11.31 4.029

    Discussion de l’écart absolu moyen

    Avantages L’écart absolu moyen est une quantité qui correspond très bien àl’intuition de ce qu’est une dispersion moyenne.C’est une grandeur qui est toujours positive et qui est exprimée dans lamême unité que la variable observée. Elle est facile à calculer numérique-ment.

    Inconvénients Il a cependant le défaut d’être difficile à manipuler algébrique-ment. En effet, les sommes de valeurs absolues ne se transforment pas biendans les expressions algébriques. Par exemple, la valeur absolue d’unesomme n’est pas la somme des valeurs absolues des termes de la somme.

    Pour ces raisons, la quantité calculée est un bon indicateur de dispersion maiselle ne permet pas de développements théoriques. On lui préfère habituellementl’écart-type qui va être défini dans la section suivante.

  • 56 CHAPTER 4. INDICATEURS DE DISPERSION

    4.1.4 La variance et l’écart-type

    La raison d’être des valeurs absolues était d’ignorer dans quel sens se font lesécarts par rapport à la valeur centrale (vers la gauche ou vers la droite, pardéfaut ou par excès). Pour obtenir le même effet, on peut aussi élever ces écartsau carré.

    On aboutit ainsi à la notion de variance d’une distribution :

    Définition 4.1.3. La variance est la moyenne des carrés des écarts à la moyenne.

    C’est une quantité positive.Si les données sont écrites sous forme exhaustive, la formule mathématique

    de la variance s’écrit :

    Var(x) =1

    N

    N∑i=1

    (xi −m)2 =(x1 −m)2 + (x2 −m)2 + · · ·+ (xN −m)2

    N

    où m = x̄ = 1N∑Ni=1 xi désigne la moyenne artihmétique.

    Si les données sont regoupées sous forme de tableau d’effectifs de la forme :

    Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

    la formule s’écrit :

    Var(x) =n1 × (v1 −m)2 + n2 × (v2 −m)2 + · · ·+ nk × (vk −m)2

    N

    avec N = n1 + n2 + · · ·+ nk et m = 1N∑ki=1 ni vi.

    Avec un tableau de fréquences, la formule s’écrit :

    Var(x) = f1 × (v1 −m)2 + f2 × (v2 −m)2 + · · ·+ fk × (vk −m)2

    Exemple

    Reprenons l’exemple de la dernière distribution.

    1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

    Voici comment il faut présenter les calculs.On a déjà précédemment calculé la moyenne arithmétique des valeurs ob-

    servées m = 11.1.On calcule ensuite tous les écarts par rapport à la moyenne : (1.2−11.1)2 =

    9.92 = 98.01, (3.5− 11.1)2 = 7.62 = 57.76, (4.0− 11.1)2 = 7.12 = 50.41, etc.On obtient les valeurs suivantes :

  • 4.1. INDICATEURS DE DISPERSION 57

    Carré des écarts à la moyenne98.01 57.76 50.41 49.00 33.64 13.69 12.25 11.56 1.21 0.162.25 4.41 6.76 10.89 18.49 19.36 47.61 50.41 60.84 75.69

    Il ne reste plus qu’à calculer la moyenne de ces carrés :

    Var(x) =1

    20

    (98.01 + 57.76 + 50.41 + 49.00 + 33.64 + 13.69 + 12.25

    + 11.56 + 1.21 + 0.16 + 2.25 + 4.41 + 6.76 + 10.89 + 18.49

    + 19.36 + 47.61 + 50.41 + 60.84 + 75.69)

    =624.4

    20= 31.22

    La variance est une quantité au carré. Cela signifie que si les valeurs xi sontpar exemple mesurées en mètres, alors la variance est en mètres carrés. Or ons’attend à ce que la mesure de dispersion soit dans la même unité que les valeurselles-mêmes. C’est pourquoi on calcule la racine carrée de la variance commenouvel indice de dispersion.

    Définition 4.1.4. On appelle écart-type la racine carrée de la variance.

    L’écart-type est souvent noté au moyen de la lettre grecque σ qui se lit sigma.On a les relations suivantes :

    Var(x) = σ(x)2

    σ(x) =√

    Var(x)

    Exemple

    Dans le cas précédent, on trouve σ =√

    31, 22 ≈ 5, 59 .

    Exercice

    Mener les calculs de la variance et de l’écart-type pour les trois premièresdistributions.

    Corrigé

    On trouve :

    Moyenne Variance Écart-typeDistribution 1 10.195 0.77 0.88Distribution 2 10.58 7.12 2.67Distribution 3 11.31 24.3 4.93

    On peut comparer les écart-types avec les écarts absolus moyens : cesderniers sont légèrement inférieurs (respectivement 0.686, 2.104 et 4.029). C’estnormal puisqu’une moyenne arithmétique est toujours inférieure à une moyennequadratique.

    Dans le cas d’une variable continue regroupée en classes, on utilise les milieuxdes classes pour faire les calculs.

  • 58 CHAPTER 4. INDICATEURS DE DISPERSION

    Exemple

    Le tableau suivant donne la répartition des employés d’une entreprise selonle salaire mensuel en milliers d’euros. Calculer l’écart-type.

    [1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150xi 1.75 2.25 2.75 3.25 3.75 4.5nixi 54.25 76.50 110 84.50 48.75 27 401

    On a déjà calculé la moyenne dans la séance précédente :

    m =1

    150

    (31× 1.75 + 34× 2.25 + 40× 2.75 + 26× 3.25

    + 13× 3.75 + 6× 4.5)

    =401

    150= 2.67

    On calcule ensuite les écarts à la moyenne, puis leurs carrés :

    [1.5,2[ [2,2.5[ [2.5,3[ [3,3.5[ [3.5,4[ [4,5[ni 31 34 40 26 13 6 150xi 1.75 2.25 2.75 3.25 3.75 4.5nixi 54.25 76.50 110 84.50 48.75 27 401xi −m -0.92 -0.42 0.08 0.58 1.08 1.83(xi −m)2 0.846 0.176 0.006 0.34 1.167 3.35

    ni(xi −m)2 26.24 5.998 0.255 8.746 15.163 20.093 76.495

    La variance est finalement

    Var(x) =76.495

    150= 0.51

    et l’écart-type

    σ =√

    0.51 = 0.714

    4.1.5 Propriétés de la varianceIl existe une autre formule (dite formule développée) pour calculer la varianced’une distribution :

    Var(x) =1

    N

    N∑i=1

    x2i − x̄2 =x21 + x

    22 + · · ·+ x2NN

    − x̄2

    où x̄ désigne la moyenne arithmétique.On interprète cette formule en disant que

  • 4.1. INDICATEURS DE DISPERSION 59

    la variance est égale à la moyenne des carrés diminuée du carré de la moyenne.

    Exemple

    Reprenons l’exemple de la quatrième distribution.

    1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

    On calcule les carrés :

    1.44 12.25 16.00 16.81 28.09 54.76 57.76 59.29100.00 132.25 158.76 174.24 187.69 207.36 237.16 240.25324.00 331.24 357.21 392.04

    Leur somme vaut 3088.6 et donc la moyenne des carrés est3088.6

    20= 154.43.

    On a déjà précédemment calculé la moyenne arithmétique m = 11.1.Finalement

    Var(x) = 154.43− 11.12 = 154.43− 123.21 = 31.22

    Démonstration de la formule développée

    Var(x) =1

    N

    N∑i=1

    (xi − x̄)2

    =1

    N

    N∑i=1

    (x2i − 2xix̄+ x̄2)

    =1

    N

    N∑i=1

    x2i −1

    N

    N∑i=1

    2xix̄+1

    N

    N∑i=1

    x̄2

    =1

    N

    N∑i=1

    x2i − 2x̄1

    N

    N∑i=1

    xi +1

    NNx̄2

    =1

    N

    N∑i=1

    x2i − 2x̄2 + x̄2

    =1

    N

    N∑i=1

    x2i − x̄2

    Si les données sont regoupées sous forme de tableau d’effectifs, la formuledéveloppée de la variance s’écrit :

    Var(x) =n1 × v21 + n2 × v22 + · · ·+ nk × v2k

    N− x̄2

    =1

    N

    k∑i=1

    ni v2i − x̄2

  • 60 CHAPTER 4. INDICATEURS DE DISPERSION

    Avec un tableau de fréquences, la formule s’écrit :

    Var(x) =

    k∑i=1

    fi v2i − x̄2

    Voici quelques propriétés de la variance.• La variance est invariante par translation :

    Var(x+ b) = Var(x)

    • Si on multiplie les valeurs observées par un nombre a, la variance estmultipliée par a2 :

    Var(a x) = a2 Var(x)

    • En mettant ces deux propriétés ensemble, on obtient :

    Var(a x+ b) = a2 Var(x)

    4.1.6 Déviation médiane absolueUne autre mesure de dispersion, qui ne tient compte que de la position des ob-servations et non pas de leurs valeurs, consiste à remplacer la notion de moyennepar celle de médiane dans la définition de l’écart absolu moyen.

    Au lieu de centrer les valeurs sur la moyenne, on les centre sur la médiane.On obtient ainsi les écarts à la médiane, calculés en valeur absolue.

    Ensuite, au lieu de faire la moyenne de ces écarts, on en prend la médiane.La quantité qu’on obtient de cette manière s’appelle la déviation médiane

    absolue. Elle est parfois appelée MAD qui est l’abréviation de l’anglais “medianabsolute deviation”.

    Exemple

    Calculons la déviation médiane absolue de la quatrième distribution.

    1.2 3.5 4.0 4.1 5.3 7.4 7.6 7.7 10.0 11.512.6 13.2 13.7 14.4 15.4 15.5 18.0 18.2 18.9 19.8

    La médiane de cette distribution est M = (11.5 + 12.6)/2 = 12.05.On calcule donc les valeurs absolues des écarts à la médiane : |1.2−12.05| =

    10.85, |3.5− 12.05| = 8.55, etc. Voici les résultats :

    10.85 8.55 8.05 7.95 6.75 4.65 4.45 4.35 2.05 0.550.55 1.15 1.65 2.35 3.35 3.45 5.95 6.15 6.85 7.75

    On ordonne ces quantités pour calculer leur médiane :

    0.55 0.55 1.15 1.65 2.05 2.35 3.35 3.45 4.35 4.454.65 5.95 6.15 6.75 6.85 7.75 7.95 8.05 8.55 10.85

  • 4.1. INDICATEURS DE DISPERSION 61

    La médiane vaut MAD = (4.45+4.65)/2 = 4.55 . C’est la déviation médianeabsolue.

    La déviation médiane absolue est un excellent indicateur de dispersion pourplusieurs raisons :

    1. il s’agit d’une statistique robuste car elle est résistante à la présence depoints aberrants (voir au paragraphe suivant) ;

    2. elle fournit un estimateur consistent de l’écart-type (ces questions serontétudiées dans le cours de statistique inférentielle) ;

    3. c’est toujours une quantité finie et on peut donc l’utiliser dans le cas dedistributions qui n’ont pas de moyenne et de variance (ces questions serontétudiées dans le cours de probabilité).

    4.1.7 Coefficient de variationLes principaux indicateurs d’une distribution, en particulier la moyenne arith-métique x̄ et l’écart-type σ(x), sont exprimés dans la même unité que la variableobservée x.

    Cela soulève un problème lorsqu’on veut comparer deux caractères qui sontexprimés chacun dans son unité : par exemple, les salaires en France et auxÉtats-Unis sont respectivement exprimés en euros et