92
STATISTIQUE DESCRIPTIVE MES 2018-2019 2 « L'objet de la méthode statistique est la réduction des données. Une masse de données doit être remplacée par un petit nombre de quantités représentant correctement cette masse, et contenant autant que possible la totalité de l'information pertinente contenue dans les données d'origine. Cet objectif est accompli par la construction d'une population infinie hypothétique. La statistique comporte des problèmes de spécification apparaissant à travers le choix de la forme mathématique de la population, des problèmes d'estimation, impliquant le choix de méthodes de calcul de quantités dérivées de l'échantillon, que nous appellerons statistiques, construites pour estimer les valeurs des paramètres de la population hypothétique, et enfin des problèmes de distribution ». FISCHER

FISCHER - Ecopo Lubumbashi

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

2

« L'objet de la méthode statistique est la réduction des données. Une

masse de données doit être remplacée par un petit nombre de quantités

représentant correctement cette masse, et contenant autant que possible la

totalité de l'information pertinente contenue dans les données d'origine. Cet

objectif est accompli par la construction d'une population infinie hypothétique.

La statistique comporte des problèmes de spécification apparaissant à travers

le choix de la forme mathématique de la population, des problèmes

d'estimation, impliquant le choix de méthodes de calcul de quantités dérivées

de l'échantillon, que nous appellerons statistiques, construites pour estimer les

valeurs des paramètres de la population hypothétique, et enfin des problèmes

de distribution ».

FISCHER

Page 2: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

3

INTRODUCTION

Dans une acception précise et scientifique, on appelle statistique une

mesure calculée à partir de données provenant d’un échantillon. Dans une

acception plus globale, la notion de statistique représente l’ensemble de la

théorie statistique qui traite des propriétés des populations dans leurs

ensembles.

L'apparition du mot « statistique » lui-même est relativement récente,

surtout en comparaison de l'activité correspondante de recueil des données,

qui remonte à la plus haute antiquité. On associe souvent la création du

terme statistique, issu du latin statisticum : qui a trait à l'Etat, à l’école

allemande de Gottingue, et plus particulièrement à Gottfried Achenwall

(1746). Il est plus probable cependant que ce dernier a seulement été le

premier à proposer un enseignement traitant de statistique. L'emploi du mot

est plus ancien puisque l'on possède une Biblioteca Statistica datant de 1701

et un Microscopium Statisticum de 1672. En remontant plus encore dans le

temps, le mot statistique appartient au langage administratif français

colbertien : Jean Meyer mentionne l'existence d'une déclaration des biens,

charges, dettes et statistiques des communautés de la généralité de

Bourgogne établie par Claude Bouchu, intendant de Bourgogne, de 1666 à

1669.

Par contre, l'apparition du besoin statistique de posséder des données

chiffrées précède sa dénomination de plusieurs millénaires. A son origine, il

est le fait de chefs d'Etat (ou de ce qui en tient lieu à l’époque) désireux de

connaître des éléments de leur puissance : population, potentiel militaire,

richesses, etc. L’idée de recensement, ou de liste d'inventaire, apparaît donc

de façon tout à fait naturelle dans l’histoire, impliquant en outre une

impression de précision de la plus haute qualité. Dans cette perspective, le

terme statistique ou statistiques est utilisé pour indiquer un ensemble de

données disponibles à propos d’un phénomène déterminé.

Dans une acception plus moderne et plus complète du mot, la

statistique est considérée comme une discipline ayant trait à des données

numériques. Elle comprend un ensemble de techniques devant conduire à

l’acquisition de connaissances générales à partir de données incomplètes, à

partir d’un système scientifique rigoureux guidant le recueil de données, leur

organisation, leur analyse et leur interprétation, pour autant qu’on puisse

leur donner une forme numérique. On distingue deux sous-ensembles de

techniques :

• celles relatives à la statistique descriptive ;

Page 3: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

4

• celles relatives à la statistique inférentielle.

Le but essentiel des statistiques descriptives est de représenter

l’information d’une façon compréhensible et utilisable. La statistique

inférentielle, de son côté, a pour fonction d’aider à la généralisation de cette

information ou, plus spécifiquement, de faire des inférences (à propos des

populations) basées sur des échantillons de ces populations. D'une manière

générale, il s'agit donc d'induire du particulier au général. Le plus souvent,

ce passage ne pourra se faire que moyennant des hypothèses de type

probabilistes. Les termes de statistique inférentielle, statistique inductive et

statistique mathématique sont eux aussi quasiment synonymes.

La statistique intervient dans de nombreux domaines, fort différents les

uns des autres. Ainsi trouve-t-on sa place autant dans la production

industrielle que dans la recherche océanographique, dans la conception de

systèmes de contrôle du trafic aérien, que dans les services de l’Etat afin

d’estimer le coût de la vie, etc.

Ce cours présente les concepts fondamentaux de la statistique

descriptive et décrit les méthodes le plus souvent utilisées dans la pratique.

Il ne nécessite pas au préalable d’avoir suivi un cours élémentaire de

statistique, mais seulement de posséder une bonne aptitude pour les

raisonnements quantitatifs et un minimum de connaissances

mathématiques. L’accent sera mis beaucoup plus sur l’explication des

méthodes exposées et leur utilisation que sur les justifications

mathématiques des différents résultats. Les exercices permettent à l’étudiant

de tester sa capacité à passer de la théorie à la pratique. Ils suivent l’ordre

de progression du cours. En fin, on trouvera dans ce cours des illustrations

ou des graphiques mais aussi, toujours dans un souci pédagogique,

plusieurs exercices demandant aux étudiants l’usage d’un tableur de calcul

comme Excel.

Ce cours s’adresse en priorité aux étudiants de première licence

ECOPO, et de sciences économiques et de gestion, mais aussi à tous les

étudiants des formations dont le cursus comprend une initiation à la

statistique descriptive.

Page 4: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

5

Chapitre premier

VOCAVULAIRE DE LA STATISTIQUE DESCRIPTIVE

Ce chapitre est consacré à la définition de la statistique descriptive ainsi

que des différents termes qui en constituent le vocabulaire de base.

1.1. Définition

Il existe de nombreuses définitions (plusieurs centaines), celle que nous

donnons ici est celle de Bernard PY : « La statistique descriptive est un

ensemble de méthodes permettant de décrire et d'analyser, de façon

quantifiée, des phénomènes repérés par des éléments nombreux, de même

nature, susceptibles d'être dénombrés et classés. »

Deux points importants ressortent de cette définition :

—Ensemble de méthodes : la statistique descriptive ne contient aucune

théorie, mais seulement des outils d'investigation et de mesure des données

chiffrées.

—Décrire et analyser, de façon quantifiée, des phénomènes repérés par des

éléments nombreux : décrire, i.e. faire des tableaux, des graphiques, calculer

des moyennes afin de faire ressortir la signification.

1.2. Description d'une population

1.2.1. Population et individu

Une population est l’ensemble des éléments auxquels se rapportent les

données étudiées. En statistique, le terme population s’applique à des

ensembles de toute nature : étudiants d’une académie, productions d’une

usine, poissons d’une rivière, entreprises d’un secteur donné, etc. Dans une

population donnée, chaque élément est appelé individu ou unité statistique.

La collecte d’informations sur une population peut être effectuée sur la

totalité des individus ; on parle d’enquête exhaustive. Lorsque la taille de la

population étudiée est élevée, de telles enquêtes sont fort coûteuses ou

impossibles, et le cas échéant, leurs résultats sont très longs à ressembler

peuvent être dépassés avant même la fin de l’enquête. C’est la raison pour

laquelle on a souvent recours au sondage.

1.2.2. L'échantillon

On appelle échantillon l’ensemble des individus sur le quel on a repéré

ou mesuré effectivement une donnée.

Page 5: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

6

1° Représentativité d'un échantillon

Un individu isolé n’est pas représentatif. Un échantillon, par contre, est

représentatif d’une population lorsqu’il permet de décrire cette population

dans son centre, mais aussi dans sa diversité.

2° Tirage d'un échantillon

Un échantillon se tire à partir d’une base de sondage, i.e. à partir

d’une liste, d’un répertoire ou d’un plan avec un certain procédé de tirage.

On distingue :

—Un échantillonnage aléatoire simple, qui est une méthode d’échantillonna-

ge pour choisir 𝑛 unités parmi les 𝑁 de la population, de sorte que chacun

des (𝑛𝑁) échantillons possibles ait la même probabilité d’être sélectionnée.

—Par un échantillonnage par grappes, il s’agit dans un premier temps de

diviser la population en sous-ensembles appelées grappes. L’avantage de

l’échantillonnage par grappes réside dans le fait qu’il n’est pas ́nécessaire de

numéroter tous les individus de la population. L’échantillonnage par grappes

consiste alors à choisir un échantillon aléatoire de grappes puis à observer,

pour chacune de ces grappes, tous les individus y appartenant.

—L’échantillonnage par quotas est une méthode d’échantillonnage non

aléatoire. L’échantillon est choisi de façon à constituer une image aussi fidèle

que possible de la population. La méthode des quotas se base sur la

répartition connue de la population pour un certain nombre de caractères

(sexe, âge, catégorie socioprofessionnelle,...). On fait ensuite l’hypothèse que

les différents caractères de la population sont connus, c’est-à-dire que si

l’échantillon est représentatif pour les caractères de contrôle, il le sera aussi

pour la variable étudiée. L’échantillon est construit en respectant la

distribution de la population et en choisissant un certain taux de sondage

(quotas). Ensuite la désignation des personnes à interroger est laissée au

choix de l’enquêteur.

—Pour l’échantillonnage stratifié, on divise dans un premier temps la

population en sous-populations appelées strates. Ces strates ne doivent pas

s’interpénétrer et l’ensemble de ces strates doit constituer l’ensemble de la

population. Une fois que les strates ont été déterminées, on tire un

échantillon aléatoire (pas forcement de même taille) de chacune des strates,

cet échantillonnage étant fait indépendamment dans différentes strates.

—L’Echantillonnage systématique est un échantillonnage aléatoire. Les

individus sont prélevés dans la population à des intervalles fixes en termes

de temps, d’espace ou d’ordre d’occurrences, les premiers étant tiré au

hasard.

Page 6: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

7

1.2.3. Caractères et variables

Dans une population, par exemple celle des étudiants d’une faculté, les

unités sont repérées par le nom et le prénom des étudiants (on a donc une

liste). Si l'on souhaite étudier cette population, on va retenir certains critères

d’étude comme le sexe, la filière principale à laquelle chaque étudiant se

rattache, les matières optionnelles qu'il a choisi, l’âge, le poids, la taille, etc.

Parmi ces critères, certains sont quantitatifs, comme l’âge, le poids, la

taille. On peut en effet effectuer des calculs numériques sur ces critères :

poids moyen, taille maximale, taille minimale, etc. D’autres critères ne sont

pas quantifiables, car on ne peut pas effectuer de calculs dessus. Ils sont

qualitatifs. C’est le cas du sexe par exemple. On peut connaître l’effectif

masculin et l’effectif féminin d’une population, mais la notion de « sexe

moyen » n’a pas de sens et ne peut d’ailleurs pas être calculée.

Afin de différencier les deux type de critères, les critères qualitatifs sont

appelés des caractères et les critères quantitatifs des variables. On désigne

par modalités les différentes catégories d’un caractère qualitatif et on qualifie

de valeurs les différents chiffres d’une variable.

1.2.3.1. Modalités

a) Modalités ordinales

Les modalités d'un caractère qualitatif, si elles ne peuvent pas être

mesurées quantitativement, sont parfois susceptibles d'être classées. Ce sont

des modalités ordinales.

Exemple 1.1

Un questionnaire de satisfaction demande aux consommateurs d'évaluer

une prestation en cochant l’une des six catégories suivantes :

(a) nulle, (b) médiocre, (c) moyenne, (d) assez bonne, (e) très bonne, (f)

excellente.

Il s'agit de modalités ordinales puisqu'elles peuvent être hiérarchisées : une

prestation excellente est meilleure qu'une prestation bonne, etc. La

différence avec des valeurs quantitatives est qu'on ne peut dire, par exemple,

si une prestation jugée excellente est deux fois ou quatre fois meilleure

qu'une prestation décrite comme moyenne. On peut effectuer un classement,

non une quantification.

Remarque 1.1

Certaines modalités ordinales peuvent néanmoins être transformées en

valeurs quantitatives. Ce sont en fait des valeurs quantitatives qui prennent

l'apparence de modalités qualitatives ordinales.

Page 7: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

8

Exemple 1.2

Des chemises sont classées par taille : XS, S, M, L, XL, XXL, XXXL.

Il s'agit de modalités faussement ordinales. En réalité il existe un tableau de

correspondance qui explicitera à quelle taille en cm chacune de ces

catégories correspond.

b) Modalités nominales

Les modalités d'un caractère qualitatif qui ne peuvent pas être classées

ou hiérarchisées sont dites nominales.

Exemple 1.3

On demande à un échantillon de personnes ce qu'évoque pour elles un

parfum. Plus précisément, elles doivent cocher une des cases suivantes :

(a) aventure, (b) sensualité, (c) confort, (d) nostalgie.

Il est clair qu'aucune comparaison ni hiérarchisation ne peuvent être

établies entre ces modalités. Elles sont nominales.

Remarque

Certaines modalités purement nominales sont parfois codées avec des

chiffres. Par exemple, le sexe des individus d'une population sera codé par

"1" pour les hommes et par "2" pour les femmes. Il s'agit bien là d'une

tentative de quantification d'une variable purement nominale. On parle alors

de variables pseudo-numériques. On peut en effet de cette façon calculer

une moyenne, qui sera en fait la proportion des hommes dans la population

ou dans l'échantillon.

1.2.3.2. Variables quantitatives

Nous avons vu qu'une variable quantitative est une variable dont les

modalités ont des valeurs numériques. Par exemple l'âge, la température, le

revenu, la pression atmosphérique, le nombre de membres d'une famille, la

durée d'un conflit international sont toutes des variables quantitatives. Une

distinction fondamentale concernant les variables quantitatives est celle

effectuée entre les variables discrètes et les variables continues.

a) Variable discrète

Une variable quantitative est dite discrète si l’étendue des valeurs

possibles est dénombrable, c'est-a-dire si les valeurs peuvent être énumérées

sous la forme d'une liste de chiffres (a1, a2,...) ou plus souvent d'entiers

naturels (0,1,2,3,...). Quelques exemples de variables discrètes sont :

— le nombre de personnes dans une famille ;

— le nombre de mots dans une phrase ;

Page 8: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

9

— le nombre d'accidents survenus dans une journée ;

— le nombre d’étoiles visibles à un certain moment de la soirée.

b) Variables continues

Une variable quantitative est dite continue si les valeurs possibles ne

sont pas dénombrables. L'ensemble de ces valeurs est constitué par la

totalité de l’intervalle défini selon l’étendue de la variable. Citons quelques

exemples de variables continues :

— le poids d'un nouveau-né ;

— la longueur d'une table ;

— la fréquence d'une onde ;

— le volume d'un chargement.

Page 9: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

10

Chapitre deuxième

LES TABLEAUX

Le statisticien se trouve souvent confronté à une quantité imposante de

données dont il est difficile de tirer des conclusions probantes. Pour une

meilleure interprétation, il est primordial que les données traitées soient

triées et classées. Pour que l’organisation des données soit efficace, elle doit

être simple et parlante. Cela implique qu'elle doit retenir l’information

essentielle contenue dans ces données, sans pour autant négliger les aspects

particuliers de leur structure. A cet effet, les tableaux constituent le premier

moyen de représentation des données statistiques. Etant donné l'abondance

des présentations tabulaires, nous n'étudierons ici que les principales.

2.1. Le dépouillement des observations

Les observations portent, nous l’avons vu, soit sur des variables

s’exprimant numériquement, soit sur des variables non numériques ou

caractères. Elles parviennent à la personne chargée du dépouillement sous

forme d’une quantité de données, en vrac, plus ou moins importante.

2.1.1. Notions de série statistique

On appelle série statistique la suite des valeurs prises par une variable

𝑋 sur les unités des observations. Le nombre d’unités d’observations est noté

𝑛. Les valeurs de la variable 𝑋 sont notées 𝑥1, 𝑥2, … , 𝑥𝑛.

2.1.2. Ordonnancement et classement

Il n’est pas facile de travailler sur une série en « vrac », aussi est-il

nécessaire de l’ordonner.

1° Notion d'ordre

Ordonner les données d’une série statistique, c’est disposer les données

selon certains rapports logiques. Ces rapports logiques peuvent être de :

a) Nature arithmétique

On distingue généralement l’ordre croissant et l’ordre décroissant. Une série

ordonnée donne une meilleure connaissance de l’information, puisqu’on y

découvre aisément la valeur minimale et la valeur maximale du phénomène

étudié.

b) Natures diverses

En gestion (surtout pour les séries qualitatives) il est possible d’utiliser de

nombreux ordres tels que : ordre alphabétique, ordre chronologique, ordre

géographique ou ordre alphanumérique, etc.

Page 10: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

11

2° Pointage

Une même valeur peut être rencontrée plusieurs fois dans une série

statistique. Il est alors possible de condenser l’information en établissant un

tableau de dépouillement comprenant trois colonnes.

a) La première colonne indique, selon l’ordre choisi, les modalités du

caractère (ou les valeurs de la variable) représentées par la notation 𝑥𝑖.

b) La deuxième colonne enregistre le dénombrement qui s’effectue en

inscrivant une barre sur la ligne représentant la valeur (ou modalité) lue.

Pour faciliter le comptage, les barres sont rassemblées par groupes de 5,

Soir par la méthode dite « du balai »

Soit par la méthode dite « du pendu »

c) La troisième colonne récapitule l’effectif de chaque valeur.

Exemples 2.1

Soit un échantillon de 50 achats de boissons non-alcoolisées largement

rependues : Coca-cola, Sprite, Dr Pepper, Pepsi, Coca Light, Sprite, Pepsi,

Coca-cola, Pepsi, Dr Pepper, Sprite, Coca Light, Pepsi, Coca-cola, Dr Pepper,

Coca-cola, Coca-cola, Coca Light, Pepsi, Coca-cola, Coca-cola, Pepsi, Coca

Light, Pepsi, Coca-cola, Pepsi, Coca Light, Sprite, Coca-cola, Pepsi, Coca

Light, Coca-cola, Pepsi, Coca-cola, Dr Pepper, Pepsi, Coca-cola, Coca Light,

Pepsi, Coca-cola, Dr Pepper, Coca-cola, Coca Light, Coca-cola, Coca-cola,

Coca-cola, Coca-cola, Coca-cola, Pepsi, Sprite.

On obtient ainsi le tableau de distribution de fréquences

Tableau 2.1

Boissons non-alcoolisées Dénombrement Fréquences

Coca-cola 19

Coca Light 8

Dr Pepper 5

Pepsi 13

Sprite 5

Total 50

Exemples 2.2

On a mesuré la taille de 20 personnes et les résultats sont (en cm) : 148,

165, 145, 173, 148, 145, 152, 178, 135, 170, 170, 170, 142, 148, 165, 175,

178, 178, 178, 178.

Il s'agit d'une variable continue (la taille), mais dont les valeurs sont ici

connues individuellement. On peut aussi effectuer un regroupement par

classe car certaines tailles, comme 170 ou 178, apparaissent plusieurs fois.

Page 11: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

12

Tableau 2.2

Taille Dénombrement Fréquences

135 1

142 1

145 2

148 3

152 1

165 2

170 3

173 1

175 1

178 5

Total 20

Remarque 2.1

On prendra soin de toujours indiquer la source des données, afin que

l’utilisateur du tableau puisse éventuellement s’y référer. Il est également

important d’ajouter toute note utile pour la compréhension des données

(l’unité de mesure qui a été utilisée,…)

2.2. Réalisation d'un tableau

2.2.1. Présentation d'un tableau statistique

Selon que la variable est discrète ou continue, le tableau se présente de

la façon suivante :

1° Tableau concernant une variable discrète

Exemple 2.3

Distribution du personnel d’une entreprise en fonction du nombre d’enfants

Tableau 2.3

Nombre d’enfants 𝑥𝑖 Effectif

0 12

1 31

2 29

3 11

4 4

5 2

6 et + 1

total 90

Remarque 2.2

Le tableau 2.3 se lit ainsi :

Page 12: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

13

12 membres du personnel n’ont pas d’enfants ;

31 membres du personnel ont 1 enfant ;…

2° Tableau concernant une variable continue

Exemple 2.4

Distribution de la taille de 20 personnes (en cm) :

Tableau 2.4

Classes Effectifs

[130-140[ 1

[140-150[ 6

[150-160[ 1

[160-170[ 2

[170-180[ 10

Total 20

Remarque 2.3

Le tableau 2.4 se lit ainsi : une personne mesure entre 130 et 140 cm, 6

personnes mesurent entre 140 et 150 cm, etc.

Lorsque les unités statistiques sont groupées par classes, on calcule un

centre de classe, désigné par 𝑐𝑖, qui est égal à la moyenne des extrémités de

classes. En raison de l’hypothèse d’équirepartition, le centre de classe sera le

représentant de toute la classe.

2.2.2. Notion de fréquence

La deuxième colonne d’un tableau de valeur enregistre le nombre de fois

que la valeur de la variable, mentionnée dans la première colonne, a été

rencontrée. Il s’agit d’une fréquence 𝑓𝑖 et celle-ci peut apparaitre sous divers

aspects selon les critères ou impératifs retenus.

1° Fréquence absolue. Fréquence relative

a) La fréquence absolue comme son nom l’indique, donne le nombre d’unités.

b) La fréquence relative est calculée en divisant chaque fréquence absolue

par l’effectif total de la population. En d’autres termes, cette fréquence est

exprimée en valeur relative. Multipliée par 100, elle donne un pourcentage.

Pour chaque valeur 𝑥𝑖 d’une variable, on définie la fréquence de l’effectif 𝑛𝑖

comme suit :

𝑓𝑖 =𝑛𝑖𝑛 ; 𝑖 = 1, … , 𝐼

Cette quantité exprime l’importance relative de la valeur 𝑥𝑖 dans la série

observée. Les fréquences sont bien sure reliées entre elles par la relation

Page 13: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

14

∑𝑓𝑖 = 1

𝐼

𝑖=1

Exemple 2.5

A partir de l’exemple 2.1 nous obtenons le nouveau tableau suivant :

Tableau 2.5

Boissons non-alcoolisées Fréquences relative Fréquences en %

Coca-cola 0,38 38

Coca Light 0,16 16

Dr Pepper 0,10 20

Pepsi 0,26 26

Sprite 0,10 10

Total 1 100

Exemple 2.6

A partir de l’exemple 2.4, on obtient la distribution de fréquences suivante :

Tableau 2.6

Classes Fréquences relative Fréquences en %

[130-140[ 0,05 5

[140-150[ 0,3 30

[150-160[ 0,05 5

[160-170[ 0,1 10

[170-180[ 0,5 50

Total 1 100

Remarque 2.4

Pour les fréquences relatives, le tableau 2.6 se lit ainsi : 5 % de personnes

mesurent entre 130 et 140 cm, 30 % mesurent entre 140 et 150 cm, etc.

2° Fréquence simple. Fréquence cumulée

a) Les fréquences simples, qu’elles soient absolues ou relatives, indique

comment se distribue la variable par rapport aux différentes modalités.

b) Les fréquences cumulées, qu’elles soient absolues ou relatives, indiquent

comment se repartit la variable par rapport aux différentes modalités.

Il existe par ailleurs deux catégories de fréquences cumulées :

Les fréquences cumulées croissantes qui indiquent combien d’unités de

la population sont caractérisées par une valeur inférieure à… ;

Les fréquences cumulées décroissantes qui indiquent combien d’unités

de la population sont caractérisées par une valeur supérieure à… ;

Page 14: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

15

Exemple 2.7

Reprenons l’exemple 2.4,

Tableau 2.7

Classes Fréquences Fréquences cumulées croissantes (↓)

Fréquences cumulées décroissantes (↑)

[130-140[ 1 1 20

[140-150[ 6 7 19

[150-160[ 1 8 13

[160-170[ 2 10 12

[170-180[ 10 20 10

Tableau 2.8

Classes Fréquences Fréquences cumulées croissantes en %

Fréquences cumulées décroissantes en %

[130-140[ 1 5 100

[140-150[ 6 35 95

[150-160[ 1 40 65

[160-170[ 2 50 60

[170-180[ 10 100 50

Remarques 2.5

1. La lecture du tableau 2.8 précédent indique :

50% de personnes mesurent moins de 170 cm ;

60% de personnes mesurent plus de 160 cm ;

2. La série de nombres des fréquences cumulées croissantes n’est pas

symétrique par rapport à la série des fréquences cumulées décroissantes.

2.3. Groupement des données en clases (Méthode de Sturge)

Si le nombre d’observations est élevé, une autre condensation est

possible. Elle consiste à déterminer des classes qui pourront contenir

plusieurs valeurs de la variable.

a) L’amplitude des classes, i.e. l’importance du groupement, doit être

déterminée de façon telle que le nombre de classes ne soit :

ni trop faible, car on risquerait de perdre la finesse de l’analyse.

ni trop importante, ce qui se traduirait par une remise en question de

l’avantage du groupement.

b) Le bornage est un problème également délicat. En mathématique, il est

recommandé de définir conventionnellement le bornage, en utilisant la

notation suivante [𝑎, 𝑏[ , i.e. borne inferieure comprise et borne supérieure

exclue.

Page 15: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

16

Voici une méthode qui aide à grouper les données sans nuire à

l’analyse :

Soit la formule

𝑘 = 1 +10 log 𝑛

3

où 𝑘 est le nombre de classe, 𝑛 la taille de l’échantillon.

1. On calcul d’abord l’étendue de la série : 𝑑 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛;

2. On calcul ensuite l’intervalle de classe : 𝑎 =𝑑

𝑘−1;

3. On détermine l’étendue de travail :𝜔 = 𝑎 ∙ 𝑘;

4. On détermine la limite inferieure de la classe : 𝐿𝑖 = 𝑥𝑚𝑖𝑛 −𝑎

2;

5. On détermine la limite supérieure de la classe : 𝐿𝑠 = 𝐿𝑖 + 𝜔.

Exemple 2.8

Soit l’échantillon de 40 individus :

49,61,55,48,59,49,56,55,50,59,51,51,56,53,57,57,50,50,53,55,52,55,50,57,

54,51,56,54,53,56,53,52,51,53,53,52,56,52,53.

Appliquons la méthode de Sturge :

𝑘 = 1 +10 log 40

3= 6,3 ⇒ 𝑘 = 6

1. 𝑑 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 61 − 48 = 13

2. 𝑎 =𝑑

𝑘−1=

13

5= 2,6

3. 𝜔 = 𝑎 ∙ 𝑘 = 2,6 ∙ 6 = 15,6

4. 𝐿𝑖 = 𝑥𝑚𝑖𝑛 −𝑎

2= 48 −

2,6

2= 46,7

5. 𝐿𝑠 = 𝐿𝑖 + 𝜔 = 15,6 + 46,7 = 62,3

On obtient ainsi le tableau :

Tableau 2.9

Classes 𝑥𝑖 𝑛𝑖 𝑓𝑖 ↓ ↑ [46,7-49,3[ 48,0 3 0,075 3 40

[49,3-51,9[ 50,6 8 0,200 11 37

[51,9-54,5[ 53,2 14 0,350 25 29

[54,5-57,1[ 55,8 12 0,300 37 15

[57,1-59,7[ 58,4 2 0,050 39 3

[59,7-62,3[ 61 1 0,025 40 1

Page 16: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

17

Chapitre troisième

LES GRAPHIQUES

3.1. Rôle de la représentation graphique

Le graphique est un mode d’expression qui permet visuellement de

saisir et de mémoriser un certain nombre d’informations. C’est pourquoi,

lors de la présentation de résultats statistiques et complémentairement aux

tableaux, on utilise souvent une représentation graphique.

Celle-ci peut répondre à deux types d’objectif :

—être un moyen de communication et permettre de « véhiculer » une

information. C’est ainsi que certains graphiques figurent dans des articles de

journaux, des brochures de présentation de résultats commerciaux ou

comptable même dans certaines publicités. Ne dit-on pas qu’un bon

graphique vaut mieux qu’un long discours.

—être un instrument de travail et permettre une vue d’ensemble du

phénomène étudié, ce qui en facilite l’analyse.

La diversité des présentations graphiques ne connait d’autres limites

que celles de l’imagination. Nous nous bornerons dans ce chapitre à passer

en revue les graphiques les plus connus et les mieux adaptés aux données

qu’il s’agit de représenter.

3.2. Graphique d’une variable discrète

La représentation graphique des fréquences simples d’une variable

discrète peut s’effectuer sous la forme de graphique en bâtons.

Un diagramme en bâtons est construit dans un système d’axes

rectangulaires où les valeurs de la variable statistique sont portées en

abscisse. A partir de chaque 𝑥𝑖 on trace un segment de droite verticale dont

la hauteur est proportionnelle à l’effectif correspondant. On peut retenir

indifféremment une échelle qui explicite les effectifs, ou une échelle qui

explicite les fréquences.

Exemple 3.1

On a relevé le nombre d’enfants de 100 familles choisies au hasard. Le

tableau ci-après donne les principales caractéristiques de cette étude.

Tableau 3.1

𝑥𝑖 1 2 3 4 5 6 7 8 Total

𝑛𝑖 20 25 30 10 6 4 3 2 100

Le diagramme en bâton de la distribution sera :

Page 17: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

18

Figure 3.1

Remarque 3.1

Dans le cas d’une variable discrète, il ne faut pas joindre les sommets des

bâtons car, par définition, il n’existe pas de valeur intermédiaire entre deux

positions de la variable.

3.3. Graphique d’une variable continue

3.3.1. Histogramme

La représentation graphique des fréquences simples d’une variable

continue peut s’effectuer sous la forme d’un histogramme. Dans la

construction d’un histogramme, à la ième classe correspond un rectangle

dont la base est l’intervalle [𝑥𝑖 , 𝑥𝑖+1[ et dont la surface est proportionnelle à la

fréquence. Si les classes ont toutes la même amplitude, les hauteurs des

rectangles sont proportionnelles aux fréquences 𝑓𝑖 (où à l’effectif 𝑛𝑖). Dans le

cas où les classes sont d’amplitudes inégales, la hauteur du rectangle

correspondant à la ième classe d’amplitude 𝑎𝑖 sera ℎ𝑖 = 𝑓𝑖 𝑎𝑖⁄ . La surface du

rectangle représentant la ième classe sera aussi égale à 𝑓𝑖.

Exemple 3.2

Considérons les tranches de revenus dans une population de 100 individus :

Tableau 3.2

Tranches Revenus (en €)

[0-1000[ 20

[1000-2000[ 40

[2000-3000[ 30

[3000-4000[ 10

0

5

10

15

20

25

30

35

1 2 3 4 5 6 7 8

Page 18: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

19

La représentation graphique se fait alors sous forme d’histogramme,

graphique dans lequel chaque classe est représentée par un rectangle dont

la surface est proportionnelle à l’importance de cette classe dans la

population.

Figure 3.2

Exemple 3.3

Reconsidérons l’exemple 3.2 où les classes sont d’amplitudes inégales :

Tableau 3.3

Tranches Revenus (en €) ℎ𝑖 [0-1000[ 20 0,02

[1000-3000[ 70 0,035

[3000-4000[ 10 0,01

Figure 3.3

0

5

10

15

20

25

30

35

40

45

[0-1000[ [1000-2000[ [2000-3000[ [3000-4000[

0

0,005

0,01

0,015

0,02

0,025

0,03

0,035

0,04

[0-1000[ [1000-3000[ [3000-4000[

Page 19: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

20

Remarque 3.2

Dans certaines séries, on trouve des intervalles de clases indéterminés. Il en

est ainsi dans l’exemple suivant dans lequel la dernière classe n’est pas

bornée :

Tableau 3.4

𝑥𝑖 Fréquences

0 à 20 2

20 à 40 15

40 à 60 6

60 à plus 3

Il faut alors attribuer une borne supérieure à cette classe en conciliant la

vraisemblance et la commodité des calculs. On considérera, par exemple, un

intervalle de 60 à 80, si on souhaite qu’aucune variable ne puisse dépasser

la valeur 80.

3.3.2. Le polygone des fréquences

Le polygone des fréquences, obtenu en joignant par des segments de droite

les milieux des bases supérieures des rectangles, permet de rendre compte

de la continuité de la variable.

Exemple 3.4

Le polygone des fréquences de données du tableau 3.2 donne :

Figure 3.4

3.3.3. La courbe de fréquences

Lorsque l’intervalle des classes est très petit et les données suffisamment

nombreuses, la ligne du polygone des fréquences tend à devenir une courbe

0

5

10

15

20

25

30

35

40

45

[0-1000[ [1000-2000[ [2000-3000[ [3000-4000[

Page 20: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

21

appelée courbe des fréquences.

3.4. Graphique d’un caractère qualitatif

Diagramme en bâtons (même principe que pour les variables discontinues).

Exemple 3.5

En 1952, les recettes du budget de la France se présentaient de la façon

suivante (en milliards de francs) :

Tableau 3.5

Sources de recettes Montant

Taxe sur la valeur ajoutée 348

Impôt sur le revenu 163

Impôt sur les sociétés 71

Taxe sur les produits pétroliers 54

Autres impôts 161

Recettes non fiscale 41

Total 838

Le caractère étudié, la nature du budget de l’Etat est un caractère qualitatif.

Les diverses sources de recettes du budget de l’Etat sont représentées par

des points sur l’axe des ordonnées. Pour chaque abscisse, on porte un

segment vertical dont la longueur est proportionnelle au montant

correspondant à recette (effectif).

Figure 3.5

0

50

100

150

200

250

300

350

400

Taxe sur lavaleur

ajoutée

Impôt sur lerevenu

Impôt sur lessociétés

Taxe sur lesproduits

pétroliers

Autresimpôts

Recettesnon fiscale

Page 21: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

22

3.5. Diagramme circulaire

Les anglo-saxons l’appellent « Pie Chart », i.e, littéralement « graphique en

tarte ». En France, on l’appelle le camembert. Ce graphique universel

convient à toutes les données, dès l’instant où il s’agit d’exprimer de parts ou

des pourcentages.

Ainsi, ce graphique, aussi appelé diagramme circulaire (ou diagramme à

secteur), représente un disque qui sera partagé en secteur dont les aires

seront proportionnelles aux effectifs, donc aux fréquences.

Exemple 3.6

Considérons le tableau 3.4. Dans le diagramme circulaire, chaque secteur a

une surface proportionnelle à l’importance de la recette dans le budget.

L’angle au centre représente une modalité, et est donc proportionnelle à

l’importance de la recette dans le budget.

Figure 3.6

Taxe sur la valeur ajoutée;

348

Impôt sur le revenu; 163

Impôt sur les sociétés; 71

Taxe sur les produits

pétroliers; 54

Autres impôts; 161

Recettes non fiscale; 41

Page 22: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

23

Chapitre quatrième

LES CARACTERISTIQUES DE TENDANCE CENTRALE ET DE

POSITON

Le tableau de distribution d’une variable statistique présente

l’information recueillie sur cette variable. Une représentation graphique en

fournit un portrait pour appréhender plus facilement la globalité de

l’information. On peut désirer aller plus loin en cherchant à caractériser la

représentation visuelle par des éléments synthétiques.

Ces derniers, véritables résumés quantitatifs d’une distribution

statistique, doivent renseigner :

—d’une part sur la position des valeurs centrales ;

—d’autres part sur la dispersion des valeurs autour de cette tendance

centrale.

Il est possible, en fin, de rechercher des caractéristiques qui renseigne

sur : la forme plus ou moins symétrique de la courbe et le degré

d’aplatissement de cette dernière. (Ces deux caractéristiques sont en règle

générale moins utilisées que les deux premières). Ce chapitre sera consacré à

l’étude de paramètres de position tels que les moyennes, le mode et la

médiane. Nous exposerons leur mode de calcul et leur signification en

distinguant, pour chacune d’elles, le cas des données non groupées et le cas

des données regroupées (soit par valeurs, soit par classes).

4.1. Conditions de Yule

Le statisticien britannique Yule a énoncé un certain nombre de

propriétés souhaitées pour les indicateurs des séries statistiques ; ceux-ci

doivent être d’une part, des résumés « maniables » et d’autre part, les plus

exhaustifs possibles relativement à l’information contenue dans les données.

Dans son schéma, une caractéristique statistique doit être une valeur-type :

1. définie de façon objective et donc indépendante de l’observateur ;

2. dépendante de toutes les observations ;

3. de signification concrète pour être comprise par des non-spécialistes ;

4. simple à calculer ;

5. peu sensible aux fluctuations d’échantillonnage ;

Page 23: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

24

6. se prêtant aisément aux opérateurs mathématiques classiques.

En réalité, on ne dispose pas de caractéristiques répondant simultanément à

ces six conditions. Le choix d’un indicateur sera l’objet d’un compromis

guidé par la spécificité de l’étude en cours.

4.2. Les moyennes

4.2.1. Moyenne arithmétique

1. Définition

a) Moyenne arithmétique simple

La moyenne arithmétique d’une série 𝑥1, 𝑥2, … , 𝑥𝑛 se définit comme étant

égale à la somme des observations divisée par l’effectif 𝑛 de la série, et est

notée �̅�,

�̅� =𝑥1 + 𝑥2 +⋯+ 𝑥𝑛

𝑛=1

𝑛∑𝑥𝑖

𝑛

𝑖=1

Exemple 4.1

Soit la série 3,4,7,9,11,13,17,19

La moyenne arithmétique est

�̅� =3 + 4 + 7 + 9 + 11 + 13 + 17 + 19

8= 10,375

Remarques 4.1

1. Au vu de la relation précédente, la moyenne arithmétique ne se conçoit

que si les valeurs observées sont numériques. Une série dont les valeurs

sont mesurées sur une échelle qualitative ne possède donc pas de moyenne

arithmétique.

2. Ce paramètre est unique : une série ne peut pas posséder plusieurs

moyennes arithmétiques distinctes.

3. Il est utile de noter que la moyenne arithmétique est rarement une valeur

observée, ce qui donne à �̅� un statut différent des 𝑥𝑖.

b) Moyenne arithmétique pondérée

Lorsque la variable statistique est donnée sous forme de tableau de

distribution, i.e. quand les valeurs de la variable sont affectées d’une

fréquence, la moyenne arithmétique s’écrit alors :

Page 24: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

25

�̅� =𝑓1𝑥1 + 𝑓2𝑥2 +⋯+ 𝑓𝑛𝑥𝑛

𝑓1 + 𝑓2 +⋯+ 𝑓𝑛=

1𝑛∑ 𝑓𝑖𝑥𝑖𝑛𝑖=1

∑ 𝑓𝑖𝑛𝑖=1

Exemple 4.2

Soit le tableau ci-dessous :

Tableau 4.1

𝑥𝑖 𝑛𝑖 25 10

8 16

4 25

12 20

Alors on peut calculer la moyenne arithmétique par :

�̅� =10 ∙ 25 + 16 ∙ 8 + 25 ∙ 4 + 20 ∙ 12

10 + 16 + 25 + 20=718

71= 10,11268

Remarque 4.2

Dans le cas de données groupées en classes, le calcul est le même, en

ramenant chaque observation au centre de sa classe, ceci en raison de

l’hypothèse d’equirépartition à l’intérieur des classes.

2. Propriétés

Première propriété. La moyenne arithmétique est une caractéristique qui

satisfait à toutes les conditions de Yule, sauf à la condition 5 : une

observation « extrême » (exceptionnellement élevée ou faible) peut avoir une

forte incidence sur sa valeur.

Deuxième propriété. La somme algébrique des écarts d’une série de valeurs

𝑥𝑖, à la moyenne �̅� est nulle.

Chaque écart est, en effet, de la forme :

𝑥𝑖 − �̅�

La somme algébrique des écarts est :

∑𝑥𝑖 − �̅� =∑𝑥𝑖 −∑�̅�

Or : ∑𝑥𝑖 = 𝑛�̅�, car �̅� =∑𝑥𝑖

𝑛 et ∑ �̅� = 𝑛�̅�

Donc, ∑𝑥𝑖 − �̅� = ∑𝑥𝑖 −∑ �̅� = 𝑛�̅� − 𝑛�̅� = 0

Page 25: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

26

Troisième propriété. La somme des carrés des écarts d’une série de valeurs

𝑥𝑖 par rapport à 𝑥0 est minimale pour 𝑥0 = �̅�.

Cette somme est de la forme :

∑(𝑥𝑖 − 𝑥0)2

On peut écrire en introduisant la moyenne arithmétique �̅� :

∑(𝑥𝑖 − 𝑥0)2 =∑(𝑥𝑖 − �̅� + �̅� − 𝑥0)

2 =∑[(𝑥𝑖 − �̅�) + (�̅� − 𝑥0)]2

=∑(𝑥𝑖 − �̅�)2 + 2(�̅� − 𝑥0)∑(𝑥𝑖 − 𝑥0) +∑(�̅� − 𝑥0)

2

Or ∑(𝑥𝑖 − 𝑥0) = 0 (première propriété), d’où

∑(𝑥𝑖 − 𝑥0)2 =∑(𝑥𝑖 − �̅�)

2 +∑(�̅� − 𝑥0)2

Cette relation porte le nom de théorème de Koenig. On démontre que la

moyenne arithmétique est l’abscisse du centre de gravité de l’aire de

l’histogramme des fréquences.

Quatrième Propriété. Si on agrège deux ensembles 𝐸1 et 𝐸2 d’observations,

le premier d’effectif 𝑛1 et de moyenne �̅�1, le second d’effectif 𝑛2 et de moyenne

�̅�2 , la moyenne �̅� de la série agrégée 𝐸 (d’effectif 𝑛 = 𝑛1 + 𝑛2 ) s’exprime, à

partir des paramètres de 𝐸1 et 𝐸2 , par la relation :

�̅� =𝑛1�̅�1 + 𝑛2�̅�2

𝑛

Exemple 4.3

Soient les ensembles 𝐸1 = {1,2,3,4,5} et 𝐸2 = {10,11,12}

Désignons par �̅�1 et �̅�2 leurs moyennes arithmétiques et par 𝑛1 et 𝑛2 leurs

effectifs respectifs :

𝑛1 = 5, �̅�1 = 3, 𝑛2 = 3, �̅�2 = 11

Alors :

�̅� =𝑛1�̅�1 + 𝑛2�̅�2

𝑛=5 ∙ 3 + 3 ∙ 11

8= 6

4.2.2. Moyenne géométrique

Lorsque les valeurs d’une série statistique varient selon une croissance

géométrique ou exponentielle, il est préférable de substituer, à la moyenne

arithmétique, la moyenne géométrique.

Page 26: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

27

1. Définition

a) Moyenne géométrique simple

La moyenne géométrique des 𝑛 valeurs positives d’une variable est la

racine nième du produit de ces valeurs.

𝐺 = √𝑥1𝑥2…𝑥𝑛𝑛 = √∏𝑥𝑖

𝑛

𝑖=1

𝑛

Exemple 4.4

Soit la série 3,4,7,9,11,13,17,19

La moyenne géométrique simple est

𝐺 = √3 ∙ 4 ∙ 7 ∙ 9 ∙ 11 ∙ 12 ∙ 17 ∙ 198

= 8,768

Exemple 4.5

Le chiffre d’affaire mensuel (en million de francs) d’un nouveau produit a été,

au cours des six derniers mois, de : 256,332,432,562,731,950.

𝐺 = √256 ∙ 332 ∙ 432 ∙ 562 ∙ 731 ∙ 9506

= 492

b) Moyenne géométrique pondérée

Lorsque les valeurs de la variable sont affectées d’une fréquence, la

moyenne géométrique est donnée par la formule :

𝐺 = √𝑥1𝑓1 × 𝑥2

𝑓2 × …× 𝑥𝑛𝑓𝑛

𝑁

dans laquelle 𝑁 = ∑𝑓𝑖

2. Calcul

Pour calculer la moyenne géométrique pondérée, on peut passer par le

logarithme népérien (ln) :

ln 𝐺 =1

𝑁(𝑓1 ln 𝑥1 + 𝑓2 ln 𝑥2 +…+ 𝑓𝑛 ln 𝑥𝑛) =

1

𝑁∑𝑓𝑖 ln 𝑥𝑖

𝑛

𝑖=1

⇒ 𝐺 = exp(1

𝑁∑𝑓𝑖 ln 𝑥𝑖

𝑛

𝑖=1

)

Exemple 4.6

Considérons le tableau 4.1. On peut calculer la moyenne géométrique par :

Page 27: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

28

𝐺 = √∏𝑥𝑖𝑓𝑖

𝑛

𝑖=1

𝑁

= [∏𝑥𝑖𝑓𝑖

𝑛

𝑖=1

]

1 𝑁⁄

= [2510 ∙ 816 ∙ 425 ∙ 1220]1 71⁄

ln 𝐺 =1

71(10 ln 25 + 16 ln 8 + 25 ln 4 + 20 ln 12) = 2,1100704

⇒ 𝐺 = 𝑒2,1100704 ≅ 8,2488

4.2.3. Moyenne harmonique

a) Moyenne harmonique simple

La moyenne harmonique est l’inverse de la moyenne arithmétique des

inverses des valeurs.

𝐻 =∑ 𝑓𝑖𝑛𝑖=1

∑1𝑥𝑖

𝑛𝑖=1

=𝑛

∑1𝑥𝑖

𝑛𝑖=1

Exemple 4.7

Soit la série 3,4,7,9,11,13,17,19. La moyenne harmonique de cette série est

égale à :

𝐻 =8

13 +

14 +

17 +

19 +

111 +

113 +

117 +

119

= 7,165

b) Moyenne harmonique pondérée

Lorsque les valeurs de la variable sont affectées d’une fréquence, la

moyenne harmonique devient :

𝐻 =𝑛

∑𝑓𝑖𝑥𝑖

𝑛𝑖=1

Exemple 4.8

Reconsidérons le tableau 4.1. Soit à calculer la moyenne harmonique

pondérée :

𝐻 =𝑛

∑𝑓𝑖𝑥𝑖

𝑛𝑖=1

=71

1025+168 +

254 +

2012

= 6,882

La moyenne harmonique peut être utilisée lorsqu’il est possible d’attribuer

un sens réel aux inverses des données, en particulier pour les taux de

Page 28: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

29

changes, les taux d’équipement, le pouvoir d’achat, les vitesses. Elle est

notamment utilisée dans les calculs d’indices.

Exemple 4.9

Une petite usine abrite 2 machines. La première produit 500 pièces à la

vitesse de 100 pièces par heure. La seconde produit 300 pièces à la vitesse de

60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre de

pièces par heure) de production de l’usine.

Vitesse moyenne =Nombre total des pièces produites

Nombre d′heures de produiction

Vitesse moyenne =800

500100 +

30060

=800

100= 80pieces/heures

4.2.4. Moyenne quadratique

a) Moyenne quadratique simple

Parfois, on souhaite obtenir une caractéristique de tendance centrale

ayant une valeur positive là où le calcul de la moyenne arithmétique simple

aurait donné zéro. Soit par exemple la série de chiffres {−4,−2,0,2,4}.

Dans un tel cas, on calcul la moyenne quadratique simple en additionnant le

carré de toutes les valeurs de la série divisé par le nombre d'observations et

en prenant la racine carrée du résultat. Autrement dit,

𝑄 = √(−4)2 + (−2)2 + (0)2 + (2)2 + (4)2

5= √8 ≅ 2,83

Ainsi la moyenne quadratique simple d’une série est :

𝑄 = √1

𝑛∑𝑥𝑖

2

𝑛

𝑖=1

Exemple 4.10

Soit la série 3,4,7,9,11,13,17,19. La moyenne quadratique de cette série est

égale à :

𝑄 = √32 + 42 + 72 + 92 + 112 + 132 + 172 + 192

8= 11,699

Page 29: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

30

b) Moyenne quadratique pondérée

Lorsque les valeurs de la variable sont affectées d’une fréquence, la

moyenne quadratique devient :

𝑄 = √1

𝑛∑𝑛𝑖𝑥𝑖

2

𝑛

𝑖=1

Exemple 4.11

Reconsidérons le tableau 4.1. Le calcul de la moyenne quadratique pondérée

donne le tableau ci-dessous :

Tableau 4.2

𝑥𝑖 𝑛𝑖 𝑥𝑖2 𝑛𝑖𝑥𝑖

2

25 10 625 6250

8 16 64 1024

4 25 16 400

12 20 144 2880

Ainsi,

𝑄 = √1

𝑛∑𝑛𝑖𝑥𝑖

2

𝑛

𝑖=1

= √10554

71= 12,1921

4.2.5. Comparaison de différents types de moyennes

Les moyennes arithmétique et quadratique attribuent beaucoup

d’influence aux éléments les plus élevés des séries (la moyenne quadratique

plus que la moyenne arithmétique). En revanche, les moyennes géométrique

et harmonique réduisent l’influence des observations les plus grandes et

augmentent celle des plus petites (la moyenne géométrique moins que la

moyenne harmonique).

De plus, on peut classer les moyennes arithmétique �̅�, géométrique 𝐺,

harmonique 𝐻 et quadratique 𝑄 de la manière suivante :

𝐻 < 𝐺 < �̅� < 𝑄

Si l’on reprend les observations de l’exemple 4.12 : 3,4,7,9,11,13,17,19; on a :

𝐻 = 7,165 < 𝐺 = 8,768 < �̅� = 10,375 < 𝑄 = 11,699

Page 30: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

31

4.3. Le mode

1. Définition

Le mode est la valeur de la variable qui correspond à la fréquence

maximale (en abrégé 𝑚).

2. Calcul

a) Cas d’une variable discontinue

Lorsque la variable statistique est discrète, le mode se définit à l’aide du

tableau de distribution ou du diagramme en bâtons. Lorsqu’il n’y a qu’un

mode, la série est dite unimodale. Quand la série possède deux valeurs

admettant des fréquences maximales égales, elle est dite bimodale. Elle est

dite plurimodale lorsqu’elle possède plusieurs modes.

Exemple 4.12

Tableau 4.3

𝑥𝑖 𝑛𝑖 10 3

15 5

20 11

25 15

30 8

35 4

40 2

Le mode vaut :𝑚 = 25

b) Cas d’une variable continue

Lorsque La variable statistique est continue, la classe modale est la

classe correspondant à la fréquence maximale. Par convention, le mode est

égal au centre de la classe. Mais cette détermination n’est absolument pas

précise, car elle dépend du découpage en classe retenu ; son intérêt est

limité par cette imprécision. Lorsque les données sont groupées en clase

d’amplitude égales, le mode est donné par :

𝑚 = 𝑥𝑖inf + 𝑎 (

𝑑1𝑑1 + 𝑑2

)

𝑥𝑖inf : borne inférieure de la classe modale ;

𝑎 : amplitude de la classe modale ;

𝑑1 = 𝑛𝑖 − 𝑛𝑖−1 : différence entre la fréquence de la classe modale et la

fréquence de la classe précédente ;

Page 31: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

32

𝑑2 = 𝑛𝑖 − 𝑛𝑖+1 : différence entre la fréquence de la classe modale et la

fréquence de la classe suivante.

Exemple 4.13

Soit le tableau ci-après

Tableau 4.4

𝑥𝑖 𝑛𝑖

[0 − 5[ 2

[5 − 10[ 7

[10 − 15[ 18

[15 − 20[ 3

Alors le mode donne :

𝑚 = 𝑥𝑖inf + 𝑎 (

𝑑1𝑑1 + 𝑑2

) = 10 + 5 (11

11 + 15) = 12,115

3. Propriété

Le mode satisfait aux conditions 1,3 et 4 de Yule, mais cette valeur de

tendance centrale ne remplit pas la cinquième condition. En effet, elle est

très sensible aux fluctuations d’échantillonnage.

4.4. La médiane

1. Définition

La médiane d’une série est la valeur qui partage cette série,

précédemment classée, en deux séries aux effectifs égaux.

2. Calcul

La médiane ne se calcul que pour les données quantitatives et son mode

de calcul dépend du type de données.

a) Cas d’une variable discontinue

Il n’existe pas, en général, de valeur médiane, sauf dans l’hypothèse où

la série possède un nombre de termes impair et connu individuellement,

comme l’exemple ci-après

4 6 7 9 11 𝟏𝟐 13 17 18 21 22

Si 𝑛 est pair, on se heurte à une difficulté dans la définition de la

médiane. En effet, toute observation située entre l’observation de 𝑛 2⁄ et la

suivante satisfait à la propriété désirée. On dit alors que ces deux

observations définissent un intervalle médian. Son usage n’est pas ainsi

simple que celui d’une valeur. Aussi, lorsque les observations sont

numériques, on décide généralement (par convention !) de définir comme

Page 32: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

33

médiane la moyenne arithmétique des deux observations qui délimitent cet

intervalle :

𝑀𝑒 =𝑥(𝑛 2⁄ ) + 𝑥(𝑛 2⁄ )+1

2

Cette façon de posséder assure l’unicité de la médiane. Ainsi, par exemple, la

série 1,3,7,8,9,15 a pour médiane la valeur 7,5 obtenue en prenant la moyenne

arithmétique entre la troisième observation et la quatrième observation.

b) Cas d’une variable continue

Lorsque les effectifs sont groupées en classes, le calcul de la médiane

nécessite d’appliquer la formule :

𝑀𝑒 = 𝑥𝑖inf + 𝑎𝑖 (

𝑛2 − 𝑁

(𝑥𝑖−1)

𝑛𝑖)

𝑥𝑖inf : borne inferieure de la classe médiane ;

𝑁(𝑥𝑖−1) : effectif strictement inférieur à 𝑥𝑖 ;

𝑥𝑖 : classe médiane ;

𝑎𝑖 : amplitude de la classe médiane.

𝑛𝑖 : effectif de la classe médiane

Exemple 4.14

Soit le tableau ci-après

Tableau 4.5

𝑥𝑖 𝑛𝑖 𝑁(𝑥𝑖)

[0 − 5[ 2 2

[5 − 10[ 7 9

[10 − 15[ 18 27

[15 − 20[ 3 30

𝑚 = 𝑥𝑖inf + 𝑎𝑖 (

𝑛2 − 𝑁

(𝑥𝑖−1)

𝑛𝑖) = 10 + 5 (

15 − 9

18) = 11,666

3. Propriété

Une seule observation très élevée (ou très faible) peut influencer

fortement la moyenne, alors que la médiane peut supporter sans être

modifiée qu’une moitié des observations soit très élevée (ou très faible) : on

Page 33: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

34

dit que la médiane est résistante. La médiane satisfait aux conditions 1,3,4

et 5 de Yule.

Dans le cas de distribution unimodale, la médiane est fréquemment

comprise entre la moyenne arithmétique et le mode, et plus proche de la

moyenne que du mode. Si la distribution est symétrique, ces trois

caractéristiques de tendance centrale sont confondues.

4.5. Le choix de la caractéristique

Si la variable ne peut être ordonnée rationnellement, la seule

caractéristique possible est le mode. Si la variable peut être ordonnée, il est

conseillé d’utiliser la médiane, mais si la variable est mesurable, il est

préférable d’utiliser la moyenne.

4.6. Les fractiles

Les fractiles sont des paramètres de position que nous étudions dès

maintenant, car bien qu’ils ne soient pas de paramètres de tendance

centrale, ils se rapprochent par leur définition et leur mode de calcul de la

médiane. Ce sont des valeurs ordonnées symétriquement par rapport à cette

dernière.

4.6.1. Les quartiles

Les quartiles sont des valeurs de la variable qui partagent l’effectif rangé

par ordre croisant, en quatre sous-ensembles aux effectifs égaux. Il existe

donc trois quartiles (en abrégé, 𝑄1, 𝑄2 et 𝑄3). Par définition, 𝑄2est l’expression

de la médiane. 𝑄1 est la valeur de la variable :

telle que l’effectif des valeurs qui lui sont inférieures représentent au

plus 25% de l’effectif total ;

telle que l’effectif des valeurs qui lui sont supérieures représentent au

plus 75% de l’effectif total.

4.6.2. Les déciles et les quantiles

De la même façon, les déciles (𝐷1 à 𝐷9) sont définis comme des valeurs

de la variable qui partagent l’effectif rangé par ordre croissant en dix sous-

ensembles aux effectifs égaux.

En fin, les centiles (𝐶1 à 𝐶99 ) partagent l’effectif total en cent sous-

ensembles équivalents. Les remarques qui ont été faites sur la médiane et les

quartiles s’appliquent également aux déciles et aux centiles.

Page 34: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

35

Chapitre cinquième

PARAMETRES DE DISPERSION

En complément du chapitre précédent qui étudiait les caractéristiques

de tendance centrale d’une distribution, le présent chapitre s’intéresse à la

variabilité des données au sein d’une série. Ainsi, une fois la moyenne

connue, on peut compléter la connaissance d’une série pour apprécier dans

quelle mesure les données sont dispersées ou au contraire concentrées

autour de la moyenne.

Les caractéristiques de dispersion et/ou de concentration sont

nombreuses. Nous étudierons ici les plus fréquemment utilisées : l’intervalle

de variation, la variance, l’écart-type, le coefficient de variation et les

intervalles interquartiles et interdéciles.

5.1. L’intervalle de variation

Ce paramètre, également appelé étendue est le plus simple, mais aussi

le moins significatif.

Définition 5.1

L’intervalle de variation, est la différence entre la plus grande valeur et

la plus petite valeur de la variable

𝑒 = 𝑥𝑀 − 𝑥𝑚

𝑥𝑀 : valeur maximale et 𝑥𝑚 : valeur minimale

Exemple 5.1

Soient deux élèves dont les notes dans quatre matières ont été les suivantes

Élève A : { 8, 9, 11, 12}

Élève B : {2, 4, 16, 18}

L’étendue des notes de A est 12 − 8 = 4, tandis que l’étendue des notes de B

est 18 – 2 = 16. On notera pourtant que la moyenne des deux élèves est de

10. Mais B a des notes beaucoup plus dispersées que A. En fait, si on fait le

rapport 16/4, on voit que les notes de B sont 4 fois plus dispersées que celles

de A.

Cet exemple montre l’utilité de l’intervalle de variation pour avoir une

première idée de la dispersion. Mais l’indicateur est assez limité, car il est

trop sensible aux valeurs extrêmes comme le montre l’exemple ci-après.

Page 35: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

36

Exemple 5.2

Soit la série suivante {1016, 774, 1008, 8, 1001, 999, 1100}

Il est commode de classer les chiffres par ordre croissant :

{8, 774, 999, 1001, 1008, 1016, 1100}

L’intervalle de variation est donc donné par 𝐼𝑉 = 1100 – 8 = 1092 . On

constate que la valeur de l’intervalle de variation est exagérément augmentée

par la présence du chiffre 8.

5.2. Intervalle interquartile

Définition 5.2

L’intervalle interquartile mesure l’étendue des 50% de valeurs situées

au milieu d’une série de données classées.

Il se calcule en procédant par les quatre étapes suivantes :

1) Classement des données de la série par ordre croissant.

2) Trouver la médiane de la série pour séparer celle-ci en deux séries : la

première série contient les données inférieures à la médiane et la seconde les

données supérieures à la médiane.

3) Déterminer la médiane des deux nouvelles séries, sans inclure dans

aucune d’elle la médiane de la série initiale. La médiane de la première série

est appelée « premier quartile » et désigné par 𝑄1. La médiane de la seconde

série est appelée « troisième quartile » et désigné par 𝑄3.

4) Calculer l’intervalle interquartile par la formule :

𝐼𝑄 = 𝑄3 − 𝑄1

Les exemples ci-après illustrent les notions de quartiles et d’intervalle

interquartile dans le cas de données groupées ou non groupées

Exemple 5.3

Soit la série de chiffres suivants, où aucune valeur n’est répétée. Le nombre

de chiffres est impair.

{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6,5}

1) Afin de déterminer l’intervalle interquartile, classons d’abord les données

de la plus petite à la plus grande.

{1, 3, 4, 5, 6, 7, 9, 11, 12, 14, 15, 16, 17, 19, 20}

Page 36: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

37

2) Déterminons la médiane et séparons la série en deux « sous-séries » :

{1, 3, 4, 5, 6, 7, 9, 𝟏𝟏 , 12, 14, 15, 16, 17, 19, 20}

3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries

{1, 3, 4, 𝟓 , 6, 7, 9} {12, 14, 15, 𝟏𝟔 ,17, 19, 20}

4) Il ne reste plus qu’à calculer l’intervalle interquartile :

𝐼𝑄 = 𝑄3 − 𝑄1 = 16 − 5 = 11

Exemple 5.4

Soit la série de chiffres suivants, où aucune valeur n’est répétée. Cette fois,

le nombre de chiffres est pair.

{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6}

1) Afin de déterminer l’intervalle interquartile, classons d’abord les données

de la plus petite à la plus grande.

{1,3,4, 6,7,9,11,12,14,15,16,17,19,20}

2) Déterminons l’intervalle médian, puis la médiane et séparons la série en

deux séries.

Ici, (𝑛 + 1)/2 = (14 + 1)/2 = 7,5. L’intervalle médian est donc constitué par la

7ème et la 8ème valeur, c’est-à-dire [11 − 12]. Et la médiane (11 + 12)/2 = 11,5.

3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries

1ère série : { 1,3,4, 𝟔 , 7,9,11}, 𝑀𝑒 = 6

2ème série : {12,14,15, 𝟏𝟔 , 17,19,20 }, 𝑀𝑒 = 16

4) Il ne reste plus qu’à calculer l’intervalle interquartile :

𝐼𝑄 = 𝑄3 − 𝑄1 = 16 − 6 = 10

Exemple 5.5

Soit le tableau suivant, où les valeurs ont été regroupées par classes

Tableau 5.1

𝑋𝑖 [0 − 4[ [4 − 8[ [8 − 12[ [12 − 16[ [16 − 20[ 𝑛𝑖 4 8 5 6 4

Page 37: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

38

1) Afin de déterminer l’intervalle interquartile, ajoutons une ligne pour les

effectifs cumulés

Tableau 5.2

𝑋𝑖 [0 − 4[ [4 − 8[ [8 − 12[ [12 − 16[ [16 − 20[ 𝑛𝑖 4 8 5 6 4

∑𝑛𝑖 4 12 𝟏𝟕 23 27

D’où, 𝑛 = 27 2⁄ = 13.5

2) Déterminons la médiane de la série par la méthode étudiée au chapitre

précédent dans le cas des données groupées par classe

𝑀𝑒 = 𝑥𝑖𝑖𝑛𝑓

+ 𝑎𝑖 ∙ [

𝑛2 − 𝑁

(𝑥𝑖−1)

𝑛𝑖] = 8 + 4 ∙ [

13.5 − 12

5] = 9.2

3) Rang de 𝑄1 =27

4= 6,75 ; rang compris dans la classe [4 − 8[ .

Valeur de 𝑄1 = 4 + 4(6,75−4

8) = 5,375.

4) Rang de 𝑄3 =27

4. 3 = 20,25 ; rang compris dans la classe [8 − 25[ .

Valeur de 𝑄3 = 12 + 4 (20,25−17

6) = 14,167

5) 𝐼𝑄 = 𝑄3 − 𝑄1 = 8,792

5.3. Variance, Ecart-type et coefficient de variation

La variance, l’écart-type et le coefficient de variation sont les indicateurs

les plus fréquemment utilisés pour mesurer la dispersion d’une série. Ces

indicateurs renseignent sur la dispersion des données autour de la moyenne.

Plus les données sont concentrées autour de la moyenne, plus les valeurs de

ces trois indicateurs sont faibles. Inversement, plus les données sont

dispersées autour de la moyenne, plus ces trois indicateurs sont élevés.

5.3.1. La variance

Définition 5.3

La variance d’une série statistique est la moyenne arithmétique des

carrés des écarts des variables par rapport à la moyenne arithmétique.

Ce paramètre est donc défini par l’expression :

Page 38: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

39

𝜎2 =1

𝑛∑(𝑥𝑖 − �̅�)

2

𝑛

𝑖=1

,

lorsque les données sont connues individuellement ou qu’elles ne se répètent

pas. En revanche, lorsque les données sont groupées par valeurs, on

applique la formule :

𝜎2 =1

𝑛∑𝑛𝑖(𝑥𝑖 − �̅�)

2

𝑛

𝑖=1

.

En fin, lorsque les données sont groupées en classes, c’est le centre de classe

𝑐𝑖 qui remplace 𝑥𝑖 dans la formule précédente.

Remarques 5.1

1. La variance ne se conçoit que si la variable d’intérêt est numérique

2. Si une série ne contient que des valeurs toutes identiques, sa variance est

nulle.

3. Comme la moyenne arithmétique, la variance est sensible à la présence de

valeurs aberrantes, non seulement parce que ces valeurs seront éloignées de

�̅�, mais aussi parce que leur présence va éloigner �̅� des autres valeurs.

a) Détermination directe

Pour calculer la variance directement, on applique successivement les étapes

suivantes :

1. Calcul de la moyenne

2. Calcul des écarts à la moyenne

3. Calcul des carrés des écarts à la moyenne

4. Somme des carrés des écarts à la moyenne

5. Division par 𝑛.

Page 39: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

40

Exemple 5.6

Soit la série {2,5,7,1,9,13,6,15,8,16}

Tableau 5.5

𝑥𝑖 (𝑥𝑖 − �̅�) (𝑥𝑖 − �̅�)2

2 -6.2 38.44

5 -3.2 10.24

7 -1.2 1.44

1 -7.2 51.84

9 0.8 0.64

13 4.8 23.04

6 -2.2 4.84

15 6.8 46.24

8 -0.2 0.04

16 7.8 60.84

Calcul préalable de la moyenne �̅� =1

10∑ 𝑥𝑖 = 8.210𝑖=1

Calcul de la variance : 𝜎2 =1

10∑ (𝑥𝑖 − �̅�)

2 =237.6

10= 23.7610

𝑖=1

Lorsque la moyenne arithmétique est une valeur entière, les calculs sont

assez simples, mais lorsque le terme �̅� est un nombre décimal (comme dans

ce cas), l’élévation au carré des écarts devient plus difficile. L’utilisation de

machines à calculer élimine cette difficulté !!!

Propriété

Soit une série statistique d’effectif 𝑛1, de moyenne �̅�1 et de variance 𝜎12,

qui est jointe à une seconde série d’effectif 𝑛2, de moyenne �̅�2 et de variance

𝜎22, et que l’on souhaite déterminer la variance 𝜎2 de la série globale à partir

des paramètres des séries partielles. Nous avons déjà vu comment calculer

la moyenne �̅� de la serie globale. On peut aussi montrer que 𝜎2 peut s’ecrire

comme suit :

𝜎2 =𝑛1𝜎1

2 + 𝑛2𝜎22

𝑛1 + 𝑛2+𝑛1(�̅�1 − �̅�)

2 + 𝑛2(�̅�2 − �̅�)2

𝑛1 + 𝑛2

Exemple 5.7

Soit le série ordonnée {1,2,3,4,5,10,11,12} partagée en deux séries :

𝐸1 = {1,2,3,4,5} et 𝐸2 = {10,11,12}

Page 40: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

41

Les moyennes de 𝐸1et 𝐸2 valent respectivement �̅�1 = 3 et �̅�2 = 11. Le calcul de

la variance nous fournit les valeurs 𝜎12 = 2 et 𝜎2

2 = 0,67 . Nous avons par

ailleurs une moyenne globale �̅� = 6.

La variance peut se calculer à partir de la série globale. Elle vaut :

𝜎2 =5 ∙ 2 + 3 ∙ 2 3⁄

8+5 ∙ 9 + 3 ∙ 25

8= 16,5

b) Expression développée de la variance

𝜎2 =1

𝑛∑𝑛𝑖(𝑥𝑖 − �̅�)

2 =1

𝑛∑(𝑛𝑖𝑥𝑖

2 − 2𝑛𝑖𝑥𝑖�̅� + 𝑛𝑖�̅�2)

𝑛

𝑖=1

𝑛

𝑖=1

=1

𝑛∑𝑛𝑖𝑥𝑖

2

𝑛

𝑖=1

−2�̅�

𝑛∑𝑛𝑖

𝑛

𝑖=1

𝑥𝑖 +�̅�2

𝑛∑𝑛𝑖

𝑛

𝑖=1

D'où

𝜎2 =1

𝑛∑𝑛𝑖𝑥𝑖

2

𝑛

𝑖=1

− �̅�2

Moyenne des carrés-carré de la moyenne.

Cette relation est connue sous le nom de «Théorème de Koenig ».

Exemple 5.8

Soit le tableau suivant :

Tableau 5.6

𝑥𝑖 2 6 9 11 15

𝑛𝑖 5 9 4 3 5

Les étapes 1 à 5 sont facilitées par les dispositions en tableau

Tableau 5.7

𝑥𝑖 𝑛𝑖 𝑛𝑖𝑥𝑖 𝑥𝑖2 𝑛𝑖𝑥𝑖

2

2 5 10 4 20

6 9 54 36 324

9 4 36 81 324

11 3 33 121 363

15 5 75 225 1125

Calcul préalable de la moyenne : �̅� =1

26∑ 𝑛𝑖𝑥𝑖 =

208

26= 85

𝑖=1

Calcul de la variance : 𝜎2 =1

26∑ 𝑛𝑖𝑥𝑖

2 − �̅�2 =1

26∙ 2156 − 82 = 18.92315

𝑖=1

Page 41: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

42

5.3.2. L’Ecart-type

L’écart-type est égal à la racine carrée positive de la variance :

𝜎 = √1

𝑛∑𝑛𝑖(𝑥𝑖 − �̅�)2𝑛

𝑖=1

= √1

𝑛∑𝑛𝑖𝑥𝑖

2

𝑛

𝑖=1

− �̅�2

Naturellement, si aucune valeur n’est répétée ou si les données ne sont pas

regroupées par valeurs, on aura :

𝜎 = √1

𝑛∑(𝑥𝑖 − �̅�)2𝑛

𝑖=1

= √1

𝑛∑𝑥𝑖

2

𝑛

𝑖=1

− �̅�2

Exemple 5.9

Soit la série {2,5,7,1,9,13,6,15,8,16}

La variance de cette série a déjà été calculée dans l’exemple 5.7. Elle est

égale à 23,76. L’écart-type est : 𝜎 = √23.76 ≅ 4.87

Exemple 5.10

Soit le tableau suivant :

Tableau 5.8

𝑥𝑖 2 6 9 11 15

𝑛𝑖 5 9 4 3 5

La variance de cette série a été aussi calculée dans l’exemple 5.8. Elle est

égale à 18,9231. L’écart-type est: 𝜎 = √18.9231 ≅ 4.35

Propriétés

1. L’écart-type satisfait aux conditions 1,2 et 6 de Yule ; l’écart-type est plus

sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la

moyenne, en raison des élévations au carré.

2. On montre que la variance est le plus petit écart quadratique moyen, i.e.

𝑣𝑎𝑟(𝑥) ≤1

𝑛∑(𝑥𝑖 − 𝐶)

2 pout tout 𝐶

𝑛

𝑖=1

3. L’inégalité de Bienaymé-Tchebychev. Elle indique que, quelle que soit la

distribution statistique étudiée, un intervalle construit en retranchant ou en

ajoutant deux fois l’écart-type à la moyenne arithmétique contient plus de

trois quarts de l’effectif total.

�̅� ± 2𝜎 → 75% des observations

Page 42: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

43

Dans le cas d’une distribution symétrique i.e. où la moyenne, la médiane et

le mode ont même valeur (dite distribution normale), l’effectif des

observations est pour les intervalles suivants égal à :

�̅� ±2

3𝜎 → 75% , �̅� ± 2𝜎 → 95% , �̅� ± 𝜎 → 68% , �̅� ± 3𝜎 → 99,9%

4. Détermination des valeurs réduites et centrées réduites. Si 𝑥𝑖 est une série

statistique, la série 𝑦𝑖 des valeurs réduites est définie par :

𝑦𝑖 =𝑥𝑖𝜎

Diviser chaque observations par l’écart-type 𝜎 nous donne une série de

valeurs sans dimension dont la variance (et l’écart-type) valent 1.

Nous avons en effet,

𝜎𝑦2 =

𝜎𝑥2

𝜎𝑥2= 1

D’autre part, les valeurs centrées réduites 𝑧𝑖 sont définies par

𝑧𝑖 =𝑥𝑖 − �̅�

𝜎𝑥

On constate aisément que ces valeurs sont aussi sans dimension, de

moyenne nulle et de variance égale à 1.

5.3.3. Le Coefficient de variation

Défini seulement pour des variables positives, le coefficient de variation

(𝐶𝑉 ) facilite les comparaisons, car il est une valeur « sans dimension »,

indépendante des unités de mesure de 𝑥𝑖 . Il décrit l’écart-type comme

pourcentage de la moyenne arithmétique. Son expression est la suivante :

𝐶𝑉 =𝜎

�̅�∙ 100

Plus le 𝐶𝑉 est élevé, plus la dispersion autour de la moyenne est élevée. On

peut construire d’autres coefficients de ce type en utilisant les statistiques

d’ordre comme les quartiles et les déciles ; citons :

L’interquartile relatif : 𝑄3−𝑄1

𝑄2

L’interquartile relatif : 𝐷9−𝐷1

𝐷5

Exemple 5.11

On connaît les salaires mensuels bruts en euros des employés de la

même entreprise, à 10 ans d’intervalle. Les données sont groupées par

classe. Le nombre d’employés est passé de 200 en 1994 à 280 en 2004. On

veut savoir si la dispersion des salaires à augmenté. Pour cela on va calculer

le coefficient de variation en 1994 et en 2004.

Page 43: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

44

Tableau 5.9

Salaires Effectifs 1994 Effectifs 1994

1000-2000 40 56

2000-3000 70 118

3000-4000 80 92

4000-5000 5 10

5000-10000 5 4

On notera tout d’abord que les données sont groupées par classes de

valeurs. Dès lors, il convient de calculer 𝑐𝑖, le centre de chaque classe, qui

tiendra lieu de 𝑥𝑖 dans les différents calculs. Les tableaux ci-après indiquent

les calculs intermédiaires nécessaires pour obtenir le coefficient de variation

des salaires, respectivement en 1994 et en 2004.

Pour l’année 1994 :

Tableau 5.10

Salaires 𝑛𝑖 𝑐𝑖 𝑛𝑖𝑐𝑖 𝑐𝑖2 𝑛𝑖𝑐𝑖

2

1000-2000 40 1500 60000 2250000 90000000

2000-3000 70 2500 175000 6250000 43750000

3000-4000 80 3500 280000 12250000 98000000

4000-5000 5 4500 22500 20250000 101250000

5000-10000 5 7500 37500 5625000 28125000

Calculons la moyenne, la variance et l’écart-type à partir des calculs

intermédiaires du tableau 5.10 :

�̅� =1

200∑𝑛𝑖𝑐𝑖 =

575000

200= 2875

5

𝑖=1

𝜎 = √1890000000

200− (2875)2 = 1088.29

Et le coefficient de variation des salaires pour l’année 1994 est donc égal à :

𝐶𝑉1994 =𝜎

�̅�∙ 100 =

1088.29

2875∙ 100 = 37.85%

Page 44: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

45

Refaisons les calculs pour l’année 2004

Tableau 5.11

Salaires 𝑛𝑖 𝑐𝑖 𝑛𝑖𝑐𝑖 𝑐𝑖2 𝑛𝑖𝑐𝑖

2

1000-2000 56 1500 84000 2250000 126000000

2000-3000 118 2500 295000 6250000 73750000

3000-4000 92 3500 322000 12250000 98000000

4000-5000 10 4500 45000 20250000 112700000

5000-10000 4 7500 30000 5625000 225000000

Calculons la moyenne, la variance et l’écart-type à partir des calculs

intermédiaires du tableau 5.11 :

�̅� =1

280∑𝑛𝑖𝑐𝑖 =

775000

280= 2771.43

6

𝑖=1

𝜎 = √2418000000

280− (2771.13)2 = 977.189

Et le coefficient de variation des salaires pour l’année 2004 est donc égal à :

𝐶𝑉2004 =𝜎

�̅�∙ 100 =

977.189

2771.43∙ 100 = 35.26%

L’écart-type représente 37.83 % de la moyenne arithmétique en 1994, et

35.25 % en 2004. En comparant les deux coefficients de variation, on

constate que la dispersion des salaires s’est réduite.

Page 45: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

46

Chapitre sixième

CARACTERISTIQUES DE LA FORME

Dans les deux chapitres précédents, nous avons traité de la localisation

du centre de la courbe et de la dispersion des valeurs autour de ce centre.

Outre ces deux paramètres, il est possible, en approfondissant l’analyse, de

rechercher à préciser la forme d’une distribution au moyen de

caractéristiques mesurant son asymétrie et son aplatissement.

6.1. Caractéristique d’asymétrie

On a coutume de distinguer trois types de distributions selon qu’elles

sont dissymétriques à gauche, symétrique ou dissymétrique à droite.

Souvent l’analyse du diagramme en boîtes (ou de l’histogramme des effectifs)

nous permet de nous rendre compte du caractère symétrique ou non d’une

distribution. L’examen d’une boîte à moustaches permet aussi de se faire

une idée sur cette question selon que la boîte et les moustaches sont

symétriques ou, au contraire, de plus petite amplitude à gauche

(asymétrique à gauche) ou à droite (asymétrique à droite).

1. Coefficient d’asymétrie de Fisher

Définition 6.1

Le moment centré d’ordre 𝑟 d’une distribution est égal à la moyenne

arithmétique des puissances d’ordre 𝑟 des écarts (𝑥𝑖 − �̅�) :

𝑚𝑟 =1

𝑛∑𝑓𝑖(𝑥𝑖 − �̅�)

𝑟

𝑛

𝑖=1

Remarque 6.1

Le moment centré 𝑚1 est nul, et le moment centré 𝑚2 n’est autre que la

variance et ne peut etre nul, comme tous les moments centrés d’ordre pair,

que si toutes les observations ont la même valeur. Le moment centré d’ordre

trois est défini par :

𝑚3 =1

𝑛∑𝑓𝑖(𝑥𝑖 − �̅�)

3

𝑛

𝑖=1

Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se

mesure au moyen du coefficient d’asymétrie de Fisher :

𝛾1 =𝑚3

𝜎𝑥3

où 𝜎𝑥3 est le cube de l’écart-type.

Page 46: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

47

2. Coefficient d’asymétrie de Yule et Kendall

Le Coefficient d’asymétrie de Yule et Kendall est basé sur les positions

des 3 quartiles (premier quartile, médiane et troisième quartile), et est

normalisé par la distance interquartile

𝐴𝑦 =(𝑄3 −𝑀𝑒) − (𝑀𝑒 − 𝑄1)

𝑄3 − 𝑄1

3. Coefficient d’asymétrie de Pearson

Le Coefficient d’asymétrie de Pearson est basé sur une comparaison de

la moyenne et du mode, et est standardisé par l’écart-type :

𝛽1 =�̅� − 𝑚

𝜎𝑥

Remarque 6.2

Tous les coefficients d’asymétrie ont la même propriété, ils sont nuls si

la distribution est symétrique, négatifs si la distribution est étirée vert la

gauche, et positifs si la distribution est étirée vers la droite.

Exemple 6.1

Soit la distribution suivante :

Tableau 6.1

Classes 𝑛𝑖 𝑥𝑖 𝑛𝑖𝑥𝑖 𝑛𝑖𝑥𝑖2 𝑛𝑖𝑥𝑖

3

50-60 8 55 440 24200 1331000

60-70 10 65 650 42250 2746250

70-80 16 75 1200 90000 6750000

80-90 14 85 1190 101150 8597750

90-100 10 95 950 90250 8573750

100-110 5 105 525 55125 5788125

110-120 2 115 230 26450 3041750

Total 65 5185 429425 36828625

𝑚 = 75,𝑀𝑒 = 79.1, 𝑄1 = 68.1, 𝑄3 = 90.7

Le coefficient s’asymétrie de Fisher :

𝛾1 =𝑚3

𝜎𝑥3 =

1337.31

3680.8= 0.363

Le Coefficient d’asymétrie de Yule et Kendall :

𝐴𝑦 =(𝑄3 −𝑀𝑒) − (𝑀𝑒 − 𝑄1)

𝑄3 − 𝑄1= 0.03

Le Coefficient d’asymétrie de Pearson :

𝛽1 =�̅� −𝑀𝑜𝑑𝑒

𝜎𝑥=

4.8

15.44= 0.3

Page 47: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

48

La distribution est donc légèrement oblique à gauche.

6.2. Caractéristiques d’aplatissement

1. Coefficient d’aplatissement

L’aplatissement est mesuré par le coefficient de Person

𝛽2 =𝑚4

𝜎𝑥4

ou le coefficient d’aplatissement de Fisher

𝛾2 = 𝛽2 − 3 =𝑚4

𝜎𝑥4− 3

où 𝑚4 est le moment centré d’ordre 4, et 𝜎𝑥4 est le carré de la variance.

Une courbe est mésokurtique si 𝛾2 ≅ 0.

Une courbe est leptokurtique si 𝛾2 > 0. Elle est plus pointue et possède

des queues plus longues

Une courbe est platykurtique si 𝛾2 < 0 . Elle est plus arrondie et

possède des queues plus courtes.

Exemple 6.2

On veut étudier l’aplatissement de la distribution du chiffre d’affaires

journalier de soixante-quinze épiceries. Calculons le coefficient de Pearson

sur le relevé des données suivantes :

Tableau 6.2

Chiffre d’affaires (Euros)

Fréquences

215-235 4

235-255 6

255-275 13

275-295 22

295-315 15

315-335 6

335-355 5

355-375 4

Page 48: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

49

Le moment centré d’ordre 4 de l’échantillon est donnée par :

Tableau 6.3

𝑥𝑖 𝑥𝑖 − 𝑥 𝑓𝑖 𝑓𝑖(𝑥𝑖 − 𝑥)4

225 -65.6 4 74075629.16

245 -45.60 6 25942428.06

265 -25.60 13 5583457.48

285 -5.60 22 21635.69

305 14.40 15 644972.54

325 34.40 6 8402045.34

345 54.40 5 43789058.05

365 74.40 4 122560841.32

281020067.84

Comme 𝜎𝑥 = 33.88,

𝛽2 =𝑚4

𝜎𝑥4=

175∙ 281020067.84

(33.88)4= 2.84

Puis que 𝛽2 est inférieur à 3, on peut conclure que la distribution du chiffre

d’affaire journalier dans soixante-quinze épiceries est platycurtique, i.e. plus

aplatie que la distribution normale.

2. Représentation graphique

Remarques 6.3

1. Le coefficient d’asymétrie et le coefficient d’aplatissement sont des valeurs

sans dimension, ce qui permet de comparer plusieurs distributions entre

elles.

2. Les paramètres de forme et d’aplatissement ne sont affectés ni par un

changement d’unité, ni par un changement d’origine.

Page 49: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

50

Chapitre septième

ETUDE DE L'AJUSTEMENT ET DE LA CORRELATION

Il est fréquemment nécessaire d’étudier les liens qui peuvent exister

entre les deux (ou plus de deux) dimensions qui caractérisent une

population statistique. Pour qualifier ces liens on parle de liaison statistique,

de corrélation mais, c’est important de le préciser, il n’est jamais question de

causalité, la statistique descriptive n’ayant pas pour objet de prouver des

causalités.

En fait, le lien de corrélation entre deux phénomènes est un lien

intermédiaire entre d’une part, la liaison fonctionnelle que l’on note 𝑦 = 𝑓(𝑥).

Par exemple, la circonférence d’un cercle est fonction de la grandeur de son

rayon ; d’autre part, l’indépendance totale. Par exemple, l’évolution du prix

de l’essence et celle des cotisations de sécurité sociale.

Dans ce chapitre, on se bornera à l’étude des séries à deux dimensions

𝑋 et 𝑌. Cela offre déjà un large éventail de possibilités si l’on se souvient que

chacune de ces dimensions peut être quantitative, qualitative et que les

données peuvent être groupées dans chaque cas par valeur ou groupées par

classe. Dans toute la suite, nous ne considérons que les données

quantitatives.

7.1. Nuage de points

Il s’agit des représentations graphiques des différents couples de deux

caractères. Ils permettent de visualiser globalement le lien de dépendance

statistique. Nous représentons ci-après, un nuage de points.

Figure 7.1

0

50

100

150

200

250

300

350

400

0 10 20 30 40 50

Page 50: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

51

Quoique la très grande majorité des relations réelles entre variables ne

soient pas linéaires, c’est néanmoins l’ajustement linéaire qui est retenu

dans de nombreux cas, pour trois raisons :

1. L’ajustement linéaire est beaucoup plus simple à traiter

mathématiquement.

2. Beaucoup de relations sont approximativement linéaires si l’on

prend un intervalle de variation suffisamment petit.

3. Certaines relations peuvent être rendues linéaires par un

changement de variable appropriée (généralement une

transformation logarithmique).

7.2. Caractéristique d’un couple de deux variables

7.2.1. Covariance

Considérons une série statistique bivariée (𝑥𝑖, 𝑦𝑖) . Pour introduire le

concept de coefficient de corrélation, nous allons présenter au préalable la

covariance, définie par l’expression

𝑐𝑜𝑣(𝑥, 𝑦) =1

𝑛∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)

𝑛

𝑖=1

dans laquelle �̅� et �̅� designent les moyennes des séries marginales. Ce

coefficient peut être positif ou négatif selon la position des observations par

rapport au centre de gravité (�̅�, �̅�).

La covariance s’inspire des réflexions qui sont à la base de la

construction des variances. Elle possède d’ailleurs des propriétés

semblables, à l’exception du fait (comme nous l’avons déjà mentionné) qu’elle

peut être positive ou négative. On peut en particulier montrer que :

𝑐𝑜𝑣(𝑥, 𝑦) =1

𝑛∑ 𝑥𝑖𝑦𝑖 − �̅��̅�𝑛𝑖=1

𝑐𝑜𝑣(𝑥, 𝑦) = 𝑐𝑜𝑣(𝑦, 𝑥)

𝑐𝑜𝑣(𝑥, 𝑥) = 𝑣𝑎𝑟 (𝑥)

𝑣𝑎𝑟(𝑥 + 𝑦) = 𝑣𝑎𝑟(𝑥) + 𝑣𝑎𝑟(𝑦) + 2𝑐𝑜𝑣(𝑥, 𝑦)

|𝑐𝑜𝑣(𝑥, 𝑦)| ≤ √𝑣𝑎𝑟(𝑥)𝑣𝑎𝑟(𝑦)

7.2.2. Coefficient de corrélation linéaire

On appelle coefficient de corrélation linéaire entre deux variables

statistiques 𝑋 et 𝑌, le rapport de leur covariance par le produit de leur écart-

types

Page 51: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

52

𝑟(𝑥, 𝑦) =𝑐𝑜𝑣(𝑥, 𝑦)

𝜎𝑥𝜎𝑦

Remarque 7.1

Le coefficient de corrélation est un nombre sans dimension. Compris

entre 0 et ±1 , il est toujours du signe de ∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛𝑖=1 qui peut être

négatif, positif ou nul.

Si 𝑟 est proche de +1, les deux phénomènes sont en relation étroite, et

leur sens de variation est identique : à un accroissement de 𝑥

correspond un accroissement de 𝑦.

Si 𝑟 est proche de −1, les deux phénomènes sont en relation étroite,

mais leur sens de variation est inverse.

Si 𝑟 est compris entre −0.5 et +0.5, il n’y a pas de veritable relation

linéaire entre 𝑥 et 𝑦. Cela peut provenir d’une indépendance ou d’une

relation non linéaire entre les deux phénomènes 𝑥 et 𝑦 (exponentielle,

hyperbolique,…). Le nuage de points est dans ce cas très intensif.

7.3. Ajustement linéaire par la méthode des moindres carrés

7.3.1. Principe et recherche de paramètres

Les points (𝑥𝑖, 𝑦𝑖) forment un nuage dont on cherche une approximation

dans un but de simplification. Mais qui dit simplification dit déformation :

nous voudrions qu’elle soit minimale ; encore faut-il préciser ce que l’on

entend par là. Disons tout de suite que le choix du critère sera arbitraire

même si l’on tente de le justifier par des considérations plus ou moins

intuitives. On peut vouloir par exemple :

o préserver au mieux les distances entre points.

o préserver au mieux les angles des droites joignant les points

Il n’existe pas de moyen de satisfaire à toutes ces exigences à la fois. Il nous

faut donc choisir. Nous allons chercher la meilleure droite au sens de

moindres carrés, i.e. telle que

∑|𝑀𝑖𝐻𝑖|2

𝑛

𝑖=1

soit minimum.

Les distances sont comptées parallèlement à l’un des axes des coordonnées :

nous avons choisi ici l’axe des ordonnées. Il s’agit de déterminer la droite 𝐷

d’équation 𝑦 = 𝑎𝑥 + 𝑏 telle que :

𝐹(𝑎, 𝑏) =∑ (𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏))2𝑛

𝑖=1

soit minimum.

Page 52: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

53

Figure 7.2

Nous constatons alors que cette distance est fonction de deux inconnues 𝑎 et

𝑏. Pour déterminer le minimum d’une fonction à deux variables, nous devons

d’abord calculer puis annuler simultanément les deux dérivées premières

partielles.

𝜕𝐹

𝜕𝑎= −2∑ 𝑥𝑖(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)

𝑛

𝑖=1= −2(∑ 𝑥𝑖

𝑛

𝑖=1𝑦𝑖 − 𝑎∑ 𝑥𝑖

2𝑛

𝑖=1− 𝑏∑ 𝑥𝑖

𝑛

𝑖=1)

𝜕𝐹

𝜕𝑏= −2∑ (𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)

𝑛

𝑖=1= −2(∑ 𝑦𝑖

𝑛

𝑖=1− 𝑎∑ 𝑥𝑖

𝑛

𝑖=1− 𝑏𝑛)

L’annulation simultanée de ces deux dérivées partielles, nous amène à

résoudre le système ci-dessous :

{

𝑎∑ 𝑥𝑖2

𝑛

𝑖=1+ 𝑏∑ 𝑥𝑖 =∑ 𝑥𝑖

𝑛

𝑖=1𝑦𝑖

𝑛

𝑖=1

𝑎∑ 𝑥𝑖𝑛

𝑖=1+ 𝑏𝑛 =∑ 𝑦𝑖

𝑛

𝑖=1

soit encore

{𝑎∑ 𝑥𝑖

2𝑛

𝑖=1+ 𝑏𝑛�̅� =∑ 𝑥𝑖

𝑛

𝑖=1𝑦𝑖

𝑎𝑛�̅� + 𝑏𝑛 = 𝑛�̅�

La seconde équation nous indique que

𝑏 = �̅� − 𝑎�̅�

En remplaçant 𝑏 par sa valeur dans la premiere equation, nous obtenons :

𝑎∑ 𝑥𝑖2

𝑛

𝑖=1+ (�̅� − 𝑎�̅�)𝑛�̅� =∑ 𝑥𝑖

𝑛

𝑖=1𝑦𝑖

D’où nous tirons :

𝑎 (1

𝑛∑ 𝑥𝑖

2 − �̅�2𝑛

𝑖=1) =

1

𝑛∑ 𝑥𝑖

𝑛

𝑖=1𝑦𝑖 − �̅��̅�

0

20

40

60

80

100

120

140

160

180

200

0 10 20 30 40 50 60

Page 53: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

54

Cette équation s’écrit encore :

𝑎𝜎𝑥2 = 𝑐𝑜𝑣 (𝑥, 𝑦)

D’où

𝑎 =𝑐𝑜𝑣 (𝑥, 𝑦)

𝜎𝑥2

Pour savoir si ces deux valeurs 𝑎 et 𝑏 nous donnent une distance minimale,

il nous faut établir la matrice [𝐻] (matrice du Hessien), matrice formée à

partir des dérivées partielles secondes et croisées, et montrer que ses

déterminants mineurs sont strictement positifs. Ici nous avons

[𝐻] =

[ 𝜕2𝐹

𝜕𝑎2𝜕2𝐹

𝜕𝑎𝜕𝑏𝜕2𝐹

𝜕𝑏𝜕𝑎

𝜕2𝐹

𝜕𝑏2 ]

= [2∑ 𝑥𝑖

2𝑛

𝑖=12𝑛�̅�

2𝑛�̅� 2𝑛

]

det[𝐻] = 4𝑛𝜎𝑥2

Remarques 7.2

1. La droite de moindres carrés passe par le point de coordonnées (�̅�, �̅�)

qu’on appelle parfois le centre de gravité ou point moyen du nuage.

2. La droite des moindres carrés a pour équation

𝑦 − �̅� =𝑐𝑜𝑣 (𝑥, 𝑦)

𝜎𝑥2(𝑥 − �̅�)

7.3.2. Procédés du calcul

Nous venons de démontrer que la droite qui minimise les écarts passe

par un point caractéristique, le point moyen de coordonnes (�̅�, �̅�) et que sa

pente

𝑎 =𝑐𝑜𝑣 (𝑥, 𝑦)

𝜎𝑥2=

1𝑛∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛𝑖=1

1𝑛∑ (𝑥𝑖 − �̅�)𝑛𝑖=1

2=∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛𝑖=1

∑ (𝑥𝑖 − �̅�)𝑛𝑖=1

2

Posons

{𝑋𝑖 = 𝑥𝑖 − �̅�𝑌𝑖 = 𝑦𝑖 − �̅�

⇒ 𝑎 =∑(𝑋𝑖𝑌𝑖)

∑𝑋𝑖2

Ainsi, l’ajustement s’effectue aisément selon les étapes suivantes :

1. Calculer �̅� et �̅�.

2. Calculer 𝑋𝑖 et 𝑌𝑖 . On mesure les différents écarts (𝑥𝑖 − �̅�) et (𝑦𝑖 − �̅�) (Faire

très attention aux signes).

3. Faire les produits 𝑋𝑖 𝑌𝑖 en respectant la règle des signes, puis en faire la

somme.

4. Elever au carré les valeurs 𝑋𝑖 et en faire la somme.

Page 54: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

55

5. Calcul de 𝑎.

6. Calcul de 𝑏.

7. Définir l’équation de la droite dans sa forme générale 𝑦 = 𝑎𝑥 + 𝑏.

La droite de régression sert d’abord à vérifier l’existence d’une relation

linéaire et la nature de celle-ci et en suite à faire des prévisions. Ainsi, nous

pouvons utiliser l’équation de la droite de 𝑌 associée à une valeur de 𝑋 que

l’on se donne.

Exemple 7.1

Une application importante de l’analyse de la régression en comptabilité

concerne l’estimation des coûts. En collectant des données sur les quantités

et sur les coûts et en utilisant la méthode des moindres carrés pour estimer

l’équation de la relation liant les quantités et les coûts, un comptable peut

estimer les coûts associés à une opération de fabrication particulière.

Considérez l’échantillon suivant de quantités et des coûts de production.

Tableau 7.1

𝑥𝑖 𝑦𝑖

12 809

15 860

18 930

21 1110

25 1121

28 1245

31 1380

a) Utiliser ces données pour estimer l’équation de la régression qui peut

servir à prévoir le coût total de la production d’une quantité donnée.

b) Quel est le coût variable par unité produite ?

c) La société prévoit de produire 35 unités le mois prochain. Quel est le coût

estimé de cette opération ?

Solution

a) La droite des moindres carrés est 𝑦 = 29,59𝑥 + 430,9

b) Le coût variable par unité produite est 29,59

c) Le coût estimé de cette opération pour 35 unités est 𝑦 = 29,59 ∙ 35 + 430,9 =

1.466,55

Page 55: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

56

Figure 7.3

7.4. Les droites de régression

Dans le cas de séries à deux variables ( 𝑥 et 𝑦 ), il est possible de

considérer successivement chaque variable comme variable expliquée, puis

comme variable explicative. Dans ces conditions, nous pouvons calculer

deux droites de régression.

a) La droite de régression de 𝑦 en 𝑥 d’équation 𝑦 = 𝑎𝑥 + 𝑏, permettant de

déterminer 𝑦 connaissant 𝑥.

b) La droite de régression de 𝑥 en 𝑦 d’équation 𝑥′ = 𝑎′𝑦 + 𝑏′, permettant de

déterminer 𝑥 connaissant 𝑦.

7.4.1. La droite de régression de y en x : 𝒚 = 𝒂𝒙 + 𝒃

L’équation de cette droite se détermine aisément en appliquant la

méthode des moindres carrés développée dans la section précédente.

Rappelons que cette droite passe par le point moyen (�̅�, �̅�) du nuage de

points et que la valeur de sa pente se détermine par la formule suivante :

𝑎 =∑(𝑋𝑖𝑌𝑖)

∑𝑋𝑖2

avec 𝑋𝑖 = 𝑥𝑖 − �̅� et 𝑌𝑖 = 𝑦𝑖 − �̅�.

7.4.2. La droite de régression de x en y : 𝒙′ = 𝒂′𝒚 + 𝒃′

L’équation de cette droite se détermine tout aussi aisément. Elle passe

par le point moyen du nuage de points (�̅�, �̅�) et a pour pente la valeur

suivante :

𝑎′ =∑(𝑌𝑖𝑋𝑖)

∑𝑌𝑖2

y = 29,591x + 430,9

0

200

400

600

800

1000

1200

1400

1600

0 5 10 15 20 25 30 35

Page 56: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

57

Soit encore

𝑥 − �̅� =𝑐𝑜𝑣 (𝑥, 𝑦)

𝑣𝑎𝑟(𝑦)(𝑦 − �̅�)

Exemple 7.2

Reprenons l’exemple 7.1. La droite de régression de 𝑥 en 𝑦 est :

𝑥 = 0,032𝑦 − 13,34

Figure 7.4

Remarques 7.3

1. Les deux droites de régression ont des coefficient directeurs (𝑎 et 𝑎′) de

même signe. En effet, les dénominateurs de ceux-ci sont toujours positifs et

leurs numérateurs identiques.

2. Les deux droites de régressions (𝐷 et 𝐷′) ne sont confondues que dans le

cas où : 𝑎′ =1

𝑎⇒ 𝑎𝑎′ = 1

En effet, 𝑦 = 𝑎𝑥 et 𝑥 = 𝑎′𝑦 ⇒ 𝑦 =1

𝑎′𝑥

7.5. Corrélation et causalité

Le plus souvent, l’étude des relations entre deux variables a pour but

plus ou moins avoué d’apprécier dans quelle mesure l’une de deux variables,

dite variable explicative, exerce une influence causale sur l’autre, dite

variable expliquée. Malheureusement, ainsi que nous l’avons indiqué en

introduction, la corrélation n’implique pas la causalité, pour diverses raisons

que nous ne donnons pas ici.

x = 0,032y - 13,34

0

5

10

15

20

25

30

35

0 200 400 600 800 1000 1200 1400 1600

Page 57: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

58

Chapitre huitième

LES INDICES STATISTIQUES

Pour l’étude des problèmes économiques et sociaux, on a souvent

besoin de décrire les variations de grandeurs simples telles que le prix du

baril de pétrole, la production de blé, le taux de fécondité, etc. Ces

comparaisons dans le temps (ou dans l’espace) se font généralement en

effectuant le rapport des valeurs de la grandeur considérée à deux dates

différentes (ou en deux lieux distincts) ; on parle d’indice élémentaire.

Mais, il est important d’être en mesure de suivre les évolutions de

grandeurs complexes telles que le niveau général des prix, la production

industrielle, les exportations, etc. Celles-ci peuvent être résumées par une

caractéristique de tendance centrale d’indices élémentaires, ce qui amène à

la construction d’indice synthétiques.

Toute caractéristique de tendance centrale, notamment les différents

types de moyennes, présentent à la fois des avantages et des inconvénients.

Il n’est pas possible de proposer une méthode unique de construction des

indices synthétiques. Il existe différentes formules. On va exposer les plus

utilisées. De par l’importance que revêtent ces indicateurs d’évolution dans

les discussions économiques et politique, il est nécessaire de bien

comprendre leur élaboration, d’analyser leurs modes de construction et

d’étudier leurs propriétés.

8.1. Indices élémentaires

a) Définition

On appelle indice élémentaire d’un phénomène mesurable, le rapport

des valeurs prises par le phénomène aux temps 𝑗 (époque ou année

courante) et 0 (époque ou année de base)

𝐼𝑗 0⁄ =𝑃𝑗

𝑃0∗ 100

Ce rapport est aussi appelé indice simple, indice analytique, indice particulier.

Exemple 8.1

Une entreprise a payé à l’époque 𝑡0 une matière première 𝑋, 30 $ le kg, trois

ans plus tard (en 𝑡3), elle la paye 36 $ le kg. Calculer 𝐼3 0⁄ .

𝐼3 0⁄ =36

30∗ 100 = 120

Page 58: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

59

b) Propriétés

1. Identité

Un indice jouit de cette propriété lorsqu’il prend la valeur 100 pour

l’année de base, ce qui peut se noter :

𝐼0 0⁄ =𝑃0𝑃0∗ 100 = 100

2. Réversibilité

𝐼1 0⁄ =1

𝐼0 1⁄

3. Transferabilité

Un indice est transférable si :

𝐼𝑗 0⁄ = 𝐼𝑗 𝑘⁄ ∗ 𝐼𝑘 0⁄

Remarques 8.1

1. Il est possible d’effectuer des changements de base sur les indices

simples. En effet, puisque :

𝐼𝑗 0⁄ = 𝐼𝑗 𝑘⁄ ∗ 𝐼𝑘 0⁄

On a :

𝐼𝑗 𝑘⁄ =𝐼𝑗 0⁄

𝐼𝑘 0⁄

En d’autres termes, connaissant l’indice simple ( 𝐼𝑗 0⁄ ) d’une grandeur à

l’époque 𝑗 par rapport à une époque de base 0, il est possible de calculer ce

même indice (𝑗) par rapport à une autre base (𝑘 par exemple) à partir du

premier indice (𝐼𝑗 0⁄ ) et de celui de la nouvelle base 𝑘 par rapport à l’ancienne

0 (𝐼𝑘 0⁄ ). On dit que la base 0 peut être transférée, ce qui signifie que les

indices peuvent se calculer par rapport :

Soit à une base identique (ou fixe)

Soit, au contraire, à une base différente (ou mobile). L’intérêt de ce

deuxième type de calcul réside dans le fait qu’il fait apparaitre les

variations intermédiaires.

2. La généralisation de cette propriété conduit aux indices chaines. Ainsi on

peut écrire :

𝐼𝑗 0⁄ = 𝐼𝑗 𝑗−1⁄ ∗ 𝐼𝑗−1 𝑗−2⁄ ∗ 𝐼𝑗−2 𝑗−3⁄ ∗ … ∗ 𝐼2 1⁄ ∗ 𝐼1 0⁄

Page 59: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

60

8.2. Les indices synthétiques

Les indices élémentaires retracent l’évolution d’une seule grandeur

parfaitement définie et homogène. Mais, plus souvent, l’économiste ou le

dirigeant d’entreprise, si n’est le citoyen désire suivre les variations de

grandeurs complexes telles que les prix, la production industrielle.

Ces grandeurs complexes sont composées d’un nombre plus important de

grandeurs simples dont l’évolution est décrite par un indice élémentaire.

Ainsi les indices élémentaires montrent vite leurs limites quand nous

voulons étudier un ensemble de valeur. Il faut donc disposer d’outils

statistiques permettant de tenir compte de plusieurs composantes.

8.2.1. Valeur d’un panier de biens

Comment mesurer l’évolution d’une variable synthétique, la valeur d’un

panier de produits, sachant que la valeur de chaque produit est elle-même le

produit d’un prix par une quantité ?

Pour clarifier cette question, posons quelques définitions.

Soit 𝑉𝑖𝑡 = 𝑝𝑖𝑡𝑞𝑖𝑡 la valeur du bien 𝑖, à la date 𝑡 où 𝑝𝑖𝑡 représente le prix du bien

𝑖 à la date 𝑡 et 𝑞𝑖𝑡 sa quantité.

Maintenant, s’il y a 𝑛 produits dans le panier (𝑖 = 1, … , 𝑛), la valeur totale du

panier à la date 𝑡 s’écrira : 𝑉𝑖𝑡 = ∑ 𝑝𝑖𝑡𝑞𝑖𝑡𝑛𝑖=1 .

L’évolution de la valeur du panier entre deux dates dépend de

l’évolution du prix de chaque bien et de l’évolution de la quantité de chaque

bien. Il faut donc construire un indice synthétique qui permette d’imputer

l’évolution de la valeur du panier au composant prix ou à la composante

quantité. Plusieurs indices peuvent être envisagés. Nous étudierons

successivement les indices proposés par Laspeyres, Paasche et Fisher. Dans

chaque cas, nous définirons l’indice et nous illustrerons son mode de calcul

par un exemple.

8.2.2. Les indices de Laspeyres

L’économiste allemand Ernst Louis Etienne Laspeyres (1834-1913) a

proposé de calculer deux indices synthétiques qui portent son nom : l’indice

de Laspeyres des prix et l’indice de Laspeyres des quantités.

1) L'indice de Laspeyres des prix

L’indice de Laspeyres des prix mesure l’évolution entre deux dates 0 et

𝑡, des prix des biens qui composent un panier, en prenant comme référence

la valeur du panier à la date initiale ( 𝑡 = 0 ) et en supposant que les

quantités de biens dans le panier n’ont pas varié entre 0 et 𝑡.

L’indice de Laspeyres des prix se définit comme suit :

Page 60: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

61

𝐿𝑡 0⁄𝑃 =

∑ 𝑃𝑖𝑡𝑄𝑖0𝑛𝑖=1

∑ 𝑃𝑖0𝑄𝑖0𝑛𝑖=1

∗ 100

On voit ainsi que si les prix ne changent pas entre 0 et 𝑡 (c’est-à-dire si 𝑃𝑖𝑡 =

𝑃𝑖0), l’indice synthétique de Laspeyres des prix demeure égal à 100.

Exemple 8.2

Considérons le tableau suivant indiquant les prix respectifs de trois biens de

consommation à l’année de référence 0 et à l’année courante 𝑛 de même que

les quantités vendues à l’année de référence :

Tableau 8.1

Biens Quantités

vendues en

1970 (𝑄0)

(milliers)

Prix en

1970

(euros)

(𝑃0)

Prix en

1988

(euros)

(𝑃𝑛)

∑𝑃𝑛𝑄0 ∑𝑃0𝑄0

Lait 50.5 0.20 1.20 60.60 11.10

Pain 42.8 0.15 1.10 47.08 6.42

Beure 15.5 0.50 2.00 31.00 7.75

Total 138.68 24.27

Nous pouvons alors trouver l’indice de Laspeyres des prix :

𝐿𝑛 0⁄𝑃 =

∑𝑃𝑛𝑄0∑𝑃0𝑄0

∗ 100 =138.68

24.27∗ 100 = 571.4 %

2) L'indice de Laspeyres des quantités

L’indice de Laspeyres des quantités mesure l’évolution entre deux dates

0 et 𝑡, des quantités des biens qui composent un panier, en prenant comme

référence la valeur du panier à la date initiale (𝑡 = 0) et en supposant que les

prix des biens dans le panier n’ont pas varié entre 0 et 𝑡.

On a donc la formule suivante de l’indice de Laspeyres des quantités :

𝐿𝑡 0⁄𝑄 =

∑ 𝑃𝑖0𝑄𝑖𝑡𝑛𝑖=1

∑ 𝑃𝑖0𝑄𝑖0𝑛𝑖=1

∗ 100

On voit ainsi que si les quantités ne changent pas entre 0 et 𝑡 (c’est-à-dire si

𝑄𝑖𝑡 = 𝑄𝑖0 ), l’indice synthétique de Laspeyres des quantités demeure égal à

100.

Page 61: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

62

8.2.3. Les indices de Paasche

L’économiste allemand Hermann Paasche (1851-1925) a proposé de

calculer deux indices synthétiques qui portent son nom : l’indice de Paasche

des prix et l’indice de Paasche des quantités.

1) L'indice de Paasche des prix

L’indice de Paasche des prix mesure l’évolution entre deux dates 0 et 𝑡,

des prix des biens qui composent un panier, en prenant comme référence la

valeur du panier à la date terminale (𝑡) et en supposant que les quantités de

biens dans le panier n’ont pas varié entre 0 et 𝑡.

On a donc la formule suivante de l’indice de Paasche des prix :

𝑃𝑡 0⁄𝑃 =

∑ 𝑃𝑖𝑡𝑄𝑖𝑡𝑛𝑖=1

∑ 𝑃𝑖0𝑄𝑖𝑡𝑛𝑖=1

∗ 100

Exemple 8.3

Considérons le tableau fictif suivant indiquant les prix et les quantités

respectifs de trois biens de consommation à l’année de référence 0 et à

l’année courante 𝑛 :

Tableau 8.2

Biens Quantités

vendues en

1988 (𝑄𝑛)

(milliers)

Prix en

1970

(euros)

(𝑃0)

Prix en

1988

(euros)

(𝑃𝑛)

∑𝑃𝑛𝑄𝑛 ∑𝑃0𝑄𝑛

Lait 85.5 0.20 1.20 102.60 17.10

Pain 50.5 0.15 1.10 55.55 7.575

Beure 40.5 0.50 2.00 81.00 20.250

Total 239.15 44.925

Nous pouvons alors trouver l’indice de Paasche des prix

𝑃𝑛 0⁄𝑃 =

∑𝑃𝑛𝑄𝑛∑𝑃0𝑄𝑛

∗ 100 =239.15

44.925∗ 100 = 532.3 %

2) L'indice de Paasche des quantités

L’indice de Paasche des quantités mesure l’évolution entre deux dates 0

et 𝑡, des quantités des biens qui composent un panier, en prenant comme

référence la valeur du panier à la date terminale (𝑡) et en supposant que les

prix des biens dans le panier n’ont pas varié entre 0 et 𝑡.

On a donc la formule suivante de l’indice de Paasche des quantités :

Page 62: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

63

𝑃𝑡 0⁄𝑄 =

∑ 𝑃𝑖𝑡𝑄𝑖𝑡𝑛𝑖=1

∑ 𝑃𝑖𝑡𝑄𝑖0𝑛𝑖=1

∗ 100

8.2.4. Les indices de Fisher

L’économiste et mathématicien américain Irving Fisher a établi le

modèle de l’indice portant son nom en vue de pallier certains inconvénients

rencontrés par les indices de Laspeyres et de Paasche. Comme l’indice de

Laspeyres pondère les prix par les quantités de la période de base, il peut

surestimer l’augmentation du coût de la vie (car les gens peuvent avoir

réduit leur consommation des biens qui sont devenus proportionnellement

plus chers que les autres). A l’inverse, comme l’indice de Paasche utilise les

quantités de la période courante, il peut sous-estimer l’augmentation du

coût de la vie. L’indice de Fisher, la moyenne géométrique des deux indices

de Laspeyres et de Paasche, se veut donc un indice idéal représentant un

compromis entre ces deux indices.

1) L’indice de Fisher des prix

L’indice de Fisher des prix est la moyenne géométrique des indices de

prix de Laspeyres et de Paasche. On a donc la formule suivante de l’indice de

Fisher des prix :

𝐹𝑡 0⁄𝑃 = √𝐿𝑡 0⁄

𝑃 ∗ 𝑃𝑡 0⁄𝑃

2) L’indice de Fisher des quantités

L’indice de Fisher des quantités est la moyenne géométrique des indices

de quantités de Laspeyres et de Paasche. On a donc la formule suivante de

l’indice de Fisher des quantités :

𝐹𝑡 0⁄𝑄 = √𝐿𝑡 0⁄

𝑄 ∗ 𝑃𝑡 0⁄𝑄

Exemple 8.4

Considérons le tableau fictif suivant indiquant les prix et les quantités

respectifs de trois biens de consommation à l’année de référence 0 et à

l’année courante 𝑛 :

Page 63: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

64

Tableau 8.3

Biens Quantités

vendues

en 1970

(𝑄0)

(milliers)

Quantités

vendues

en 1988

(𝑄𝑛)

(milliers)

Prix

en

1970

(euros)

(𝑃0)

Prix

en

1988

(euros)

(𝑃𝑛)

∑𝑃𝑛𝑄𝑛 ∑𝑃0𝑄𝑛 ∑𝑃𝑛𝑄0 ∑𝑃0𝑄0

Lait 50.5 85.5 0.20 1.20 102.60 17.10 60.60 11.10

Pain 42.8 50.5 0.15 1.10 55.55 7.575 47.08 6.42

Beure 15.5 40.5 0.50 2.00 81.00 20.250 31.00 7.75

Total 239.15 44.925 138.68 24.27

L’indice de Laspeyres des prix est

𝐿𝑛 0⁄𝑃 =

∑𝑃𝑛𝑄0∑𝑃0𝑄0

∗ 100 =138.68

24.27∗ 100 = 571.4 %

L’indice de Paasche des prix est

𝑃𝑛 0⁄𝑃 =

∑𝑃𝑛𝑄𝑛∑𝑃0𝑄𝑛

∗ 100 =239.15

44.925∗ 100 = 532.3 %

L’indice de Fisher des prix est

𝐹𝑛 0⁄𝑃 = √𝐿𝑡 0⁄

𝑃 ∗ 𝑃𝑡 0⁄𝑃 = √532.3 ∗ 571.4 = 551.5 %

Remarques 8.2

1. Moyenne géométrique des indices de Laspeyres et Paasche la valeur de

l’indice de Fisher est comprise entre les valeurs de ces indices.

2. Il est aussi possible de calculer la moyenne arithmétique des indices des

Laspeyres et Paasche. L’indice ainsi obtenu est appelé indice de Sidgwick et

Drobisch.

3. On vérifie que pour une même période :

Indice des prix de Laspeyres * Indice des prix Paasche = Indice des quantités de

Laspeyres * Indice des quantités Paasche

Page 64: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

65

TRAVAUX PRATIQUES

1. Indiquer au moyen de lettres c ou d les quelles de variables suivantes sont

continues ou discrètes.

a) Une distance.

b) Un score de jeu.

c) Un poids de bébé.

d) L’accroissement de la taille d’une fleure.

e) l’âge réel d’une personne.

f) Le nombre de personnes dans une grande foule.

g) Le nombre d’étudiants dans une salle.

h) Les salaires des ouvriers.

2. Parmi les données suivantes spécifier celles qui sont discrètes et celles qui

sont continues.

a) Nombre d’actions vendues chaque jour à la bourse des valeurs.

b) Température enregistrée chaque heure dans un centre météorologique.

c) Durée de vie des tubes de télévisions fabriquées par une société.

d) Traitement annuelle des professeurs de l’université.

e) Longueurs de 1000 vis fabriquées dans une usine.

3. Etablir le domaine de chacune de variable suivante et spécifier si elles

sont continues ou discrètes.

a) Nombre L de litres d’eau contenu dans une machine à laver.

b) Nombre B de livres sur une étagère de bibliothèque.

c) Somme S de points obtenus en laçant une paire de dés.

d) Diamètre D d’une sphère.

e) Pays d’Afrique.

4. Parmi les données suivantes, quelles sont celles qui sont discrètes et

celles qui sont continues.

a) Nombre de centimètres de pluies qui tombent dans une ville pendant

différents mois de l’année.

Page 65: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

66

b) Vitesse d’une voiture en kilomètres à l’heure.

c) Nombre de billets de cent franc en circulation à Lubumbashi à chaque

instant.

5. Dans une entreprise, on veut étudier la situation matrimoniale du

personnel féminin. Quelle est la nature du caractère ? Quelles sont les

modalités que peuvent prendre ce caractère ?

6. Indiquer les différentes modalités des variables suivantes :

-situation familiale,

-numéro de département,

-résultats d’un jet de deux dés,

-valeur d’une carte tirée au hasard dans un jeu de 32 cartes où par

conventions les As sont comptés pour 15 points, les Habillés pour 10 points,

et les autres cartes pour leurs valeurs respectives.

7. Considérer une population hétérogène de N = 2500 individus et

décomposable en 5 strates c1, c2, …, c5 respectivement de N1 = 600, N2 =

450, N3 = 900, N4 = 170, N5 = 380. On souhaite en extraire un échantillon

représentatif de taille n = 250 individus. Comment procéder ?

8. Soit la série suivante, relative au nombre de bons de commande

enregistrés dans une journée pour une entreprise donnée, pendant un mois :

30,28,28,32,27,28,27,28,27,28,26,27,27,28,28,30,32,29,29,28,29,27,28,30,

32,28,28,27,27,29,29. Faite un tableau de dépouillement en utilisant la

méthode dite « du pendu ».

9. Par ordre alphabétique, les six noms de famille les plus courants aux

Etats-Unis sont Brown, Davis, Johnson, Jones, Smith et Williams (Time

Almanac 2006). Supposer qu’un échantillon de 50 individus dont le nom de

famille correspond à l’un de ces six noms, fournit les données suivantes :

Brown Williams Williams Williams Brown

Smith Jones Smith Johnson Smith

Davis Smith Brown Williams Johnson

Johnson Smith Smith Johnson Brown

Williams Davis Johnson Williams Johnson

Williams Johnson Jones Smith Brown

Johnson Smith Smith Brown Jones

Jones Jones Smith Smith Davis

Davis Jones Williams Davis Smith

Jones Johnson Brown Johnson Davis

Page 66: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

67

Résumer les données en construisant

a) Les distributions de fréquences relative et en pourcentage

b) Un diagramme en barres

c) Un diagramme circulaire

d) En vous basant sur ces données, quels sont les trois noms de

famille les plus courants ?

10. Considérons les répartitions des naissances des enfants suivant l’âge de

la mère :

Age de la mère Nombre d’enfants

Moins de 20 ans

De 20 à 24 ans

De 25 à 29 ans

De 30 à 34 ans

De 35 à 39 ans

De 40 ans et plus

28600

227600

277100

172600

110900

2378

a) Dresser un tableau où figureront les classes d’âge, les effectifs,

les fréquences, les effectifs cumulés et les fréquences cumulées.

b) Représenter l’histogramme des effectifs.

c) Représenter le polygone des fréquences.

11. Le tableau suivant donne l’âge en jour de 60 nouveaux – nés :

142 262 102 194 222 119 83 156 182 159 186 204

193 197 170 260 148 107 120 172 216 172 222 208

194 162 183 171 176 143 147 214 173 190 177 206

170 176 126 146 175 182 149 181 114 206 201 198

132 159 169 169 75 159 180 63 197 126 90 189

a) Etablir la distribution des effectifs (par la méthode de Sturge).

b) Construire un histogramme et un polygone de fréquence pour la

distribution des effectifs.

Page 67: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

68

12. Le restaurant-grill LEVEROCK, situé en front de mer, à Maderia Beach

en Floride demande à ses clients de remplir un questionnaire d’évaluation

du service, de la qualité de la nourriture, des cocktails, des prix et de

l’ambiance du restaurant. Chaque caractéristique est évaluée sur une

échelle allant d’excellent (E) à mauvais (M), en passant par très bon (T), bon

(B) et moyen (Mo). Utiliser les statistiques descriptives pour résumer les

données suivantes concernant la qualité de la nourriture. Quelle est votre

opinion concernant la qualité de la nourriture dans ce restaurant ?

B E T B Mo E T E E Mo

T E M T E B Mo E E E

T Mo B E T M T E T B

E B Mo E T E E B B E

T E E Mo T T E T E B

13. Le classement des 20 plus importants concerts en tournée aux Etats-

Unis et le prix moyen des billets d’entrée à ces concerts sont présentés ci-

dessous. La liste est basée sur les données fournies au magazine POLLSTAR

par les organisateurs des concerts (Associated Press, 21 Novembre 2003)

Concert Prix du billet d’entrée

BRUCE SPRINGSTEEN 72.40

DAVE MATTHEWS BAND 44.11

AEROSMITH /KISS 69.52

SHANIA TWAIN 61.80

FLEETWOOD MAC 78.34

RADIOHEAD 39.50

CHER 64.47

COUNTING CROWS 36.48

TIMBERLAKE/AGUILERA 74.43

MANA 46.48

TOBY 37.76

JAMES TAYLOR 44.93

ALABAMA 40.83

HAPER/JOHNSON 33.70

50 CENT 38.89

STEELY DAN 36.38

RED HOT CHILI PEPPERS 56.82

R.E.M. 46.16

AMERICAN IDOLS LIVE 39.11

MARIAH CAREY 56.08

Résumer les données en construisant ;

a) Une distribution de fréquence absolue et en pourcentage.

Page 68: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

69

b) Un diagramme en bâtons.

c) Quel est le concert le plus cher ? Et quel est le moins cher ?

d) Commenter les indications sur le prix moyen des billets de concert

fournis par ces données.

14. Quel est le prix moyen d’une action d’une société appartenant à l’indice

Dow Jones industriel ? Les données suivantes indiquent le prix d’une action

arrondi au dollar le plus proche en Janvier 2006 (The Wall Street Journal,

16 janvier 2006).

Société Prix d’une action

($)

Société Prix d’une action

($)

AIG 70 Caterpillar 62

Alcoa 29 Citigroup 49

Groupe Altria 76 Coca-Cola 41

American Express 53 Disney 26

AT&T 25 Dupont 40

Boeing 69 Exxon Mobil 61

a) Construire un diagramme en bâtons représentant ces données.

b) Quelles sont les actions les plus chères et les moins chères.

15. Soit le tableau suivant :

𝑋𝑖 Fréquence

4 2

6 5

8 8

10 10

12 4

14 1

Calculer les moyennes arithmétique, géométrique, harmonique et

quadratique puis vérifier la relation suivante : 𝑥𝐻 < 𝑥𝐺 < �̅� < 𝑥𝑄.

16. Calculer la moyenne arithmétique d’une série unique composée de deux

séries ayant respectivement 18 et 24 comme moyenne arithmétique, 5 et 6

comme taille respective.

17. L’indice Dow Jones voyage correspond au prix payé par les voyageurs

d’affaires pour une nuit d’hôtel dans les principales villes américaines (The

Wall Street journal, 16 Janvier 2004). Les prix moyens, en dollars, d’une

chambre d’hôtel dans 20 villes sont indiqués ci-dessous ;

Page 69: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

70

Atlanta 163, Boston 177, Chicago 166, Cleveland 126, Dallas 123, Denver

120, Detroit 144, Houston 173, Los Angeles 160, Miami 192, Minneapolis

125, La Nouvelle Orleans 167, New York 245, Orlando 146, Phoenix 139,

Pittsburgh 137, San Francisco 167, Seattle 162, Saint Louis 145,

Washington D.C. 207.

a) Quel est le prix moyen d’une chambre d’hôtel ?

b) Quelle est la médiane ?

c) Quel est le mode ?

d) Quel est le premier quartile ?

e) Quel est le troisième quartile ?

18. Soit la série statistique suivante :

Classes Fréquences

0-20 3

20-40 6

40-60 9

60-80 10

80-100 12

100-120 16

120-140 15

140-160 11

160-180 10

180-200 7

a) Tracer l’histogramme des fréquences et en déduire le mode.

b) Tracer le polygone des fréquences

c) Calculer la moyenne arithmétique

d) Déterminer la médiane

19. Pour tester la consommation d’essence, 13 automobiles ont parcouru

300 km dans des conditions de conduite similaire à celles obtenues en ville

et sur l’autoroute. Les données sur la consommation, en 𝑘𝑚 par gallon (un

gallon US vaut exactement 3,785 411 784 litres), sont présentées ci-

dessous :

Ville : 16.2 16.7 15.9 14.4 13.2 15.3 16.8 16.0 16.1 15.3 15.2 15.3 16.2

Autoroute : 19.4 20.6 18.3 19.6 19.2 17.4 17.2 18.6 19.0 21.1 19.4 18.5

18.7

Utiliser la moyenne, la médiane et le mode pour étudier les différences de

performance entre la conduite en ville et sur l’autoroute.

Page 70: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

71

20. Le coût des achats de consommations courantes tels que le logement,

l’essence, les services Internet, les impôts et les frais médicaux est fourni par

le Wall Street Journal (2 Janvier 2007). Voici un échantillon du coût habituel

des procédures de déclaration de l’impôt sur le revenu fournies par des

sociétés telles que H&R Block : 120,230,110,115,160,130,150,105,195,155,

360,120,120,140,100,115,180,235,255.

a) Calculer la moyenne, la médiane et le mode.

b) Calculer le premier et le troisième quartile.

21. Un groupe d’économistes a effectué des prévisions sur l’économie

américaine pour les six premiers mois de l’année 2007 (The Wall Street

Journal, 2 Janvier 2007). Les taux de croissance (en pourcentage) du

produit intérieur brut (PIB) estimés par 30 économistes sont les suivants :

2,6 3,1 2,3 2,7 3,4 0,9 8,6 2,8 2,0 2,4 2,7 2,7 2,7 2,9 3,1

2,8 1,7 2,3 2,8 3,5 0,4 2,5 2,2 1,9 1,8 1,1 2,0 2,1 2,5 0,5

a) Quelle est la prévision minimale pour le taux de croissance du

PIB ? Quelle est la prévision maximale ?

b) Calculer la moyenne, la médiane et le mode.

c) Calculer les premier et troisième quartiles.

d) Les économistes étaient-ils optimistes ou pessimistes ? Discuter.

22. Une entreprise d’accessoires automobiles fabrique deux types de

plaquettes de freins à disque.

-le premier type (A) assure un parcours moyen de 9000 km avec un écart-

type de 1500 km.

-le deuxième type (B) assure un parcours moyen de 18000 km avec un écart-

type de 2500 km.

Peut-on dire que le type (B) est meilleur que le type (A) ?

23. La société Walt Disney a acheté le studio d’animation Pixar pour 7,4

milliards de dollars (CNNMonney.com, 24 Janvier 2007). Une liste des films

d’animation produits par Disney et Pixar au cours des dix années

précédentes est fournie ci-dessous. Le chiffre d’affaires généré par ces films

est exprimé en millions de dollars. Calculer le chiffre d’affaires global, la

moyenne, la médiane, et les quartiles pour comparer le succès des films

produits par les deux sociétés. Est-ce que les statistiques fournissent au

moins une raison pour expliquer pourquoi Disney était intéressé par le

rachat de Pixar ? Discuter.

Page 71: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

72

Film Disney Chiffre d’affaires

Pocahontas 346

Le bossu de notre dame 325

Hercules 253

Mulan 304

Tarzan 448

Dinosaure 354

The emperor’s new groove 169

Lilo & Stitch 273

Treasure planet 110

Le livre de la jungle 2 136

Brother Bear 250

Nome on the range 104

Chicken little 249

Toy story 362

A bug’s life 363

Toy story 2 485

Monsters, Inc. 525

Finding nemo 865

Les incroyables 631

24. Un équipement home cinéma est la façon la plus simple et la plus

économique de récréer chez soi l’ambiance cinéma. Ci-dessous figure un

échantillon de prix (Consumer Reports Buying Guide, 2004). Deux types de

modèles sont distingués : le modèle avec le lecteur et sans lecteur DVD.

Modèles avec lecteur DVD

Prix ($)

Modèles sans lecteur DVD

Prix ($)

SONY HT-1800DP 450 PIONNER http-230 300

PIONNER HTD-330DP 300 SONY HT-DOW750 300

SONY HT-C800DP 400 KENWOOD HT B-306 360

PANASONIC SC-HT900 500 RCA RT-2600 290

PANASONIC SC-MTI 400 KENWOOD HT B-206 300

a) Calculer le prix moyen des modèles avec lecteur DVD et le prix

moyen des modèles sans lecteur DVD. Quel est le coût

supplémentaire d’un équipement home cinéma comprenant un

lecteur DVD ?

b) Calculer l’étendue, la variance et l’écart type de deux échantillons.

Que vous apprennent ces données concernant le prix des modèles

avec et sans lecteur DVD.

25. Les tarifs de location à la journée d’un véhicule dans un échantillon de

sept villes de l’Est des Etats-Unis figurent ci-dessous (The Wall Street

Journal, 16 Janvier 2004).

Page 72: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

73

Ville Tariffs journaliers ($)

Boston

Atlanta

Miami

New York

Orlando

Pittsburgh

Washington

43

35

34

58

30

30

36

a) Calculer la moyenne, la variance et l’écart-type des tarifs de

location.

b) Un échantillon similaire de sept villes de l’Ouest des Etats-Unis

relève un tarif de location moyen de 38 dollars par jour. La variance

et l’écart-type sont respectivement de 12,3 et 3,5. Discuter des

différences entre les tarifs de location des véhicules de l’Est et de

l’Ouest des Etats-Unis.

26. La société FLORIDA POWER & LIGHT (FP&L) a acquis la réputation de

réactiver rapidement ses installations électriques après des tempêtes.

Toutefois, durant la saison des ouragans en 2004 et 2005, il est apparu que

le processus historique de réparation d’urgences des systèmes électriques de

la société n’était plus aussi performant, (The Wall Street Journal, 16 Janvier

2006). Les données indiquant le nombre de jours nécessaires pour rétablir le

courant après sept ouragans en 2004 et 2005 sont présentes ci-dessous.

Ouragan Nombre de jours nécessaire pour rétablir le courant

Charley 13

Frances 12

Jeanne 8

Dennis 3

Katrina 8

Rita 2

Wilma 18

D’après cet échantillon, calculer les statistiques descriptives suivantes :

a) La moyenne, la médiane et le mode.

b) L’étendue et l’écart-type.

c) L’ouragan Wilma devrait-il être considéré comme une valeur

aberrante en termes de jours requis pour rétablir le courant ?

d) Les sept ouragans ont généré 10 millions d’interruptions du service

électrique. Est-ce que les statistiques montrent que FP&L devrait

revoir son processus de réparation d’urgence des systèmes

électriques ? Discuter.

Page 73: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

74

27. On a observé un échantillon de 50 valeurs d’un dosage (exprimé en cg

/litre). Le tableau ci-dessous en donne la répartition de 5 classes.

Classes Effectifs

30-60

60-90

90-120

120-150

150-180

7

11

14

11

7

a) Tracer l’histogramme et le polygone statistique des effectifs.

b) Calculer les valeurs typiques de position.

c) Calculer les valeurs typiques de dispersion.

d) Le polygone statistique des effectifs ressemble à quelle distribution

théorique. Justifier.

28. Même données de l’exercice précédent.

a) Calculer l’intervalle interquartile et en donner une interprétation.

b) Calculer le coefficient d’aplatissement (2ème coefficient de Fisher).

c) Calculer le coefficient d’asymétrie.

29. Soit la répartition de 100 ouvriers, selon le salaire horaire en francs

Classes Fréquence

18-20 10

20-22 20

22-24 38

24-26 25

26-28 7

a) Calculer le salaire horaire moyen

b) Calculer l’écart-type par rapport à ce salaire horaire

c) Interpréter les résultats.

30. Le tableau ci-dessous donne les débits mesurés du Rhin observés au

mois d’avril et mai des années 1937-1954 (l’unité choisie n’est pas précisée

car elle est sans importance ici)

Page 74: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

75

Années Avril Mai

1937 600 512

1938 237 211

1939 487 469

1940 560 370

1941 521 363

1942 423 272

1943 307 241

1944 390 253

1945 364 408

1946 284 233

1947 415 245

1948 255 199

1949 209 215

1950 230 297

1951 424 309

1952 528 303

1953 268 196

1954 242 166

On se propose de mettre en ordre ces données

a) Donnez une représentation globale des débits d’avril et de mai. On tracera

deux histogrammes de fréquences.

b) Calculez la moyenne �̅� des débits d’avril et la moyenne �̅� des débits de

mai.

c) Calculez les écart-types 𝜎1 et 𝜎2 des débits d’avril et de mai.

d) Comparez les débits d’avril et de mai en utilisant les résultats de la

deuxième et de la troisième question.

e) Comparer les débits d’avril et de mai en calculant le coefficient de

corrélation.

31. Construire pour les valeurs ci-dessous une distribution de fréquences

par la méthode de Sturge et dessinez l’histogramme correspondant.

Déterminer la médiane, la moyenne, l’écart-type, le domaine de variation, le

coefficient de variation.

184 170 188 175 142 196 172 212 208 172 190 180

193 231 188 184 181 141 211 154 190 186 159 190

163 160 198 187 191 201 150 228 214 180 188 191

Page 75: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

76

200 183 178 181 193 225 130 165 166 165 208 171

190 221 191 170 197 157 158 169 234 205 186 186

32. Un agent social mène une enquête sur la rémunération de salaire de 2

usines comprenant chacune 20 ouvriers. Voir le résultat obtenu.

Usine A

Salaire (en $) Effectif cumulé

70 2

80 9

150 12

200 16

250 17

300 20

Usine B

Salaire (en $) Effectif cumulé

50 1

100 7

150 12

200 18

250 20

a) Estimer le salaire moyen et l’écart-type de chaque distribution.

b) En vous basant sur les résultats en a), déterminer l’usine qui a une bonne

politique salariale. Commenter votre réponse.

33. La moyenne d’un examen de mathématique est 72 et l’écart-type 15.

Déterminer la note centrée réduite des étudiants ayant reçus les notes

respectives 60, 93, 72.

34. En se rapportant au problème précédent, trouver les notes

correspondants aux valeurs centrées réduites suivantes -1 et 1,6.

35. Un étudiant a obtenu 75 en statistique, 71 en mathématique et 85 en

comptabilité. A quel examen a-t-il le mieux réussi relativement. Les

moyennes et les écart-type sont respectivement 72 et 10, 68 et 7, 80 et 16.

36. Représenter graphiquement les points correspondants aux coordonnées

ci-après et tracer la droite qui ajuste le mieux le nuage de points obtenus

a)

X 9 8 7 5 5 3 2 1

Y 8 3 5 6 1 8 7 2

Page 76: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

77

b)

X 5 10 15 20 25 80 35 40 45

Y 103 106 109 112 117 121 124 127 131

37. Trouver la droite de régression de 𝑋 et 𝑌 des données de l’exercice

précédent et monter que les deux droites de régression se coupent au point

médian 𝑀(�̅�, �̅�).

38. Les températures journalières minimales et maximales de 12 villes

américaines sont regroupées dans le tableau suivant (La chaine météo, 25

Janvier 2004) :

Ville 𝑇° Max 𝑇° Min Ville 𝑇° Max 𝑇° Min

Albany 9 8 Los Angeles 62 47

Boise 32 26 Nouvelle Orléans 71 55

Cleveland 21 19 Portland 43 36

Denver 27 10 Providence 18 8

Des Moines 24 16 Raleigh 28 24

Detroit 20 17 Tulsa 55 38

Quelle est la température maximale moyenne ? Quelle est la température

minimale moyenne ? Quel est le coefficient de corrélation entre les

températures maximales et minimales ?

39. Dans les documents comptables d’une entreprise, on a relevé l’évolution

du poste « Frais de transport » au cours des dix dernières années (en

millions des francs).

𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 𝑡8 𝑡9 𝑡10 12,00 11.50 13,00 13,50 13,00 14,50 14,00 15,00 15,50 16,00

a) Représenter graphiquement cette série chronologique.

b) Faire un ajustement par la méthode des moindres carrés

c) Si la tendance générale persiste, quelle est l’estimation des « Frais de

transport » pour l’année suivante 𝑡11?

40. Les données suivantes indiquent les dépenses publicitaires annuelles en

millions de dollars et la part de marché de six sociétés automobiles

(Adversting Age, 23 Juin 2006)

Page 77: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

78

Société Publicité (en millions de $)

Part de marché (%)

DAIMLER CHRYSLER 1590 14.9

FORD MOTOR Co. 1568 18.6

GENERAL MOTOR Cop. 3004 26.2

HONDA MOTOR Co. 854 8.6

NISSAN MOTOR Co. 1023 6.3

TOYOTA MOTOR Corp. 1075 13.3

a) Représenter le nuage de point associé à ces données, avec pour variable

indépendante les dépenses publicitaires et pour variable dépendante la part

de marché.

b) Quelle relation entre les deux variables le nuage de point indique-t-il ?

c) Utiliser la méthode des moindres carrés pour développer l’équation de

régression estimée.

d) Interpréter la pente de l’équation de régression estimée.

e) Supposer que la société Honda pense que l’équation de la régression

estimée à la question (c) peut permettre d’estimer la part de marché de

l’année suivante. Prévoir la part de marché de Honda si la société décide

d’accroître ses dépenses publicitaires à 1200 millions de dollars l’année

suivante.

41. L’indice de production d’une entreprise a évolué de la façon suivante

Période Indice de

production

Période Indice de

production

𝑡0 172 𝑡6 212

𝑡1 180 𝑡7 227

𝑡2 190 𝑡8 225

𝑡3 193 𝑡9 226

𝑡4 200 𝑡10 240

𝑡5 210

a) Représenter graphiquement cette série.

b) Etablir l’équation de cette droite d’ajustement.

c) Procéder à un ajustement par la méthode des moindres carrés. Déterminer

l’équation, puis tracer cette fonction sur le graphique.

d) Peut-on estimer, à partir de cette dernière équation, quelle a été la période

de base (indice-100) ?

Page 78: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

79

42. Bergans de Norvège fabrique du matériel de plein air depuis 1908. Les

données suivantes indiquent la température (en degré Fahrenheit) et le prix

(en dollars) de 11 modèles de sac de couchage fabriqués par Bergans

(Backpacker 2006 Gear Guide)

Modèle Température (℉) Prix ($)

RANGER 3-SEASONS 12 319

RANGER SPRING 24 289

RANGER WINTER 3 389

RONDANE 3-SEASONS 13 239

RONDANE WINTER 4 289

SENJA SNOW 15 259

SENJA ZERO 25 229

SUPER LIGHT 45 129

TIGHT & LIGHT 25 199

RONDANE SUMMER 38 199

SENJA ICE 5 359

a) Représenter le nuage de points associé à ces données en utilisant la

température comme variable indépendante.

b) Quelle relation entre les deux variables le nuage de points indique-

t-il ?

c) Estimer par la méthode de moindres carrés l’équation de la

régression.

d) Estimer le prix d’un sac de couchage dont la température est de 20o

Fahrenheit.

43. L’entreprise Georges Sare S.A. utilise un parc automobile de six

véhicules (chacun étant affecté à une représentation). Le service financier

vous demande de calculer le coefficient de corrélation entre la consommation

d’essence (en litre aux 100 km) et le coût total d’utilisation (aux 100 km et

en francs)

Consommations aux 100 km (𝑥𝑖) 7,5 8,2 8,8 9,1 9,2 10,5

Coût total d’utilisation (𝑦𝑖) 62 67 67 74 80 88

44. Bien que les retards dans les grands aéroports soient maintenant moins

fréquents, il est utile de connaître les aéroports les plus susceptibles de

modifier votre planning. En plus, si votre avion arrive en retard dans un

aéroport où vous devez prendre un autre avion, quelle est la probabilité que

le départ de cet avion soit retardé pour vous permettre de prendre votre

correspondance ?

Les données suivantes indiquent le pourcentage d’arrivée et de départ en

retard, en août, dans 13 aéroports (Business 2.0, février 2002)

Page 79: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

80

Aéroport % d’arrivée en retard % de départ en retard

Atlanta 24 22

Charlotte 20 20

Chicago 30 29

Cincinnati 20 19

Dallas 20 22

Denver 23 23

Detroit 18 19

Houston 20 16

Minneapolis 18 18

Phoenix 21 22

Pittsburg 25 22

Salt Lake City 18 17

St Louis 16 16

a) Représenter le nuage de points associé à ces données, en

considérant le pourcentage d’arrivées en retard comme variable

indépendante.

b) Quelle relation le nuage de ce point indique-t-il entre les arrivées en

retards et les départs en retard ?

c) Utiliser la méthode des moindres carrés pour estimer l’équation de

la régression.

d) Supposer que le pourcentage d’arrivées en retard à l’aéroport de

Philadelphie en août était de 22 %. Quel est le pourcentage de

départ en retard estimé ?

45. La société Dupont-Lawille augmente son capital. L’expert-comptable à

relevé pendant les dix dernières semaines les cours (𝑥𝑖) de l’action « Dupont-

Lawille » en Bourse et les cours (𝑦𝑖) du droit de souscription.

x 200 205 210 220 225 210 210 200 180 190

y 16 18 19 19 21 20 19 17 18 18

a) Déterminer une relation linéaire permettant de déduire les cours du droit

de souscription du cours de l’action.

b) Déterminer une relation linéaire permettant de calculer le cours de

l’action, connaissant la valeur du droit de souscription.

c) Calculer le coefficient de corrélation.

46. Une application importante de l’analyse de la régression en comptabilité

concerne l’estimation des coûts. En collectant des données sur les quantités

et sur les coûts et en utilisant la méthode des moindres carrés pour estimer

l’équation de la relation liant les quantités et les coûts, un comptable peut

Page 80: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

81

estimer les coûts associés à une opération de fabrication particulière.

Considérez l’échantillon suivant de quantités et des coûts de production.

Volume de production Coût total ($)

400 4000

450 5000

550 5400

600 5900

700 6400

750 7000

a) Utiliser ces données pour estimer l’équation de la régression qui peut

servir à prévoir le coût total de la production d’une quantité donnée.

b) Quel est le coût variable par unité produite ?

c) La société prévoit 500 unités le mois prochain. Quel est le coût estimé de

cette opération ?

47. Le coût « y » d’une activité dans une entreprise textile peut être considéré

comme une fonction linéaire d’une production « x » : 𝑦 = 𝑎𝑥 + 𝑏

a) Déterminer les valeurs à prendre pour les constantes 𝑎 et 𝑏 en procédant

à l’ajustement linéaire des données numériques suivantes, résultant de

l’observation.

Unités de

production

10 15 20 25 40 50 60 80

Coût 280 420 525 580 905 1030 1380 1680

b) Estimer si possible le coût de l’activité correspondant à une production de

100 unités.

48. Les présidents des sociétés et les directeurs généraux sont-ils payés en

fonctions des bénéfices des sociétés ? Le tableau suivant regroupe des

données sur la variation en pourcentage du rendement des actions sur une

période de deux ans et la variable en pourcentage du salaire du président et

ces directeurs généraux après cette période de deux ans (Business week, 21

avril 1997).

a) Estimez l’équation de la régression en considérant le pourcentage du

rendement des actions en tant que variable indépendante.

Page 81: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

82

b) Quel est le coefficient de corrélation de l’échantillon ? Reflète-t-il une

relation forte ou faible entre le rendement des actions et le salaire des

directions

Société Variation de rendement

Variation de salaire

Dow Chemical 201,3 18

Rohn & Haas 146,5 28

Morton International 76,7 10

Union Carbide 158,2 28

Prascau -34,9 15

Air Products & Chemical 73,2 -9

Eastman Chemical -7,9 -20

49. L’indice Dow Jones Industriel (DJ) et l’indice standard & Poor’s 500 (S&P

500) sont utilisées pour mesurer les mouvements sur le marché boursier. Le

Dow Jones est fondé sur les mouvements de prix de 30 grandes sociétés, le

S&P est un indice composé de 500 actions. Certains disent que S&P 500 est

une meilleure mesure de la performance du marché boursier du fait de sa

base plus large. Les prix de clôture de deux indices pendant 20 semaines, à

partir du 09 septembre 2005 sont regroupés ci-dessous et dans le fichier en

ligne DJS&P 500 (Barron’s, 30 janvier 2006).

Date Dow Jones S&P 500 Date Dow Jones S&P 500

9-sept 10679 1241 18-nov 10766 1248

16-sept 10642 1238 25-nov 10932 1268

23-sept 10420 1215 02-dec 10878 1265

30-sept 10569 1229 09-dec 10779 1259

07-oct 10292 1196 16-dec 10876 1267

14-oct 10287 1187 23-dec 10823 1269

21-oct 10215 1180 30-dec 10718 1248

28-oct 10403 1198 03-janv 10960 1285

04-nov 10531 1220 13-janv 10960 1288

11-nov 10686 1235 20-janv 10667 1261

a) Représenter le nuage de points de cet ensemble de données, en

prenant pour variable indépendante l’indice DJ.

b) Estimer l’équation de la régression.

c) L’équation estimée de la régression est-elle bien adaptée aux

données ? Expliquer.

d) Supposer que le prix de clôture du Dow Jones sort de 11.000

points. Estimer les prix de clôture du S&P 500.

e) Devrons-nous être attentifs au fait que la valeur de l’indice Dow

Jones de 11.000 utilisée pour prévoir l’indice S&P 500 à la question

Page 82: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

83

(d) n’appartient pas à l’intervalle des données utilisées pour estimer

l’équation de la régression ?

50. Une entreprise a versé en 1970 40 000 $ pour rétribuer ses 120

employés. En juillet de la même année 30 employés supplémentaires ont été

embauchés par la compagnie qui, de ce fait a dû verser 6000 $ de plus qu’en

janvier. En prenant janvier 1970 comme année de référence, calculer :

a) L’indice de l’emploi (indice élémentaire de quantité) pour juillet

b) L’indice des frais de travail (indice élémentaire de valeur) pour juillet,

c) En se servant du résultat : l’indice élémentaire des prix multiplié par

l’indice élémentaire de quantité donne l’indice élémentaire de valeur, quelle

interprétation peut-on, dans ce cas, donner à l’indice élémentaire ?

51. Pendant l’année 𝑡0, le salaire horaire de base dans une branche d’activité

a évolué de la façon suivante :

J F M A M J

9,96 9,96 10,06 10,12 10,78 11,12

J A S O N D

12,32 12,32 12,32 13,01 13,02 13,82

a) Calculer l’indice d’évolution (base 100 en janvier) de janvier à décembre

b) Calculer le même indice à travers l’évolution de chaque mois (construisez

l’indice-chaine de l’année). Quel est l’intérêt de ce deuxième type de calcul ?

52. Trois produits A, B et C ont varié en quantité et en prix entre 𝑡0 et 𝑡1 de

la manière indiquée dans le tableau ci-dessous :

Produits 𝑡0 𝑡1 Prix Quantités Prix Quantités

A B C

3,50 12,20 4,40

15 5 12

10,30 23,80 7,60

16 5 11

En prenant pour époque de base 𝑡0, calculer :

a) Les indices de prix de Laspeyres et de Paasche.

b) Les indices de quantité de Laspeyres et de Paasche.

c) Les indices de prix et de quantités de Fisher.

Page 83: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

84

53. Les mesures en 1961 et en 1971 des prix unitaires et des quantités

consommées des articles A, B, C et D sont données dans le tableau ci-après

Articles

1961 1971

Prix 𝑃0 Quantité 𝑄0 Prix 𝑃1 Quantité 𝑄1

A 5 100 7 80

B 20 15 30 25

C 10 50 12 90

D 3 200 4 300

Calculer les indices synthétiques des prix en 1971, calculés sur la base 100

en 1961.

54. La production d’électricité en France, en 1938, a été de 21 milliards de

kWh ; en 1948, elle atteignait 30 milliards de kWh.

a) Quel était l’indice de la production d’électricité en 1948, calculé sur la

base 100 en 1938 ?

b) En 1958, cet indice calculé sur la base 100 en 1938 était 280 ; quelle a

été la production d’électricité en 1958 ?

55. En utilisant les renseignements consignés dans le tableau suivant :

Produits Date 𝑡0 Date 𝑡1

Prix unitaire

𝑃0

Quantités

𝑄0

Prix unitaire

𝑃1

Quantités

𝑄1

A 10 30 14 25

B 20 25 26 25

C 30 15 60 30

a) Les indices de prix de Laspeyres et de Paasche.

b) Les indices de quantité de Laspeyres et de Paasche.

e) Les indices de prix et de quantités de Fisher.

Page 84: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

85

56. On trouvera dans le tableau suivant le salaire mensuel moyen d’un

ouvrier africain dans le petit commerce pour la période de 1973 à 1980, ainsi

que l’indice des prix à la consommation pour la même période par rapport à

1973.

Année 1973 1974 1975 1976 1977 1978 1979 1980

Salaire

($) ((g

($)

96.00 102.40 108.80 114.50 120.65 130.10 130.52

140.25

Indice 105.1 115.6 125.3 135.0 140.1 150.6 170.4 215.8

a) Déterminer les salaires réels d’un ouvrier de 1973 à 1980, en considérant

1973 comme année de base.

b) Trouver le pouvoir d’achat du dollar pour les différentes années en

supposant qu’en 1947 le dollar avait une valeur correspondant réellement

au pouvoir d’achat d’un dollar.

57. Une entreprise utilise pour ses fabrications trois types de matières

premières qui sont notées respectivement A, B et C. En 2000 et 2004, les

prix observés et les quantités achetées par cette entreprise ont été les

suivants :

Matières premières

Prix par tonne en

euros

2000

Quantités achetées en tonnes en

2000

Prix par tonne en

euros

2004

Quantités achetées en tonnes en

2004

A 800 10 900 6

B 500 4 700 4

C 600 5 600 2

1. Calculez les indices élémentaires rendant compte de l’évolution des prix

de chacune des matières premières entre 2000 et 2004.

2. Calculez la moyenne arithmétique des indices élémentaires précédents

pondérés par la part des dépenses engagées par l’entreprise pour chacune de

ces matières premières en 2000. De quel indice s’agit-il ?

3. Effectuez le même calcul pour rendre compte de l’évolution des quantités

entre 2000 et 2004.

4. Calculez l’indice mesurant l’évolution globale des dépenses de matières

premières entre 2000 et 2004.

5. Déterminez, en utilisant les résultats des questions précédentes, les taux

de variation (exprimés en pourcentage) des prix, des quantités et de la

dépense totale. Comment s’explique l’évolution de la dépense totale ?

Page 85: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

86

QUELQUES STATISTIQUES SUR LA REPUBLIQUE DEMOCRATIQUE DU

CONGO

Les données suivantes proviennent de l’annuaire statistique 2014, produit

par l’Institut National de la Statistique (INS) de la République Démocratique

du Congo (RDC) avec l’appui technique et financier du Programme des

Nations Unies pour le Développement (PNUD). Il a ainsi été publié par le

ministère du plan et révolution de la modernité, en juillet 2015.

Dans chaque cas,

a) Représenter le nuage de point associé à ces données.

b) Quelle relation entre les deux variables le nuage de point indique-t-il ?

c) Utiliser la méthode des moindres carrés pour développer l’équation de

régression estimée.

d) Interpréter la pente de l’équation de régression estimée.

e) Si la tendance générale persiste, quelle sera l’estimation de la situation en

2020.

1. Evolution de la production de racines et tubercules (en tonnes)

Année Patate douce Igname Pomme de terre Manioc

2005 229760 84900 92720 14974470

2006 233110 85940 93140 14989440

2007 236508 86994 93561 14982412

2008 239958 88058 93985 14991107

2009 243457 89137 94411 15002879

2010 428392 90875 95213 31268811

2011 440407 92919 96023 32138534

2012 452669 95196 97848 33033366

2013 465067 97709 98704 33938252

2014 477804 100406 99572 34867925

2. Evolution de la production des Oléagineux (en tonnes)

Année Arachide Soja

2005 368110 14920

2006 368740 15530

2007 372773 16163

2008 377238 16824

2009 382202 17516

2010 389654 18566

2011 397372 19679

2012 405277 20053

2013 413342 20434

2014 421568 20943

Page 86: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

87

3. Evolution de la production de fruits (en tonnes)

Année Banane douce Banane plantain Banane à bière

2005 313970 487150 714050

2006 314470 487980 715050

2007 314970 488811 718056

2008 315472 489643 720067

2009 315973 490477 722084

2010 756280 2777820 715442

2011 767160 2855540 721523

2012 788520 2935047 727728

2013 810120 3815447 734132

2014 832312 4159932 740666

4. Evolution de l’effectif du cheptel par espèces (en têtes)

Année Bovins Ovins Caprins Porcins Volailles

2005 756940 899570 4021920 959080 19769000

2006 755500 900470 4027950 962701 19828437

2007 754060 801370 4033990 966333 19888053

2008 752630 902270 4040038 969997 19947848

2009 751200 903175 4046095 973676 20007822

2010 794773 904080 4052161 977379 20067452

2011 842459 904984 4058287 981158 20127655

2012 893006 905889 4064322 984952 20188039

2013 946585 906794 4070416 988761 20248604

2014 949425 909514 4082627 991727 20309351

5. Evolution de la production de céréales (en tonnes)

Année Maïs Riz paddy Sorgho

2005 1155260 315130 43260

2006 1155400 315480 43510

2007 1155540 316331 43761

2008 1155681 316934 44013

2009 1155822 317536 44268

2010 1782273 754872 44698

2011 1892657 709417 45136

2012 1938044 645174 45583

2013 1986099 811218 46034

2014 2015345 1019979 46080

Page 87: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

88

6. Evolution de la production de métaux (en tonnes)

Année Or Cuivre Cobalt

2005 592.17 16038.00 934.00

2006 328.09 22440.00 746.00

2007 143.73 185146.63 25296.26

2008 119.57 337430.00 42461.00

2009 166.61 309610.00 56103.00

2010 151.13 437755.00 84005.00

2011 309.41 499198.00 99475.00

2012 2812.62 619942.00 85433.00

2013 6111.97 922016.47 76592.51

2014 23936.72 1065744.39 76474.96

7. Evolution du prix moyen du MWh en USD

Année Prix moyen du MWh en USD

2005 30.45

2006 31.67

2007 39.24

2008 48.23

2009 45.42

2010 46.38

2011 45.62

2012 58.22

2013 68.68

2014 76.00

8. Evolution des abonnements de téléphonie mobile et de revenu de

téléphonie mobile en USD

Année Nombre d’abonnements de téléphonie mobile

Revenu de téléphonie mobile en USD

2003 1246225 264000000

2004 1990722 338000000

2005 2746094 428000000

2006 4415470 557674580

2007 6490080 667081714

2008 9937622 760717000

2009 9458557 612587411

2010 11604914 638842878

2011 15644877 790585893

2012 20258757 965439443

2013 28231900 1012517982

Page 88: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

89

9. Population de la RDC (en millier d’habitants) entre 2006-2015.

Année Population en millier

2006 55591

2007 57188

2008 58819

2009 60486

2010 62191

2011 63932

2012 65705

2013 67514

2014 69360

2015 71246

10. Répartition des naissances survenues entre 2003 et 2013

Année Naissances

2003 463999

2004 433120

2005 414189

2006 835418

2007 1375207

2008 982116

2009 984671

2010 767723

2011 975387

2012 712537

2013 1433702

Page 89: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

90

BIBLIOGRAPHIE

1. DODGE Y., Statistique. Dictionnaire encyclopédique, Springer, Paris,

2007.

2. DODGE Y., Premier pas en statistique, Springer, Paris, 2006.

3. VIDA A., Statistique descriptive et inférentielle avec Excel. Approche par

exemple, Presse Universitaire de Rennes, 2004.

4. GOLDFARD B. et C., Introduction à la méthode statistique, sixième

édition, Dunod, 2011.

5. MAZEROLLE F., Statistique descriptive, Gualino édition, 2006.

6. POSSIERE J.P., Mathématiques appliquées à la gestion, Coll Les Zoom’s,

2005.

7. GRANIER C. et GUILBAUD B., Statistique dans l’entreprise, Edition

Faucher, Paris, 1978.

8. GRANIER C. et GUILBAUD B., Statistique dans l’entreprise. Titre 4. Etude

de l’ajustement et de la corrélation, Edition Faucher, Paris, 1978.

9. BACCINI A., Statistique Descriptive Elémentaire, Publication de l’Institut

de Mathématiques de Toulouse, 2010.

10. TILLE Y., Résumé du cours de statistique descriptive, 2010.

11. SPIEGEL M. R., Théorie et applications de la statistique, Série Schaum,

Mc Graw-Hill Inc., Paris, 1979.

12. DROESEKE J.J. et TASSI P., Histoire de la statistique, 1990.

13. DROESEKE J.J., Eléments de statistique, Editions de l’Université de

Bruxelles, 1997.

14. LEBOUCHER L. et VOISIN M.J., Introduction à la statistique descriptive.

Cours et exercices avec tableur, Cepadues-Edition, Toulouse, 2011.

15. ANDERSON D., SWEENEY D. et WILLIAMS T., Essentials of Statistics for

busness and Economics, 5 th edition, Cegange Larning, 2009. Statistique

pour l’économie et la gestion, Traduction de la cinquième édition américaine

par BORSENBERGER C., de boeck, 2010.

Page 90: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

91

Page 91: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

92

Page 92: FISCHER - Ecopo Lubumbashi

STATISTIQUE DESCRIPTIVE MES 2018-2019

93