Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
CENTRE DE FORMATION DES INSPECTEURS D’ENSEIGNEMENT
RABAT, MAROC
ANNÉE 2015-2016
RESPONSABLES DE L'ENSEIGNEMENT :
Pr. Mohamed LATIFI
Pr. Abdelhak SGHIR
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 2
INTRODUCTION
Il est d’usage, lorsqu’on aborde une discipline nouvelle, de commencer par en donner une définition. L'objectif de la statistique est de collecter, d’analyser et d’interpréter de l'information (des ensembles d’observations) relative à un même phénomène et susceptible d’être caractérisée par un nombre.
A cette fin, le travail du statisticien comprend trois étapes :
- La collecte des données ;
- La présentation des données ;
- Le résumé des données.
Tout d’abord, la collecte des informations. En dépit des apparences, cette étape est essentielle et s’avère souvent complexe. Son bon déroulement suppose d’avoir répondu préalablement à trois questions :
- Quelles informations cherche-t-on à recueillir ? La réponse à cette question définit l’objet de la collecte.
- Auprès de qui ces informations seront-elles recueillies ? La réponse à cette question définit le sujet de la collecte.
- Comment ces informations seront-elles recueillies ? La réponse à cette question définit la méthode de la collecte.
Exemple : Nous nous intéresserons au travers de ce polycopié aux performances scolaires
relatives des filles et des garçons en lycée. Pour ce faire, nous relevons les notes obtenues à deux épreuves test, en mathématiques et en français, d’une population composée de 15 élèves de lycée extraits de trois classes.
Deuxième étape, la présentation des données. Une fois les données collectées, il importe « d’organiser » la statistique obtenue. Cette présentation prend la forme de tableaux et de graphiques.
Exemple : Pour reprendre notre exemple, et pour en rester à une toute première
présentation, nous pouvons construire un tableau de données à cinq colonnes reprenant l’ensemble de l’information obtenue. L’on écrit en ligne les individus (15) et en colonnes les variables étudiées (quatre : SEXE ; GROUPE ; note de FRANÇAIS ; note de MATHEMATIQUES). Nous obtenons le tableau suivant :
IDENTITE SEXE GRPE FRAN MATH
a G B 10,00 7,92
b G B 15,00 10,75
c G B 15,00 10,00
d F B 16,00 13,08
e G B 12,00 9,75
f G C 12,00 9,58
g F C 14,00 12,92
h G C 10,00 10,25
i G C 12,00 11,25
j F A 11,00 7,67
k G A 11,00 7,00
l F A 12,00 6,58
m F A 9,00 7,50
n F A 10,00 7,67
o F A 13,00 8,08
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 3
Note de
FRANCAISEffectif
9 1
10 3
11 2
12 4
13 1
14 1
15 2
16 1
Total 15
Répartition des notes de français
0
1
2
3
4
5
9 10 11 12 13 14 15 16
Notes sur 20
Eff
ecti
f
Pour percevoir combien un tableau bien construit améliore la lisibilité de l’information, nous nous intéresserons aux seules notes de français. Nous présenterons un tableau comportant deux colonnes, l’une indiquant les notes de français, l’autre le nombre de lycéen concerné.
On peut également donner de ces résultats une présentation graphique. L’axe horizontal représentera les notes sur 20 et l’axe vertical le nombre de lycéen.
Un graphique, bien approprié, améliore tout particulièrement la lisibilité de l’information.
Troisième étape, le résumé des données. Paradoxalement, l’information exprimée dans un tableau ou visualisée par un graphique, est parfois trop riche pour être véritablement utile. La troisième étape va donc consister à définir et à calculer quelques paramètres qui expriment les caractéristiques principales de la distribution, et qui en quelque sorte, la « résument ».
Exemple : nous pourrions calculer la moyenne des notes obtenues à l’une et à l’autre des matières
du test. Elle est ici de 12 en français. Mais nous pourrions encore affiner ce travail de résumé en calculant un indicateur de dispersion de la distribution autour de la moyenne, par l’écart-type (nous y reviendrons). Il est ici d’environ 2 pour le test de français.
Les résultats ainsi obtenus seront beaucoup plus évocateurs, plus « parlants », que le tableau ou le graphique. Mais cette opération présente aussi, des inconvénients. Résumer la distribution, c’est accepter une perte d’information, et peut-être une déformation de l’information. Le statisticien doit en être conscient, et ne pas hésiter à revenir dans ses raisonnements ultérieurs sur la série de chiffres initiaux.
Au terme de ces trois étapes, le statisticien a décrit la population interrogée, sous l’angle particulier qui l’intéressait. Les méthodes qu’il a mises en œuvre au cours de cette démarche constituent la statistique descriptive, objet de cet enseignement.
La statistique descriptive vise ainsi à collecter, présenter et résumer des données1.
Au-delà de cette séquence générale, la mise en œuvre d’une démarche de statistique descriptive dépend en pratique de nature des variables retenues. Il nous faut donc, pour aller plus avant, éclaircir quelques points de vocabulaire statistique.
1 Il existe d’autres branches de la statistique. Elles font appel à des techniques plus élaborées tant sur le plan des mathémat iques que des
probabilités.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 4
L’analyse statistique débute toujours par la collecte de données sur un ensemble de
référence concerné par l'objet de l'étude : la population (notée P). La population est
donc un ensemble finis d’éléments de même nature, qui sont objets de l’observation du
statisticien. Chaque élément d’une population est également dit individu ou unité
statistique souvent notée Ui.
Dans la mesure où il serait trop lourd d'étudier l'ensemble d'une population, on choisit2
d'en étudier une partie représentative, appelée échantillon.
L’effectif de la population (ou la taille de l'échantillon) correspond alors au nombre
d'individus3 qui composent cette population. On notera cet effectif N. Ainsi pour une
population P donnée, on a P= (U1, U2, U3,…, Ui,…Un).
Ces premières définitions permettent de définir le sujet de la collecte. Il reste donc à
préciser l’objet de l’observation.
L’objet de l’observation est dit caractère. Ainsi, sur une population donnée, le
statisticien peut s’intéresser simultanément à plusieurs caractéristiques des individus.
Sur une population humaine, par exemple, le statisticien peut relever entre autres l’âge,
le sexe, le poids, la couleur des yeux, la forme du crâne, l’opinion politique, l’origine
sociale… Le choix des caractères à observer est essentiel. Il doit permettre de
répondre à la problématique posée au départ. Il importe donc de ne pas ignorer un
caractère indispensable à l’analyse, mais tout autant de ne pas s’encombrer de
caractéristique sans importance.
Le statisticien distingue, pour l’analyse, trois types de caractères : qualitatif et
quantitatif discret ou quantitatif continu. La façon de traiter ces trois types de caractères
diffère sensiblement.
Le caractère qualitatif. Un caractère qualitatif diffère en nature d’une unité
statistique à une autre, et il ne peut donc ni être mesuré ni se voir (directement)
attribuer une valeur numérique. Ainsi, le sexe, la couleur des yeux, la forme du
crâne, l’opinion politique ou encore l’origine sociale d’un individu sont des
caractères qualitatifs.
On appellera modalité d’un caractère chacun des états que peuvent présenter les
unités statistiques. Par exemple, pour le sexe, deux états sont possibles : mâle ou
femelle. Pour l’origine sociale ou pour l’opinion politique, les choses sont plus
délicates et le statisticien aura en général recours à une typologie construite, une
nomenclature qui regroupe l’ensemble des modalités possibles.
Toute bonne nomenclature doit se conformer à deux principes : l’incompatibilité et
l’exhaustivité. Chaque individu étudié appartient à un seul sous-ensemble, c'est-à-
dire ne peut prendre qu'une seule modalité : c’est la propriété de l’incompatibilité.
En outre, la réunion des sous-ensembles recouvre la population étudiée. Toutes les
2 Cette pratique de l’échantillonnage est très fréquente en sociologie politique, avec les sondages d’opinion, mais également en sciences
d’éducation . A l’inverse, dans le cas des recensements de population, la prétention du statisticien est de tendre à l’exhaustivité. La collecte s’opère non sur échantillon, mais sur la totalité de la population. Mais le traitement statistique définitif sera long et coûteux. De ce fait, les recensements ne sont pratiqués que tous les 10 ans. 3 On voit ici combien le langage de la démographie, science humaine fort ancienne, a structuré celui de la statistique descriptive.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 5
situations doivent être prévues, c’est-à-dire qu’un individu possède toujours l’une
des modalités : c’est la propriété de l’exhaustivité. Cette exigence conduit
fréquemment en pratique à prévoir des modalités qui permettent d’enregistrer des
cas particuliers, généralement peu nombreux, pour lesquels on a volontairement
refusé de créer des modalités supplémentaires ou pour lesquelles on ne dispose
pas d’informations suffisamment précises. Ainsi, la plupart des nomenclatures
incorporent une rubrique « Autres » ou « ND » (« non défini »).
Le caractère quantitatif. Un caractère est dit quantitatif lorsqu’il est « mesurable »,
c’est à dire lorsqu’on peut associer, à chaque modalité du caractère, un nombre qui
en exprime l’intensité. Les caractères quantitatifs diffèrent en intensité d’une unité
statistique à une autre. Ainsi, l’âge, la taille, le poids, sont des caractères
quantitatifs.
Il importe encore de distinguer entre caractère quantitatif discret et caractère
quantitatif continu.
Le caractère quantitatif discret. Les modalités de la variable sont
exprimées par des nombres isolés, entiers en général. Par exemple, si la
variable exprime le nombre de personnes dans un ménage, le nombre
d’enfants dans une famille, le nombre de places de stationnement ou encore
le nombre de véhicules par ménage, nous avons affaire à une variable
quantitative discrète.
Le caractère quantitatif continu. Les modalités de la variable peuvent
prendre toutes les valeurs comprises dans un intervalle donné, c’est à dire un
nombre infini de valeurs. De façon générale, toutes les grandeurs liées à
l’espace, au temps et à la masse sont par nature des variables quantitatives
continues.
Mais il n’est pas toujours facile de déterminer si une variable statistique doit être
considérée et traitée comme une grandeur discrète ou comme une valeur continue,
et dans un grand nombre de cas, le choix peut présenter un caractère relativement
arbitraire ou conventionnel. Par exemple, les notes mises par un correcteur à un
examen, peuvent théoriquement prendre toutes les valeurs comprises entre 0 et 20
et la variable être traitée comme continue. Mais, en pratique, le correcteur peut, ne
mettre que des notes entières, ou, avec une précision plus grande mais souvent
illusoire, noter au demi-point, ce qui incite à considérer la variable comme discrète.
En revanche, la moyenne des notes obtenues aux différentes épreuves d’un
examen doit toujours être traitée comme une variable continue.
De même, toute grandeur qui s’exprime en unité monétaire est par nature discrète,
puisqu’elle ne peut prendre que des valeurs successives distinctes. Mais en
pratique, pour peu que la grandeur étudiée concerne des montants importants par
rapport à l’unité monétaire utilisée, l’on pourra traiter la variable comme si elle était
continue. C’est généralement le cas pour les études sur les revenus et les
patrimoines des ménages.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 6
Il nous reste à définir la notion de variable d'un point de vue mathématique. Une
variable est une application pour laquelle on a un ensemble de départ : la
population étudiée et un ensemble d'arrivée qui va définir le type de la variable. A
chaque individu de l'ensemble de départ, on associe une seule valeur de l'ensemble
d'arrivée. Habituellement, une variable est désignée par une lettre majuscule, sauf
si elle prend une valeur particulière, auquel cas on utilise une lettre minuscule : par
exemple xi est la valeur de X prise par le ième élément, et X est la valeur moyenne
de X dans l’ensemble étudiée.
Nous retrouvons donc les deux types de variables étudiées précédemment :
les variables qualitatives : l'ensemble d'arrivée est un ensemble fini d'éléments
sans structure particulière ;
les variables quantitatives : l'ensemble d'arrivée est l'ensemble des nombres
réels.
Application : Revenons à notre exemple et appliquons l’ensemble des notations
précédentes.
Soit une population P d’effectif N=15 individus pour laquelle on étudie 4 variables : SEXE ; GROUPE ; note de FRANÇAIS ; note de MATHEMATIQUES.
Les variables, SEXE et GROUPE (GRPE) sont dites qualitatives, leurs modalités ne peuvent ni être mesurées ni se voir (directement) attribuer une valeur numérique. Les notes de français, toutes valeurs entières, seront considérées comme une variable quantitative discrète (FRAN). Les notes de mathématiques, elles, donnant lieu à une précision au centième, seront ici traitées comme une variable quantitative continue (MATH).
Après avoir précisé l’objet de l’observation, il nous reste à effectuer un petit détour du coté
des méthodes de collecte des données. Il existe plusieurs techniques pour procéder au
relevé d’informations. Le statisticien doit choisir entre elles en fonction des objectifs qu’il se
propose et des moyens dont il dispose.
On distingue deux grandes familles de procédés de collecte : l’enregistrement et l’enquête.
L’enregistrement. Ce système de collecte en continu est réalisé grâce à un dispositif
permanent de relevé des données.. Ce type de collecte n’est réalisé que pour les
grandeurs dont la connaissance présente un intérêt social ou économique élevé. Citons
comme exemple, l’état civil, la comptabilité des entreprises ou encore les bases de
données de statistiques économiques et financières internationales.
L’enquête. Ce système de collecte « discrète » est organisé de façon régulière (enquête
emploi, enquête sur les prix réalisées par Le Haut Commissariat au Plan au Maroc) ou
ponctuelle (sondages d’opinions ou études de marché). L’enquête peut être exhaustive (le
recensement) ou non exhaustive (sondage).
L’on pourrait encore affiner l’étude des techniques de collecte en distinguant les
enregistrements directement effectués par l’utilisateur, de ceux plus fréquents, qui
impliquent le recours au service d’un tiers, organismes de statistiques publiques ou
entreprises de sondage par exemple. Notons combien, il est toujours essentiel d’accorder
une attention soutenue aux définitions des concepts et des méthodes de collecte, aux
hypothèses retenues ou à la zone de pertinence des outils d’analyse sollicités. Nombre de
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 7
polémiques sur le nombre de chômeurs par exemple résultent de l’ignorance de ces
informations élémentaires.
Pour terminer cette présentation de la statistique descriptive, nous exposerons le plan suivi dans ce polycopié introductif. Dans les développements ultérieurs, nous mettrons l’accent sur les techniques de présentation et de résumé des données. Nous développerons successivement :
Traitement d'une variable qualitative ;
Traitement de deux variables qualitatives ;
Traitement d'une variable quantitative discrète ;
Traitement d'une variable quantitative continue ;
Traitement de deux variables quantitatives ;
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 8
1 - TRAITEMENT STATISTIQUE D'UNE VARIABLE QUALITATIVE
Notre exemple repose ici sur deux variables, le SEXE et le GROUPE. La variable SEXE peut prendre deux types de modalités différentes : F (fille) ou G (garçon) ; la variable GROUPE, prend les trois modalités A, B, C.
Ces deux variables sont manifestement de type qualitatif, puisqu’elles ne sont pas chiffrables.
Nous chercherons d'abord à présenter correctement cette distribution à deux variables et à en calculer les fréquences, pour ensuite la représenter par des graphiques appropriés.
1.1 Distribution d'effectif et fréquence d'une variable qualitative
La fréquence correspond au nombre de fois où la modalité apparaît proportionnellement à la population totale étudiée. Les fréquences sont obtenues en faisant le rapport des effectifs sur l'effectif total et sont donc comprises entre 0 et 1. Les fréquences sont généralement exprimées en pourcentages et sont alors comprises entre 0 et 100.
L'avantage d'une distribution en fréquence est de permettre une meilleure lisibilité et comparabilité de l'information de départ. En effet, quel que soit l'effectif, toutes les lectures seront effectuées au regard d'une base 100.
On note :
Effectif total = N Effectif d’une variable : pour chaque valeur xi de la variable X on note ni son effectif, c’est à dire le nombre d’individus de la population qui présentent la modalité i. Fréquence de la variable xi = fi
On a donc :
ni = n1+n2+n3+… = N
fi = Nni
fi = f1+f2+f3+… = 1
Exemple : Distribution des effectifs et des fréquences de la variable GROUPE
Les 6 individus porteurs de la modalité A représentent 40% de la population totale, les modalités B et C, respectivement 33% et 27% des observations.
Commentaire : Une première lecture, par la colonne effectif, tend à illustrer un quasi équilibre
global de la distribution au regard de la variable GROUPE. Cependant , l’approche en termes de fréquence, sans toutefois nier cette première impression, nous amène à nuancer notre commentaire. La modalité A, avec 40% des observations, se distingue fortement des modalités B et C qui représentent respectivement 33% et 27% des observations.
GRPE
xi
Effectif
ni
Fréquence en
%
fi
Calcul
A 6 40 = 6/15
B 5 33 = 5 /15
C 4 27 = 4/15
Total 15 100
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 9
1.2 Représentation graphique d'une variable qualitative
La distribution des fréquences d'une variable qualitative peut être représentée soit par un diagramme en secteurs, soit par un diagramme en tuyaux d’orgue.
Dans le cas du diagramme en secteur, les modalités sont représentées par des aires. Si
l’on ne dispose pas de tableur nous permettant d’obtenir automatiquement un tel
graphique, il faudra calculer les angles des différents secteurs. Pour cela, on effectuera un
produit en croix en utilisant les fréquences correspondant aux modalités (360*fi/100). Ainsi,
on obtient la valeur de l’angle de la modalité A (144 degrés), B (118,8°) et C (97,2°).
Dans le cas du diagramme en tuyaux d’orgue les barres sont des rectangles de même
base et de hauteurs proportionnelles aux effectifs.
Notez que lorsque le nombre de modalités de la variable est important (plus que 5) et les valeurs insuffisamment contrastées, il est préférable de recourir au diagramme en barres, plus lisible.
Exemple :
Remarque : La quasi équirépartition évoquée précédemment est amplement illustrée par l’un ou
l’autre de ces deux graphiques exprimés en fréquences.
Diagramme en secteurs
Distribution de la variable GROUPE
en fréquence en %
A
40%
B
33%
C
27%A
B
C
Diagramme en tuyaux d'orgue
Distribution de la variable GROUPE
en fréquence
40 33 27
0
10
20
30
40
50
A B C
Groupe
Fré
qu
en
ces e
n
po
urc
en
tag
e
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 10
2 - TRAITEMENT STATISTIQUE DE DEUX VARIABLES QUALITATIVES : DU TABLEAU DE CONTINGENCE AUX DISTRITUTIONS CONDITIONNELLES
Reprenons l'exemple initial, une population abordée sous l'angle de deux variables qualitatives, le SEXE (deux modalités : G ou F) et le GROUPE (trois modalités : A, B, C).
On étudie ici 6 sous-ensembles de la population (2 * 3 modalités) :
Les filles du groupe A,
Les garçons du groupe A,
Les filles du groupe B,
Les garçons du groupe B,
Les filles du groupe C,
Les garçons du groupe C.
2.1 Distributions conjointes et marginales des effectifs et des fréquences
Pour représenter la distribution d'effectifs et de fréquences de deux variables qualitatives X et Y on a recours à un tableau de contingence. C'est un tableau à double entrée qui regroupe les informations de notre population. Il représente ce qu’on appelle un tri croisé entre deux variables.
Chaque case (ligne i et colonne j) du tableau indique l’effectif nij des individus pour lesquels X = xi et Y = yj.
Exemple :
Distributions conjointes et marginales des effectifs des variables GROUPE & SEXE
GROUPE SEXE A B C Total
F 5 1 1 7
G 1 4 3 8
Total 6 5 4 15
On a ici trois distributions d'effectifs :
La distribution conjointe des deux variables qualitatives GROUPE & SEXE, correspondant
aux six effectifs de l'intérieur du tableau ;
La distribution marginale de la variable GROUPE, correspondant aux trois effectifs de la
dernière ligne ;
La distribution marginale de la variable SEXE, correspondant aux deux effectifs de la
dernière colonne.
Les notations standards d’un tableau de contingence sont les suivantes pour deux variables X à p modalités et Y à r modalités :
nij est l’effectif des individus pour lesquels X = xi et Y = yj ;
ni. =
r
j
ijn1
= effectif des individus pour lesquels X = xi
n.j =
p
i
ijn1
= effectif des individus pour lesquels Y = yj
Les ni. s’appellent marges en ligne et les n.j s’appellent marges en colonne.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 11
On obtient le tableau qui aura la forme suivante :
X / Y y1 … yj … yr Total
x1 n11 … … n1r n1. …
… … … … …
xi … … nij … … ni.
…
… … … … …
xp np1 … … npr np.
Total n.1 … n.j … n.r N
De la même façon que précédemment on obtient les distributions conjointes et marginales des fréquences de cette variable.
Exemple :
Tableau des distributions conjointes et marginales des variables SEXE et GROUPE
GROUPE SEXE A B C Total
F 33% 7% 7% 47%
G 7% 27% 20% 53%
Total 40% 33% 27% 100%
2.2 Représentations graphiques
Pour représenter graphiquement les variables qualitatives, plusieurs possibilités sont envisageables : diagrammes en bâton (ou en tuyau d’orgue), sectoriel (ou circulaire) ou en bandeaux (empilement). Néanmoins, quel que soit le graphique choisi, les proportions entre les effectifs ou les modalités devront être respectées.
Diagramme des fréquences des variables GROUPE et SEXE
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
A B C
GROUPE
Fré
qu
en
ces
F
G
Diagramme des fréquences des variables GROUPE et SEXE
0% 20% 40% 60% 80% 100%
A
B
C
GR
OU
PE
Fréquences
F
G
Les filles du groupe A représentent 33%
des effectifs
Les élèves du groupe B
représentent 33% des effectifs
Il y a 53% de garçons dans la
population totale
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 12
2.3 Distributions conditionnelles
Il est possible de s'intéresser à des sous-populations particulières, par exemple à celles des filles, et étudier la distribution des effectifs et des fréquences selon les modalités de l'autre variable, le groupe. La distribution est alors appelée distribution des effectifs et des fréquences de la variable GROUPE conditionnellement à l'ensemble des FILLES.
Exemple :
Distributions des fréquences de la variable GROUPE conditionnellement à l'ensemble des FILLES :
GROUPE A B C Total
SEXE 5 1 1 7
F 71% 14% 14% 100%
Calcul =5/7 =1/7 =1/7
Les distributions conditionnelles sont présentées dans des tableaux de profils lignes et des tableaux de profils colonnes.
A partir du tableau de contingence suivant :
GROUPE SEXE A B C Total
F 5 1 1 7
G 1 4 3 8
Total 6 5 4 15
Le tableau des profils lignes donne les deux distributions de la variable GROUPE conditionnellement à la variable SEXE. La dernière ligne donne alors la distribution de fréquences de la variable GROUPE.
Exemple :
Tableau des profils lignes de la variable GROUPE conditionnellement à la variable SEXE
GROUPE SEXE A B C Total
F 71% 14% 14% 100%
Calcul =5/7 =1/7 =1/7
G 13% 50% 38% 100%
Calcul =1/8 =4/8 =3/8
Total 40% 33% 27% 100%
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 13
Diagramme des fréquences de la variable GROUPE
conditionnellement à la variable SEXE
14%
38%14%
50%71%
13%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
F G
SEXE
GR
OU
PE A
B
C
Commentaire : L’observation du graphique ci-dessus révèle une sur représentation du groupe A
parmi les filles (71 %) et une sous représentation parmi les garçons (13 %). A l'inverse, le groupe B est sur représenté chez les garçons (50 %) et sous représenté chez les filles (14%). La répartition de la variable GROUPE est donc très variable par sexe.
Le tableau des profils colonnes donne les trois distributions de la variable SEXE conditionnellement à la variable GROUPE. La dernière colonne donne alors la distribution de fréquences de la variable SEXE.
Exemple :
Tableau des profils colonnes de la variable SEXE conditionnellement à la variable GROUPE
GROUPE SEXE A B C Total
F 83% 20% 25% 47%
Calcul =5/7 =1/7 =1/7
G 17% 80% 75% 53%
Calcul =1/8 =4/8 =3/8
Total 100% 100% 100% 100%
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 14
Diagramme des fréquences de la variable SEXE
conditionnellement à la variable GROUPE
17%
80% 75%
83%
20% 25%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
A B C
GROUPE
SE
XE F
G
Commentaire : Alors qu'en moyenne les garçons représentent 53% du total des individus de
cette étude, ils sont largement sur représentés dans les groupes B et C (respectivement 80% et 75%) et nettement sous-représentés dans le groupe A avec 17%. A l'inverse, pour la sous-population des filles.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 15
2.4 Le KHI²
Le KHI2 est un indice qui mesure la liaison entre deux variables qualitatives. Nous sortons ici provisoirement de la statistique descriptive pour illustrer des développements possibles des outils présentés ici. Ce développement ne donnera pas lieu à interrogation.
Le Khi2 est nul lorsque les deux variables sont indépendantes, c'est-à-dire qu'il n'y a aucun lien entre les deux variables étudiées.
L'indépendance entre les deux variables se traduirait par une même proportion de filles et de garçons dans chacun des trois groupes. Dans notre exemple, on observe une certaine liaison entre la variable GROUPE et la variable SEXE, puisque le groupe C est composé presque exclusivement de filles (83%) et les groupes A et B presque exclusivement de garçons (80% et 75%).
2.4.1 Calcul du Khi2
On construit le tableau de contingence théorique d'indépendance, c'est-à-dire celui que l'on observerait dans le cas où les deux variables ne seraient pas liées. Dans ce tableau on doit
constater l'égalité des profils lignes et l'égalité des profils colonnes : .1
1
nn j
= … = .p
pj
nn
quel que soit j
et 1.
1
nni = … =
r
ir
nn
. quel que soit i. On obtient que l’indépendance théorique a lieu quand nij =
N
nn ji ...
On obtient donc le tableau de contingence suivant :
Tableau de contingence théorique
B A
b1 … bi … bj Total
a1
…
ai N
nn ji .. ni.
…
ap
Total n.j
Le Khi2 est le carré d'une distance entre la distribution conjointe observée (oij) et la distribution théorique d'indépendance (tij). Cet indice est nul si le tableau observé est identique au tableau théorique.
Khi2 =
p
i
r
jij
ijij
t
to
1 1
2
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 16
2.4.2 Exemple d'application du Khi2
Quatre étapes doivent être suivies pour obtenir une interprétation significative du Khi2 :
1. Construction du tableau théorique d'indépendance à partir du tableau de
contingence des variables GROUPE et SEXE ;
2. Construction du tableau de différence entre le tableau observé et le tableau
théorique ;
3. Calcul du Khi2 ;
4. Calcul du tableau de contribution du Khi2.
1 Construction du tableau théorique d'indépendance à partir du tableau de contingence des variables GROUPE et SEXE
On reprend le tableau de contingence observé des variables GROUPE & SEXE
Tableau de contingence observé des variables GROUPE et SEXE
GROUPE
SEXE A B C TOTAL
F O11 = 5 O12 = 1 O13 = 1 O1. = 7
G O21 = 1 O22 = 4 O23 = 3 O2. = 8
TOTAL O.1 = 6 O.2 = 5 O.3 = 4 N =15
On calcul le tableau théorique d'indépendance des variables de la manière suivante :
GROUPE
SEXE A B C TOTAL
F T11 = O.1 x O1. /N
= 6 x (7/15)
T12 = O.2 x O1. / N
= 5 x (7/15)
T13 = O.3 x O1. / N
= 4 x (7/15) T11 + T12 + T13
G T21 = O.1 x O2. / N
= 6 x (8/15)
T22 = O.2 x O2. / N
= 5 x (8/15)
T23 = O.3 x O2. / N
= 4 x (8/15) T21 + T22 + T23
TOTAL T11 + T21 T12 + T22 T13 + T23 N =15
Tableau théorique d'indépendance des variables GROUPE et SEXE
GROUPE
SEXE A B C TOTAL
F 2,80 2,33 1,87 7
G 3,20 2,67 2,13 8
TOTAL 5 4 6 15
2 - Construction du tableau de différence entre le tableau observé et le tableau théorique (Oij - Tij)
Tableau de différence entre le tableau observé et le tableau théorique (Oij - Tij)
GROUPE
SEXE A B C
F 2,20 -1,33 -0,87
G -2,20 1,33 0,87
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 17
On remarque que par rapport à l'indépendance :
Les filles sont sur-représentées dans le groupe A et sous-représentées dans les groupes B et
C ;
Les garçons sont sur-représentés dans les groupes B et C et sous-représentés dans le groupe
A
3 - Calcul du Khi2 :
p
i
r
jij
ijij
t
to
1 1
2
Tableau du Khi2
GROUPE Observé Théorique O - T (O - T)² (O - T)² / T
A 5 2,80 2,20 4,84 1,73
FILLES B 1 2,33 -1,33 1,78 0,76
C 1 1,87 -0,87 0,75 0,40
A 1 3,20 -2,20 4,84 1,51
GARCONS B 4 2,67 1,33 1,78 0,67
C 3 2,13 0,87 0,75 0,35
KHI2 5,42
4 - Calcul du tableau de contribution du Khi2
On peut également construire le tableau de contribution au Khi2 des modalités croisées des deux variables en divisant les six nombres par le Khi2.
Tableau de contribution du Khi2
GROUPE
SEXE A B C
F 32% 14% 7%
Calcul =1,73/5,42 =0,76/5,42 =0,40/5,42
G 28% 12% 6%
Calcul =1,51/5,42 =0,67/5,42 =0,35/5,42
Commentaire : On constate que ce sont les modalités (F et GROUPE A) puis (G et GROUPE A)
qui contribuent le plus au Khi2. C'est-à-dire que l'on a les mêmes conclusions que dans le tableau des différences : sur-représentation des filles dans le groupe A et sous-représentation des garçons.
Les contributions mettent en évidence les associations significatives des modalités, le signe de la différence (O-T) indiquant si l’association est positive ou négative.
Dans notre exemple, on obtient une contribution supérieure à 30% pour le groupe A et les filles. Cela indique une sur représentation significative de ces dernières dans le groupe A. En effet, on a O-T = 2.20 > 0.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 18
3 - TRAITEMENT STATISTIQUE D'UNE VARIABLE QUANTITATIVE
Parmi les variables quantitatives on distingue les variables quantitatives discrètes et les variables quantitatives continues.
Les variables discrètes ne prennent qu'un nombre fini de valeurs, par exemple le nombre
d'enfants par famille ;
Les variables continues prennent toutes les valeurs possibles d'un intervalle de nombres
réels. Par exemple le poids ou la taille d'une personne (240,23 Kg et 2.35 mètres !), le temps
d’attente à un guichet...
On ne peut pas toujours faire facilement la distinction entre les deux types de variables.
Généralement on a :
Si la variable étudiée peut prendre un petit nombre de valeurs distinctes on la considère
comme une variable quantitative discrète ;
Si la variable étudiée peut prendre un grand nombre de valeurs distinctes on la regroupe en
classes et on l'étudie comme une variable quantitative continue.
Dans tous les cas, le choix de l'étude doit être expliqué et interprété.
3.1 Distribution d'effectif et de fréquence d'une variable quantitative discrète
Pour obtenir la distribution d'effectifs et de fréquences d'une variable quantitative discrète, on procède en trois temps :
on classe les valeurs de la variable dans l'ordre croissant ;
on compte les effectifs qui s'y rapportent ;
enfin on calcule les fréquences pour chacune des modalités de la variable.
FRAN Effectif Fréquence
9 1 7%
10 3 20%
11 2 13%
12 4 27%
13 1 7%
14 1 7%
15 2 13%
16 1 7%
TOTAL 15 100%
Diagramme en bâtons de distribution de fréquences de la
variable FRAN
0%
5%
10%
15%
20%
25%
30%
9 10 11 12 13 14 15 16
Notes obtenues
Fré
qu
en
ces
Remarque : la hauteur de chaque "bâton" est proportionnelle à l'effectif et donc à la fréquence.
La distance entre les nombres réels est respectée. Le caractère discret de la variable est illustré directement par le caractère discontinu de l'axe horizontal, c'est à dire par la distance entre les nombres réels exprimant ses modalités.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 19
3.2 Effectifs cumulés et fréquences cumulées d'une variable quantitative discrète
A partir du tableau précédent on construit le tableau des cumuls.
FRAN EffectifEffectifs
cumulésFréquences
Fréquences
cumulées
9 1 1 7% 7%
10 3 4 20% 27%
11 2 6 13% 40%
12 4 10 27% 67%
13 1 11 7% 73%
14 1 12 7% 80%
15 2 14 13% 93%
16 1 15 7% 100%
TOTAL 15 100%
Le diagramme indique, pour toute valeur réelle x, l'effectif et la fréquence d'individus prenant une valeur inférieure ou égale à x4. La lecture peut s’effectuer soit de manière directe, soit complémentaire.
Diagramme des fréquences cumulées
de la variable FRAN
0,07
0,27
0,4
0,670,73
0,8
0,93
1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
9 10 11 12 13 14 15 16
Notes obtenues
Fré
qu
en
ces c
um
ulé
es
Il existe en fait deux définitions des fréquences cumulées :
- définition française : pourcentage d’individus dont le caractère est strictement inférieur à xi (somme des fréquences jusqu’à i-1) ;
- définition anglo-saxonne : pourcentage d’individus dont le caractère est inférieur ou égal à xi (somme des fréquences jusqu’à i).
4 Nous retenons ici la définition anglaise de la fréquence.
11 étudiants ont à ce niveau obtenu une note inférieure ou égale à 13
80% de la population étudiée a une note inférieure ou égale à 14
40% des étudiants ont à ce niveau obtenu une note inférieure ou égale à 11
20% de la population étudiée a une note supérieure à 14
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 20
3.3 Distribution d'effectif et de fréquence d'une variable quantitative continue
3.3.1 Regroupement en classe
Pour étudier une variable quantitative continue, on la regroupe par commodité en classes et on l'étudie comme une variable quantitative discrète.
Pour chaque classe, on repère :
- ses extrémités e0, e1, …ek. Par convention la borne supérieure d’une classe est toujours exclue de cette classe. La borne supérieure de la dernière classe est souvent déterminée avec une certaine part d’arbitraire (Quel est par exemple, la valeur donnée au revenu ou au patrimoine le plus élevé?).
- leur amplitude hi = différence entre la valeur maximale et la valeur minimale de la classe = ei – ei-1.
- leur effectif ni et leur fréquence fi.
- le centre de classes ci = 22
11
1
iii
ii eeeee
N.B. : le nombre de classes est le résultat de l’arbitrage du statisticien entre la recherche de la lisibilité et de la précision.
On obtient pour la variable MATH :
Remarque : La variable MATH, à la différence de la variable FRAN, ne prend pas que des valeurs
entières. C’est donc bien une variable de type continu.
3.3.2 Histogramme
L'histogramme par principe représente une distribution statistique d'une variable continue.
A chaque classe, on associe un rectangle dont la base est délimitée par les extrémités de la classe et dont l’aire est proportionnelle à l’effectif de la classe (ou à la fréquence). Sa construction nécessite de respecter l’hypothèse d’équirépartition des effectifs dans chaque classe.
Si toutes les classes ont la même amplitude (hi), on porte directement en ordonnée les effectifs (ou les fréquences). Dans le cas où les classes ne sont pas d’amplitude égale, il faut corriger les effectifs (ou les fréquences) de façon à ce que les surfaces des rectangles soient proportionnelles aux effectifs.
Pour cela, on va retenir une amplitude de base ao, ( correspond au Plus Grand Diviseur Commun PGDC des amplitudes). On va déterminer le multiple de cette amplitude de base pour chacune des classes : ki = hi/ao.
ClassesEffectifs
ni
Fréquences
fi en %Amplitude hi
[6 - 9[ 7 46,70 3
[9 - 11[ 5 33,30 2
[11 - 14[ 3 20,00 3
Total 15 100,00
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 21
On détermine enfin les effectifs corrigés ni’, ni’= ni/ki. On peut également utiliser les fréquences corrigées, fi’= fi/ki. L’ensemble de ces calculs est généralement présenté dans un tableau.
Exemple: L'énoncé regroupe ici les variables en 3 classes d'amplitudes inégales. Les
rectangles de l'histogramme ne peuvent donc avoir la même aire puisque les amplitudes sont différentes. Il nous faut donc corriger les effectifs selon la méthode précédente.
(amplitude de base a0 = 1)
La construction de l’histogramme se fait d’une part, en portant en ordonnée les fréquences divisées par les amplitudes, puis en abscisse les valeurs de la variable quantitative continue étudiée.
La construction de l’histogramme des notes obtenues en MATH après regroupement en classe est la suivante :
Histogramme des notes obtenues en MATH
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Notes Obtenues
Fré
qu
en
ces e
n %
co
rrig
ées
Commentaire : L'histogramme permet de percevoir ce qu'un graphique en bâton ordinaire aurait
dissimulé. La classe de notes relativement la plus importante n'est pas [6-9[, mais [9-11[ avec une fréquence corrigée de 15.6% contre 16.7%.
ClassesEffectifs
ni
Fréquences
fi en %
Multiple de
l'amplitude de
base
ki
Effectifs
corrigés
ni'
Fréquences
corrigées
fi' en %
[6 - 9[ 7 46,70 3 2,33 15,60
[9 - 11[ 5 33,30 2 2,50 16,70
[11 - 14[ 3 20,00 3 1,00 6,70
Total 15 100,00
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 22
3.4 Effectifs cumulés et fréquences cumulées d'une variable quantitative continue
On calcule à partir des effectifs et des fréquences les effectifs et fréquences cumulées :
Effectif cumulé de la ième
classe Ei =
i
k
kn1
;
Fréquence cumulée de la ième
classe : Fi =
i
k
kf1
.
L’exemple du paragraphe précédent nous permet d’obtenir le tableau suivant :
Le deuxième diagramme relatif à un caractère quantitatif continu s’appelle une courbe cumulée
continue (ou courbe cumulative continue). Elle représente la répartition de la variable continue.
Son tracé nécessite également de poser l’hypothèse d’équirépartition des effectifs à l’intérieur
de chaque classe. La courbe relie les points des bornes supérieures de chacune des classes par
des segments de droite.
Commentaire : cette courbe signifie par exemple qu’il y a 12 individus sur 15 qui ont obtenu une
note inférieure ou égale à 11 en math.
ClassesEffectifs
ni
Effectifs
cumulés
Ei
Fréquences fi
en %
Fréquences
cumulées Fi
en %
[6 - 9[ 7 7 46,70 46,70
[9 - 11[ 5 12 33,30 80,00
[11 - 14[ 3 15 20,00 100,00
Total 15 100,00
Répartition des notes obtenues en MATH
0
2
4
6
8
10
12
14
16
0 6 9 11 14 20
Classe des notes
Eff
ec
tifs
cu
mu
lés
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 23
Remarque : Afin de faciliter l’interprétation graphique des résultats, il est préférable de
représenter les fréquences cumulées sur l’axe des ordonnées. Ainsi, dans notre exemple, on constate que notre échantillon est représentatif d’une population ayant un niveau relativement moyen en MATH. En effet, 80% des individus ont une note inférieure à 11.
Répartition des notes obtenues en MATH
0
20
40
60
80
100
0 6 9 11 14 20
Notes
Fré
qu
en
ce
s c
um
ulé
es
en
%
3.5 Les indices de position et de dispersion
Les distributions des effectifs et des fréquences nécessitent, afin d'obtenir une analyse plus synthétique, d'être résumées par des indices numériques. Le statisticien distingue les indices de position et les indices de dispersion.
3.5.1 Indices de position
Les indices de position, ou de tendance centrale, permettent de définir une valeur autour de laquelle les autres se répartissent.
Le mode
Le mode est la valeur de la variable qui correspond au plus grand effectif.
Pour une variable continue, la classe modale est celle qui correspond au plus grand effectif si toutes les classes ont la même amplitude. Dans le cas où les amplitudes de classes diffèrent, il faut corriger les effectifs. La classe modale est alors celle qui représente l’effectif le plus élevé par unité d’amplitude.
Par exemple, pour la variable discrète FRAN le mode est 12 (effectif : 4) et pour la variable continue MATH la classe modale est [9 ;11[ (effectif corrigé = 2,5 = 5/2).
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 24
La moyenne arithmétique
La moyenne d'une variable X, généralement notée X , s'obtient en faisant la somme des valeurs
de la variable pondérées par leurs effectifs et en la divisant par le nombre d'individus.
Soit : - X une variable quantitative discrète définie sur une population de N individus ;
- x1,…xi,… les valeurs distinctes prises par X ;
- n1,…ni,… les effectifs de ces valeurs ;
- f1,…fi,… leurs fréquences.
On a les relations suivantes : fi = Nni , ni = N, fi = 1
La formule de la moyenne est alors : i
i
ii
ii
xfN
xn
X
Pour une variable continue, ce calcul se fait à l’aide des centres de classes :
i
ii
i
iii
i
i
i
eecaveccfN
cn
X2
1
Exemple: Pour la variable FRAN, la moyenne est 12,1 et pour la variable MATH de 9,3.
Commentaire: Les élèves recensés dans cet exemple ont une moyenne en français de presque
3 points supérieure à leur moyenne de maths. On a affaire à une population plutôt « littéraire ».
La médiane : elle correspond à la valeur qui sépare la population en deux sous-ensembles
d’effectifs égaux. Au regard du diagramme des effectifs cumulés et des fréquences cumulées,
la médiane est la valeur de la variable correspondant à la fréquence cumulée 50%.
Pour une variable discrète
La valeur médiane est la valeur Me de Xtelle que, immédiatement à gauche de Me, la fréquence cumulée F(Me) soit inférieure à 50% et, immédiatement à droite de Me, la fréquence cumulée F(Me) soit supérieure à 50%.
Si le nombre des observations est impair, le rang de la valeur médiane Me est (N+1)/2.
Exemple : N = 5 Xi = 6 ; 8 ; 4 ; 10 ; 9. Me(X) = ?
Commencez par classer par ordre (croissant) les valeurs observées. Xi = 4 ; 6 ; 8 ; 9 ; 10.
Calculez le rang de la médiane. Me = (N+1)/2. Ici (5+1)/2 = 3. Le rang de la médiane est 3.
La valeur médiane obtenue est donc 8.
Si le nombre des observations est pair, la solution réside dans un intervalle médian.
Exemple : N = 4 Xi = 6 ; 8 ; 4 ; 10. Me(X) = ?
Commencez par classer par ordre (croissant) les valeurs observées. Xi = 4 ; 6 ; 8 ;9.
Calculez le rang de la médiane. Me = 2,5 Les valeurs de la médiane sont donc celles de l'intervalle 6-8.
Certains statisticiens retiendront le centre de cet intervalle, à savoir la valeur 7.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 25
Exemple: Pour la variable FRAN, la population est impaire. La médiane correspond donc à la
valeur de l’individu de rang (N+1)/2 = 8. On obtient Me = 12
Pour une variable continue
Le parcours est ici plus long. A partir d'une lecture sur les fréquences cumulées, on repère d'abord dans quelle classe est située la médiane.
On fait ensuite l'hypothèse d'équirépartition. On suppose que les valeurs à l'intérieur de cette classe sont uniformément réparties.
Pour calculer la médiane on procède alors à une interpolation linéaire.
Exemple :
Pour la variable ci-dessus, on remarque que les 50% recherchés sont compris entre 46,7% et 80%, c'est-à-dire entre les notes 9 et 11.
On a donc :
xi = 9 => f (xi) = 0,467 (soit 46,7% ont une note inférieure à 9)
xi + 1 = 11=> f (xi+1) = 0,80 (soit 80% ont une note inférieure à 11)
La médiane appartient donc à la classe [9, 11[
On sait que la médiane est la valeur m qui correspond à une fréquence cumulée de 0,50 (soit 50%) :
F(Me) = 0,50
Donc, graphiquement, en utilisant la courbe des fréquences cumulées ascendantes, la médiane est le point d'abscisse qui correspond à 50% en ordonnée.
ClassesEffectifs
ni
Effectifs
cumulés
Ei
Fréquences
fi en %
Fréquences
cumulées Fi
en %
[6 - 9[ 7 7 46,70 46,70
[9 - 11[ 5 12 33,30 80,00
[11 - 14[ 3 15 20,00 100,00
Total 15 100,00
Répartition des notes obtenues en MATH
0
20
40
60
80
100
0 6 9 11 14 20
Notes
Fré
qu
en
ce
s c
um
ulé
es
en
%
Me
5 0A B
C
M
M'
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 26
Cependant, par la méthode graphique il n’est pas toujours aisé de déterminer avec précision la valeur de la médiane. Dans notre exemple notamment, l’échelle retenue nous permet de donner seulement une valeur grossière de la médiane (un peu moins de 9,5). Afin d’affiner notre approximation, on a recours à une méthode de calcul graphique : l’interpolation linéaire. Elle est issue d’un théorème bien connu qui permet de calculer la mesure de segments…le théorème de Thalès ( !…) : « le rapport de la plus petite mesure sur la plus grande pour chacun des deux segments des 2 droites sécantes, et le rapport de la plus petite mesure sur la plus grande pour les segments qui représentent les droites parallèles sont égaux ». Ainsi, dans le graphique ci-dessus, si l’on considère le triangle ABC, le point M sur le segment [AB] et le point M’ sur le segment [AC], on peut facilement en déduire la formule de la médiane :
Soit : BC
MM
AB
AM '
C’est-à-dire : 467,080,0
467,050,0
911
9
Me , donc Me = 9,2, ce qui signifie que 50% de la population a
obtenu une note inférieure à 9,2 et que 50% de la population a obtenu une note supérieure à 9,2.
Dans le cas général, la formule de la médiane obtenue par interpolation linéaire s’écrit :
ii
i
ii
i
xfxf
xfMef
xx
xMe
11
Commentaire: Les élèves recensés dans cet exemple ont une valeur médiane de leur note en
français de presque 3 points supérieure à celle de maths. On constate également que la moyenne et la médiane ont des valeurs très proches pour les deux séries de notes.
Les quartiles
Les quartiles, notés q1, q2, q3, sont les valeurs ordonnées de la variable qui partagent les valeurs de la population en quatre sous-ensembles d'effectifs égaux de 25%.
Ils correspondent donc aux fréquences cumulées 25%, 50%, 75% du diagramme de fréquences cumulées.
On obtient, par interpolation linéaire, les résultats suivants :
q1 = 0467,0
025,069
61
q d'où q1 = 7,6 c'est-à-dire 25% de la population étudiée a obtenu une note
inférieure ou égale à 7,6 ;
q2 = médiane = 9,2 c'est-à-dire 50% de la population étudiée a obtenu une note inférieure ou égale à 9,2 ;
q3 = 467,080,0467,075,0
911
93
q d'où q3 = 10,7 c'est-à-dire 75% de la population étudiée a obtenu une
note inférieure ou égale à 10,7.
Synthèse graphique
Les positions relatives du mode, de la médiane et de la moyenne arithmétique nous renseignent sur l’allure de la distribution.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 27
- Si la distribution est symétrique et unimodale, alors le mode, la médiane et la moyenne sont confondus.
- En revanche, si la moyenne est inférieure à la médiane elle-même inférieure au mode alors la distribution est dissymétrique avec étalement à gauche.
- Si la moyenne est supérieure à la médiane elle-même supérieure au mode alors la distribution est dissymétrique avec étalement à droite.
Distribution dissymétrique avec étalement à gauche
Distribution dissymétrique avec étalement à droite
Effectifs ni Effectifs ni
X Me Mode
Xi
Mode Me X
Xi
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 28
3.5.2 Indices de dispersion
Ce sont des indices qui permettent de mesurer la dispersion des valeurs d'une variable par rapport aux indices de tendance centrale, en particulier à la moyenne.
Ces indices sont utiles afin de mieux comprendre le comportement des variables étudiées. En effet, il arrive que la moyenne ne soit pas un outil suffisant pour comprendre les variables. Par exemple, si on prend le cas de 3 variables (notes obtenues sur 3 matières) X, Y, Z observées sur 6 individus :
indiv 1 indiv 2 indiv 3 indiv 4 indiv 5 indiv 6 Moyenne
X 12 10 7 11 11 9 10
Y 20 0 0 20 0 20 10
Z 10 10 10 10 10 10 10
On constate que les moyennes de ces variables sont toutes égales à 10. Or, la dispersion autour de la moyenne est très différente selon les variables étudiées. On observe une dispersion faible pour la variable X (les notes sont homogènes), une dispersion très élevée pour la variable Y (les notes varient de 0 à 20), et une dispersion nulle pour la variable Z (toutes les notes sont égales à 10).
Si l’on se contentait de résumer la distribution par la seule moyenne, on ne pourrait relever de différence entre les allures des distributions. Notre interprétation serait alors fausse. Pour remédier à ce défaut d'interprétation, il est utile de mesurer la dispersion des valeurs par rapport à leur moyenne grâce aux indices de dispersion.
L'étendue
L'étendue est la différence entre la plus grande et la plus petite valeur de la variable. Pour une
variable continue, l'étendue est la différence entre la borne supérieure de la dernière classe et la
borne inférieure de la première classe.
Exemple: Pour la variable FRAN, l’étendue est 7 = 16 - 9 et pour la variable MATH elle vaut 6,5
(13,08 - 6,58).
La variance (VAR)
La variance est égale à la moyenne des carrés des écarts à la moyenne, c'est-à-dire :
VAR (X) = 221 XxfXxnN
i
i
ii
i
i VAR (X) = 22221 XxfXxn
Ni
i
ii
i
i
Distribution des notes selon les groupes
par individus
0
5
10
15
20
25
X Y Z
Groupes
No
tes
i1
i2
i3
i4
i5
i6
moyenne
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 29
Si on reprend l'exemple précédent pour les variables X, Y et Z dont les moyennes sont égales à 10, on a :
indiv 1 indiv 2 indiv 3 indiv 4 indiv 5 indiv 6
xi 12 10 7 11 11 9
xi - 10 2 0 -3 1 1 -1
(xi-10)² 4 0 9 1 1 1
indiv 1 indiv 2 indiv 3 indiv 4 indiv 5 indiv 6
yi 20 0 0 20 0 20
yi - 10 10 -10 -10 10 -10 10
(yi-10)² 100 100 100 100 100 100
indiv 1 indiv 2 indiv 3 indiv 4 indiv 5 indiv 6
zi 10 10 10 10 10 10
zi - 10 0 0 0 0 0 0
(zi-10)² 0 0 0 0 0 0
VAR(Z) = 1/6 (0) = 0
VAR(X) = 1/6 (4+0+9+1+1+1) = 2,67
VAR(Y) = 1/6 (100+100+100+100+100+100) = 100
La variance peut néanmoins présenter certains inconvénients essentiellement liés à l'unité de mesure.
Par exemple, si une variable quantitative est mesurée en mètre, alors sa moyenne sera également mesurée en mètre, mais sa variance sera exprimée en mètre carré. Pour pallier ce problème et éviter de fausser les interprétations, on utilise l'écart type comme indice de dispersion.
Exemple: Pour la variable FRAN, la variance est de 4,1 et pour la variable MATH de 4.
L'écart type
L'écart type est égal à la racine carrée de la variance, et est donc mesuré dans la même unité que
la variable X. = 21
XVARXVAR
ATTENTION à la somme : VAR (X+Y) VAR (X) + VAR (Y)
(X + Y) (X) + (Y)
Exemple: Pour la variable FRAN, comme pour la variable MATH, l’écart type est de 2.
Le coefficient de variation (CV)
Le coefficient de variation est un indicateur de qualité de la moyenne qui se calcule comme le
rapport de l'écart type sur la moyenne, soit / X . Plus il est faible, plus la moyenne peut être
considérée comme un indicateur de synthèse fiable de la distribution, et inversement.
Exemple: Pour la variable FRAN, le coefficient de variation est de 0,17 et pour la variable MATH
de 0,21.
Commentaire: On constate que ces deux séries ne sont pas très dispersées autour de leur
moyenne (rappel : les valeurs sont comprises par définition entre 0 et 20).
Retour à l’exemple :
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 30
A l’aide des indicateurs vus précédemment, nous pouvons maintenant poursuivre l’analyse de l’exemple initial et approfondir la question de la performance scolaire comparée des filles et des garçons en lycée. Par simplification, nous considérerons ici que les variables FRAN et MATH sont toutes deux des variables quantitatives discrètes.
Il résulte que les performances scolaires par sexe sont, sur notre échantillon, globalement,
similaires avec un léger avantage aux garçons en raison de leurs résultats en maths, la moyenne arithmétique en témoigne.5 Les Garçons sembleraient aussi plus réguliers…
En Français, la moyenne est identique entre les deux groupes, Filles ou Garçons, à 12,1/20. En outre, les résultats sont plus homogènes pour les seconds que pour les premières (écart-type de 2,2 contre 1,8).
En Mathématique, la moyenne est de 9,6 /20 pour les Garçons, et de 9,1/20 pour les Filles. La dispersion est la plus grande pour les Filles (de 6,5 points, contre 4,25 pour les Garçons) qui obtiennent à la fois la meilleure note et la moins bonne.
5 Les faibles coefficients de variation nous portent à considérer les moyennes obtenues comme des indicateurs de synthèse fiables.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 31
4 - TRAITEMENT STATISTIQUE DE DEUX VARIABLES QUANTITATIVES : COEFFICIENT DE CORRÉLATION ET DROITE DE REGRESSION
Lorsque les variables sont discrètes ou continues (valeurs regroupées en classe), on peut représenter les distributions conjointes et marginales des effectifs et des fréquences comme on l'a fait pour les variables qualitatives, les modalités étant remplacées par les valeurs des variables ou les classes. Il en est de même pour les distributions conditionnelles des fréquences.
4.1 Distribution d'effectifs et de fréquences
A partir de l'exemple de la variable discrète FRAN et de la variable continue MATH (valeurs regroupées en trois classes), nous allons procéder au calcul des distributions conjointes et marginales des effectifs.
Exemple:
Distributions conjointes et marginales des effectifs des variables FRAN et MATH :
FRAN
MATH
1 2 2 1 1 0 0 0 7
0 1 0 2 0 0 2 0 5
0 0 0 1 0 1 0 1 3
1 3 2 4 1 1 2 1 15
14 15 16 TOTAL10 11 12 13
9 - 11
11 - 14
TOTAL
9
6 - 9
Distributions conjointes et marginales des fréquences des variables FRAN et MATH :
FRAN
MATH
7% 13% 13% 7% 7% 0% 0% 0% 47%
0% 7% 0% 13% 0% 0% 13% 0% 33%
0% 0% 0% 7% 0% 7% 0% 7% 20%
7% 20% 13% 27% 7% 7% 13% 7% 100%TOTAL
TOTAL
6 - 9
9 - 11
11 - 14
13 14 15 169 10 11 12
4.2 Représentation graphique
On peut représenter graphiquement deux variables quantitatives sur un graphique. Il indiquera alors les coordonnées d'un point dans un graphique appelé nuage de points. A partir du tableau des notes de français et de mathématiques, nous allons représenter les coordonnées des points dans un même graphique :
13% de la population étudiée a obtenu la note de 12 en Français ET une note comprise entre 9 et 11 en Mathématiques
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 32
Nuage de points des variables FRAN et MATH
6
8
10
12
14
16
6 8 10 12 14 16
FRAN
MA
TH
point moyen
Les deux variables quantitatives sont représentées sur le nuage de points suivant :
Commentaire :
On constate que l'ensemble des points, c'est-à-dire le nuage de points, n’est pas aligné.
Ce qui signifie que les deux variables FRAN et MATH ne sont pas fortement liées "linéairement", c'est-à-dire qu'elles ne prennent pas toujours en même temps des fortes valeurs ou des faibles
valeurs. Le point de coordonnées des moyennes G de FRAN et MATH, notées FRAN et MATH ,
est appelé point moyen ou centre de gravité.
4.3 Covariance et coefficient de corrélation linéaire
Pour chaque variable on peut résumer les valeurs et les liens qui relient les variables entre elles au travers de l'analyse de la covariance. On cherche à mesurer quel est le comportement d'une variable X lorsqu'une autre variable Y varie et inversement.
Plusieurs cas sont alors possibles :
Les deux variables varient en même temps, dans les mêmes proportions et dans le même
sens. Les produits (xi - X ) (yj - Y ) sont alors positifs, et leur moyenne est donc positive.
Les deux variables varient en sens inverse, c'est-à-dire, lorsque les valeurs de X sont
inférieures à leur moyenne, les valeurs de Y sont supérieures à leur moyenne, et
réciproquement. Les produits (xi - X ) (yj - Y ) sont alors négatifs, et leur moyenne est donc
négative.
Les deux variables ne varient pas ensemble, ni dans le même sens ni dans le sens contraire.
Certains produits sont positifs, d'autres négatifs, et leur moyenne sera proche de 0.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 33
4.3.1 La covariance
La covariance de deux variables quantitatives X et Y est égale à la moyenne des produits des différences à la moyenne, c'est-à-dire :
A partir du tableau initial des données on a : COV (X,Y) = N1
r
j 1
p
i 1
(Xi - X ) (Yj - Y )
A partir de la distribution d'effectifs et de fréquences du couple de variables (X, Y), c'est-à-dire soit
nij l'effectif des individus tels que X=xi et Y=yj et fij = N
nij la fréquence associée, on a :
COV (X,Y) = N1 nij (xi - X ) (yj - Y ) = fij (xi - X ) (yj - Y )
Il est à noter que l'on est ici en présence, comme pour la variance, d'un inconvénient lié à l'unité de mesure. En effet, supposons que la variable X soit mesurée en mètres et que la variable Y soit mesurée en kilogrammes, alors la covariance est mesurée en mètres x kilogrammes.
4.3.2 Le coefficient de corrélation linéaire
Pour remédier au problème lié à l'unité de mesure, on peut utiliser un indice de liaison sans unité
de mesure : le coefficient de corrélation linéaire, noté (X,Y). Le coefficient de corrélation linéaire est le rapport de la covariance sur le produit des écart-types de X et de Y :
(X,Y) =
YX
YXCOV
,
Le coefficient de corrélation linéaire est symétrique, et est compris entre - 1 et 1. Il est égal à - 1 ou 1 si et seulement s'il existe une relation linéaire entre les variables.
Sa lecture se fait de la façon suivante :
- tend vers 1 ou –1 : il existe une relation linéaire significative entre les variables ;
- [-0,75 ; 0,75] : il est admis qu’il n’existe pas de relation linéaire significative entre les variables.
Remarque : L'absence de corrélation linaire ne signifie pas absence totale de corrélation. Il existe
d'autres formes non linéaires de corrélation, exponentielle ou logarithmique par exemple.
4.4 Construction du tableau de calcul
Lorsque les données sont représentées dans un tableau de contingence, il faut alors reconstruire le tableau (xi, yi, ni). Si on reprend l'exemple des variables FRAN (Y) et MATH (X). La variable MATH étant regroupée en trois classes, il est d'usage de remplacer chaque classe par son centre de classe. Le tableau est alors le suivant :
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 34
Tableau reconstruit des variables FRAN et MATH :
FRAN MATH2
9 10 11 12 13 14 15 16 Total
7,5 1 2 2 1 1 0 0 0 7
10 0 1 0 2 0 0 2 0 5
12,5 0 0 0 1 0 1 0 1 3
Total 1 3 2 4 1 1 2 1 15
A partir de ce tableau on construit un autre tableau permettant de calculer les moyennes, les variances, les écart-types et la covariance.
Tableau de calcul intermédiaire
MATH (xi) FRAN (yi) ni nixi niyi nixi² niyi² nixiyi
7,5 9 1 7,5 9 56,25 81 67,5
7,5 10 2 15 20 112,5 200 150
7,5 11 2 15 22 112,5 242 165
7,5 12 1 7,5 12 56,25 144 90
7,5 13 1 7,5 13 56,25 169 97,5
10 10 1 10 10 100 100 100
10 12 2 20 24 200 288 240
10 15 2 20 30 200 450 300
12,5 12 1 12,5 12 156,25 144 150
12,5 14 1 12,5 14 156,25 196 175
12,5 16 1 12,5 16 156,25 256 200
15 140 182 1362,5 2270 1735
1 9,33 12,13 90,83 151,33 115,67
TOTAL
(1/15) x TOTAL
On obtient alors les résultats suivants :
Pour X :
X = ni xi = 9,33 ;
VAR (X) = N1 ni xi² -
2
X = 90,83 - (9,33)² =
3,72 ;
(X) = )(XVAR = 72,3 = 1,93
Pour Y :
Y = ni yi = 12,13 ;
VAR (Y) = N1 ni yi² - 2Y = 151,33 -
(12,13)² = 4,12 ;
(Y) = )(YVAR = 12,4 = 2,03
Pour X et Y :
COV (X,Y) = N1 ni (xi - X ) (yi - Y ) = fi (xi - X ) (yi - Y ) = 115,67 - 9,33 x 12,13 = 2,42
(X,Y).=
YX
YXCOV
,
= 03,293,1
42,2
= 0,62
Commentaire : Il n’existe pas de corrélation linéaire significative entre ces deux variables, notes
en maths et notes en français. Heureusement, non !
Le coefficient de corrélation linéaire est de 0.62, inférieur au seuil d'acceptation retenu (0.75).
Le graphe en nuage de points confirme cette absence de corrélation linéaire.
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 35
4.5 Droite de régression linéaire
Reprenons à présent l'exemple des notes obtenues pour les variables MATH 1 et MATH 2. Nous avons constaté que le nuage de points était très étiré et prenait une direction rectiligne. Il s'agit à présent de trouver la droite qui s'ajuste le mieux au nuage de points. Cette droite est appelée droite de régression linéaire.
Soit X, la variable MATH 1 et Y la variable MATH 2. Sachant que l'équation d'une droite est de la forme Y = a X + b, il s'agit de déterminer les coefficients a et b.
4.5.1 Droite de régression linéaire de Y en X
On projette tous les points sur une droite d'équation Y = a X + b, parallèlement à l'axe des Y, et on cherche a et b qui rendent minimum la moyenne des carrés des distances des points à la droite
selon cette direction. On a donc : a = XVAR
YXCOV , ; b = Y - a X
4.5.2 Droite de régression de X en Y
On projette tous les points sur une droite d'équation X = a' Y + b', parallèlement à l'axe des X, et on cherche a et b qui rendent minimum la moyenne des carrés des distances des points à la droite selon cette direction.
On obtient : a' = YVAR
YXCOV , ; b' = X - a' Y
Les deux droites de régression se coupent alors au point moyen de coordonnées ( X ,Y ).
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 36
Représentation graphique de FRAN & MATH 1
G
0
2
4
6
8
10
12
14
16
7 8 9 10 11 12 13 14 15 16
FRAN
MA
TH
1
Régression de X en Y
Régression de Y en X
Il faut noter que déterminer les deux droites de régression linéaire n'a de sens que si les deux variables jouent des rôles équivalents. Si une relation de causalité est supposée entre les deux variables, par exemple, la variable X est facilement observable et on souhaite prévoir les valeurs de Y qui sont plus difficiles à observer, en fonction des valeurs de X. on pose alors le modèle linéaire Y = a X + b. X étant la variable explicative et Y la variable à expliquer.
Propriétés: Lorsque la covariance de X et Y est nulle, les droites de régression linéaire sont perpendiculaires. Dans
tous les autres cas elles sont concourantes au point moyen et sont toutes les deux croissantes (a et a' sont positifs) ou toutes les deux décroissantes (a et a' sont négatifs).
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 37
Commentaire final : Grâce à l’ensemble des outils statistiques utilisés, on peut établir un
certain nombre de commentaires sur les données proposées initialement à notre analyse :
- la répartition suivant le sexe n’est pas uniforme dans les groupes : il y a beaucoup plus de filles que de garçons dans le groupe A et inversement pour les deux autres groupes ;
- les élèves étudiés obtiennent de meilleures notes en français qu’en maths en moyenne (3 points de plus sur 20) ;
- les performances scolaires par sexe sont, sur notre échantillon, globalement similaires, avec un léger avantage aux garçons en raison de leurs meilleurs résultats en maths ;
- les garçons semblent aussi plus réguliers (moins d’écart dans leurs notes) ;
- il n’y a pas de lien entre les notes obtenues en français et en maths (les élèves bons en français ne le sont pas forcément aussi en maths).
Polycopié de statistique
Centre de formation des inspecteurs d’enseignement 38
Bibliographie
1. ALBRELLO Luc, BOURGEOIS Etienne, GUYOT Jean-Luc, Statistique descriptive, De Boeck, 2003.
2. BERNADET Maurice, Manuel de statistique descriptive, PUL, 1981.
3. BOURSIN Jean-Louis, Comprendre la statistique descriptive, A. Colin, 1991.
4. CHAUVAT Gérard, REAU Jean-Philippe, Statistiques descriptives, Résumé de cours, 85 exercices corrigés, 40 problèmes avec solutions, QCM, A. Colin, 2001.
5. GRAIS Bernard, Exercices corrigés de statistique descriptive : avec rappels de cours, Dunod, 1993.
6. MONINO Jean-Louis, KOSIANSKI Jean-Michel, LE CORNU François, Statistique descriptive, Rappel de cours, Questions de réflexion, Exercices d’entraînement, Annales corrigées, Dunod, 2000.
Polycopié de statistique Table des matières
Centre de formation des inspecteurs d’enseignement 39
TABLE DES MATIÈRES
INTRODUCTION ................................................................................................................................. 2
1 - Traitement statistique d'une variable qualitative ........................................................... 8
1.1 Distribution d'effectif et fréquence d'une variable qualitative ........................................... 8 1.2 Représentation graphique d'une variable qualitative ....................................................... 9
2 - Traitement statistique de deux variables qualitatives : du tableau de contingence aux distritutions conditionnelles ............................................................................................ 10
2.1 Distributions conjointes et marginales des effectifs et des fréquences .......................... 10 2.2 Représentations graphiques ......................................................................................... 11 2.3 Distributions conditionnelles .......................................................................................... 12 2.4 Le KHI² .......................................................................................................................... 15
2.4.1 Calcul du Khi2 ......................................................................................................................... 15 2.4.2 Exemple d'application du Khi2 ................................................................................................ 16
3 - Traitement statistique d'une variable quantitative ....................................................... 18
3.1 Distribution d'effectif et de fréquence d'une variable quantitative discrète ..................... 18 3.2 Effectifs cumulés et fréquences cumulées d'une variable quantitative discrète ............. 19 3.3 Distribution d'effectif et de fréquence d'une variable quantitative continue .................... 20
3.3.1 Regroupement en classe ....................................................................................................... 20 3.3.2 Histogramme .......................................................................................................................... 20
3.4 Effectifs cumulés et fréquences cumulées d'une variable quantitative continue ............ 21 3.5 Les indices de position et de dispersion ........................................................................ 23
3.5.1 Indices de position .................................................................................................................. 23 3.5.2 Indices de dispersion .............................................................................................................. 28
4 - Traitement statistique de deux variables quantitatives : coefficient de corrélation et droite de regression ................................................................................................................ 31
4.1 Distribution d'effectifs et de fréquences ......................................................................... 31 4.2 Représentation graphique ............................................................................................. 31 4.3 Covariance et coefficient de corrélation linéaire ............................................................ 32
4.3.1 La covariance ......................................................................................................................... 33 4.3.2 Le coefficient de corrélation linéaire ....................................................................................... 33
4.4 Construction du tableau de calcul ................................................................................. 33 4.5 Droite de régression linéaire ......................................................................................... 35
4.5.1 Droite de régression linéaire de Y en X ................................................................................. 35 4.5.2 Droite de régression de X en Y .............................................................................................. 35
BIBLIOGRAPHIE .............................................................................................................................. 38
TABLE DES MATIÈRES ..................................................................................................................... 39