1 INTRODUCTION...relatives des filles et des garçons en lycée. Pour ce faire, nous relevons les notes obtenues à deux épreuves test, en mathématiques et en français, d’une

CENTRE DE FORMATION DES INSPECTEURS D’ENSEIGNEMENT

RABAT, MAROC

ANNÉE 2015-2016

RESPONSABLES DE L'ENSEIGNEMENT :

Pr. Mohamed LATIFI

Pr. Abdelhak SGHIR

Polycopié de statistique

Centre de formation des inspecteurs d’enseignement 2

INTRODUCTION

Il est d’usage, lorsqu’on aborde une discipline nouvelle, de commencer par en donner une définition. L'objectif de la statistique est de collecter, d’analyser et d’interpréter de l'information (des ensembles d’observations) relative à un même phénomène et susceptible d’être caractérisée par un nombre.

A cette fin, le travail du statisticien comprend trois étapes :

- La collecte des données ;

- La présentation des données ;

- Le résumé des données.

Tout d’abord, la collecte des informations. En dépit des apparences, cette étape est essentielle et s’avère souvent complexe. Son bon déroulement suppose d’avoir répondu préalablement à trois questions :

- Quelles informations cherche-t-on à recueillir ? La réponse à cette question définit l’objet de la collecte.

- Auprès de qui ces informations seront-elles recueillies ? La réponse à cette question définit le sujet de la collecte.

- Comment ces informations seront-elles recueillies ? La réponse à cette question définit la méthode de la collecte.

Exemple : Nous nous intéresserons au travers de ce polycopié aux performances scolaires

relatives des filles et des garçons en lycée. Pour ce faire, nous relevons les notes obtenues à deux épreuves test, en mathématiques et en français, d’une population composée de 15 élèves de lycée extraits de trois classes.

Deuxième étape, la présentation des données. Une fois les données collectées, il importe « d’organiser » la statistique obtenue. Cette présentation prend la forme de tableaux et de graphiques.

Exemple : Pour reprendre notre exemple, et pour en rester à une toute première

présentation, nous pouvons construire un tableau de données à cinq colonnes reprenant l’ensemble de l’information obtenue. L’on écrit en ligne les individus (15) et en colonnes les variables étudiées (quatre : SEXE ; GROUPE ; note de FRANÇAIS ; note de MATHEMATIQUES). Nous obtenons le tableau suivant :

IDENTITE SEXE GRPE FRAN MATH

a G B 10,00 7,92

b G B 15,00 10,75

c G B 15,00 10,00

d F B 16,00 13,08

e G B 12,00 9,75

f G C 12,00 9,58

g F C 14,00 12,92

h G C 10,00 10,25

i G C 12,00 11,25

j F A 11,00 7,67

k G A 11,00 7,00

l F A 12,00 6,58

m F A 9,00 7,50

n F A 10,00 7,67

o F A 13,00 8,08



Note de

FRANCAISEffectif

9 1

10 3

11 2

12 4

13 1

14 1

15 2

16 1

Total 15

Répartition des notes de français

0

1

2

3

4

5

9 10 11 12 13 14 15 16

Notes sur 20

Eff

ecti

f

Pour percevoir combien un tableau bien construit améliore la lisibilité de l’information, nous nous intéresserons aux seules notes de français. Nous présenterons un tableau comportant deux colonnes, l’une indiquant les notes de français, l’autre le nombre de lycéen concerné.

On peut également donner de ces résultats une présentation graphique. L’axe horizontal représentera les notes sur 20 et l’axe vertical le nombre de lycéen.

Un graphique, bien approprié, améliore tout particulièrement la lisibilité de l’information.

Troisième étape, le résumé des données. Paradoxalement, l’information exprimée dans un tableau ou visualisée par un graphique, est parfois trop riche pour être véritablement utile. La troisième étape va donc consister à définir et à calculer quelques paramètres qui expriment les caractéristiques principales de la distribution, et qui en quelque sorte, la « résument ».

Exemple : nous pourrions calculer la moyenne des notes obtenues à l’une et à l’autre des matières

du test. Elle est ici de 12 en français. Mais nous pourrions encore affiner ce travail de résumé en calculant un indicateur de dispersion de la distribution autour de la moyenne, par l’écart-type (nous y reviendrons). Il est ici d’environ 2 pour le test de français.

Les résultats ainsi obtenus seront beaucoup plus évocateurs, plus « parlants », que le tableau ou le graphique. Mais cette opération présente aussi, des inconvénients. Résumer la distribution, c’est accepter une perte d’information, et peut-être une déformation de l’information. Le statisticien doit en être conscient, et ne pas hésiter à revenir dans ses raisonnements ultérieurs sur la série de chiffres initiaux.

Au terme de ces trois étapes, le statisticien a décrit la population interrogée, sous l’angle particulier qui l’intéressait. Les méthodes qu’il a mises en œuvre au cours de cette démarche constituent la statistique descriptive, objet de cet enseignement.

La statistique descriptive vise ainsi à collecter, présenter et résumer des données1.

Au-delà de cette séquence générale, la mise en œuvre d’une démarche de statistique descriptive dépend en pratique de nature des variables retenues. Il nous faut donc, pour aller plus avant, éclaircir quelques points de vocabulaire statistique.

1 Il existe d’autres branches de la statistique. Elles font appel à des techniques plus élaborées tant sur le plan des mathémat iques que des

probabilités.



L’analyse statistique débute toujours par la collecte de données sur un ensemble de

référence concerné par l'objet de l'étude : la population (notée P). La population est

donc un ensemble finis d’éléments de même nature, qui sont objets de l’observation du

statisticien. Chaque élément d’une population est également dit individu ou unité

statistique souvent notée Ui.

Dans la mesure où il serait trop lourd d'étudier l'ensemble d'une population, on choisit2

d'en étudier une partie représentative, appelée échantillon.

L’effectif de la population (ou la taille de l'échantillon) correspond alors au nombre

d'individus3 qui composent cette population. On notera cet effectif N. Ainsi pour une

population P donnée, on a P= (U1, U2, U3,…, Ui,…Un).

Ces premières définitions permettent de définir le sujet de la collecte. Il reste donc à

préciser l’objet de l’observation.

L’objet de l’observation est dit caractère. Ainsi, sur une population donnée, le

statisticien peut s’intéresser simultanément à plusieurs caractéristiques des individus.

Sur une population humaine, par exemple, le statisticien peut relever entre autres l’âge,

le sexe, le poids, la couleur des yeux, la forme du crâne, l’opinion politique, l’origine

sociale… Le choix des caractères à observer est essentiel. Il doit permettre de

répondre à la problématique posée au départ. Il importe donc de ne pas ignorer un

caractère indispensable à l’analyse, mais tout autant de ne pas s’encombrer de

caractéristique sans importance.

Le statisticien distingue, pour l’analyse, trois types de caractères : qualitatif et

quantitatif discret ou quantitatif continu. La façon de traiter ces trois types de caractères

diffère sensiblement.

Le caractère qualitatif. Un caractère qualitatif diffère en nature d’une unité

statistique à une autre, et il ne peut donc ni être mesuré ni se voir (directement)

attribuer une valeur numérique. Ainsi, le sexe, la couleur des yeux, la forme du

crâne, l’opinion politique ou encore l’origine sociale d’un individu sont des

caractères qualitatifs.

On appellera modalité d’un caractère chacun des états que peuvent présenter les

unités statistiques. Par exemple, pour le sexe, deux états sont possibles : mâle ou

femelle. Pour l’origine sociale ou pour l’opinion politique, les choses sont plus

délicates et le statisticien aura en général recours à une typologie construite, une

nomenclature qui regroupe l’ensemble des modalités possibles.

Toute bonne nomenclature doit se conformer à deux principes : l’incompatibilité et

l’exhaustivité. Chaque individu étudié appartient à un seul sous-ensemble, c'est-à-

dire ne peut prendre qu'une seule modalité : c’est la propriété de l’incompatibilité.

En outre, la réunion des sous-ensembles recouvre la population étudiée. Toutes les

2 Cette pratique de l’échantillonnage est très fréquente en sociologie politique, avec les sondages d’opinion, mais également en sciences

d’éducation . A l’inverse, dans le cas des recensements de population, la prétention du statisticien est de tendre à l’exhaustivité. La collecte s’opère non sur échantillon, mais sur la totalité de la population. Mais le traitement statistique définitif sera long et coûteux. De ce fait, les recensements ne sont pratiqués que tous les 10 ans. 3 On voit ici combien le langage de la démographie, science humaine fort ancienne, a structuré celui de la statistique descriptive.



situations doivent être prévues, c’est-à-dire qu’un individu possède toujours l’une

des modalités : c’est la propriété de l’exhaustivité. Cette exigence conduit

fréquemment en pratique à prévoir des modalités qui permettent d’enregistrer des

cas particuliers, généralement peu nombreux, pour lesquels on a volontairement

refusé de créer des modalités supplémentaires ou pour lesquelles on ne dispose

pas d’informations suffisamment précises. Ainsi, la plupart des nomenclatures

incorporent une rubrique « Autres » ou « ND » (« non défini »).

Le caractère quantitatif. Un caractère est dit quantitatif lorsqu’il est « mesurable »,

c’est à dire lorsqu’on peut associer, à chaque modalité du caractère, un nombre qui

en exprime l’intensité. Les caractères quantitatifs diffèrent en intensité d’une unité

statistique à une autre. Ainsi, l’âge, la taille, le poids, sont des caractères

quantitatifs.

Il importe encore de distinguer entre caractère quantitatif discret et caractère

quantitatif continu.

Le caractère quantitatif discret. Les modalités de la variable sont

exprimées par des nombres isolés, entiers en général. Par exemple, si la

variable exprime le nombre de personnes dans un ménage, le nombre

d’enfants dans une famille, le nombre de places de stationnement ou encore

le nombre de véhicules par ménage, nous avons affaire à une variable

quantitative discrète.

Le caractère quantitatif continu. Les modalités de la variable peuvent

prendre toutes les valeurs comprises dans un intervalle donné, c’est à dire un

nombre infini de valeurs. De façon générale, toutes les grandeurs liées à

l’espace, au temps et à la masse sont par nature des variables quantitatives

continues.

Mais il n’est pas toujours facile de déterminer si une variable statistique doit être

considérée et traitée comme une grandeur discrète ou comme une valeur continue,

et dans un grand nombre de cas, le choix peut présenter un caractère relativement

arbitraire ou conventionnel. Par exemple, les notes mises par un correcteur à un

examen, peuvent théoriquement prendre toutes les valeurs comprises entre 0 et 20

et la variable être traitée comme continue. Mais, en pratique, le correcteur peut, ne

mettre que des notes entières, ou, avec une précision plus grande mais souvent

illusoire, noter au demi-point, ce qui incite à considérer la variable comme discrète.

En revanche, la moyenne des notes obtenues aux différentes épreuves d’un

examen doit toujours être traitée comme une variable continue.

De même, toute grandeur qui s’exprime en unité monétaire est par nature discrète,

puisqu’elle ne peut prendre que des valeurs successives distinctes. Mais en

pratique, pour peu que la grandeur étudiée concerne des montants importants par

rapport à l’unité monétaire utilisée, l’on pourra traiter la variable comme si elle était

continue. C’est généralement le cas pour les études sur les revenus et les

patrimoines des ménages.



Il nous reste à définir la notion de variable d'un point de vue mathématique. Une

variable est une application pour laquelle on a un ensemble de départ : la

population étudiée et un ensemble d'arrivée qui va définir le type de la variable. A

chaque individu de l'ensemble de départ, on associe une seule valeur de l'ensemble

d'arrivée. Habituellement, une variable est désignée par une lettre majuscule, sauf

si elle prend une valeur particulière, auquel cas on utilise une lettre minuscule : par

exemple xi est la valeur de X prise par le ième élément, et X est la valeur moyenne

de X dans l’ensemble étudiée.

Nous retrouvons donc les deux types de variables étudiées précédemment :

les variables qualitatives : l'ensemble d'arrivée est un ensemble fini d'éléments

sans structure particulière ;

les variables quantitatives : l'ensemble d'arrivée est l'ensemble des nombres

réels.

Application : Revenons à notre exemple et appliquons l’ensemble des notations

précédentes.

Soit une population P d’effectif N=15 individus pour laquelle on étudie 4 variables : SEXE ; GROUPE ; note de FRANÇAIS ; note de MATHEMATIQUES.

Les variables, SEXE et GROUPE (GRPE) sont dites qualitatives, leurs modalités ne peuvent ni être mesurées ni se voir (directement) attribuer une valeur numérique. Les notes de français, toutes valeurs entières, seront considérées comme une variable quantitative discrète (FRAN). Les notes de mathématiques, elles, donnant lieu à une précision au centième, seront ici traitées comme une variable quantitative continue (MATH).

Après avoir précisé l’objet de l’observation, il nous reste à effectuer un petit détour du coté

des méthodes de collecte des données. Il existe plusieurs techniques pour procéder au

relevé d’informations. Le statisticien doit choisir entre elles en fonction des objectifs qu’il se

propose et des moyens dont il dispose.

On distingue deux grandes familles de procédés de collecte : l’enregistrement et l’enquête.

L’enregistrement. Ce système de collecte en continu est réalisé grâce à un dispositif

permanent de relevé des données.. Ce type de collecte n’est réalisé que pour les

grandeurs dont la connaissance présente un intérêt social ou économique élevé. Citons

comme exemple, l’état civil, la comptabilité des entreprises ou encore les bases de

données de statistiques économiques et financières internationales.

L’enquête. Ce système de collecte « discrète » est organisé de façon régulière (enquête

emploi, enquête sur les prix réalisées par Le Haut Commissariat au Plan au Maroc) ou

ponctuelle (sondages d’opinions ou études de marché). L’enquête peut être exhaustive (le

recensement) ou non exhaustive (sondage).

L’on pourrait encore affiner l’étude des techniques de collecte en distinguant les

enregistrements directement effectués par l’utilisateur, de ceux plus fréquents, qui

impliquent le recours au service d’un tiers, organismes de statistiques publiques ou

entreprises de sondage par exemple. Notons combien, il est toujours essentiel d’accorder

une attention soutenue aux définitions des concepts et des méthodes de collecte, aux

hypothèses retenues ou à la zone de pertinence des outils d’analyse sollicités. Nombre de



polémiques sur le nombre de chômeurs par exemple résultent de l’ignorance de ces

informations élémentaires.

Pour terminer cette présentation de la statistique descriptive, nous exposerons le plan suivi dans ce polycopié introductif. Dans les développements ultérieurs, nous mettrons l’accent sur les techniques de présentation et de résumé des données. Nous développerons successivement :

Traitement d'une variable qualitative ;

Traitement de deux variables qualitatives ;

Traitement d'une variable quantitative discrète ;

Traitement d'une variable quantitative continue ;

Traitement de deux variables quantitatives ;



1 - TRAITEMENT STATISTIQUE D'UNE VARIABLE QUALITATIVE

Notre exemple repose ici sur deux variables, le SEXE et le GROUPE. La variable SEXE peut prendre deux types de modalités différentes : F (fille) ou G (garçon) ; la variable GROUPE, prend les trois modalités A, B, C.

Ces deux variables sont manifestement de type qualitatif, puisqu’elles ne sont pas chiffrables.

Nous chercherons d'abord à présenter correctement cette distribution à deux variables et à en calculer les fréquences, pour ensuite la représenter par des graphiques appropriés.

1.1 Distribution d'effectif et fréquence d'une variable qualitative

La fréquence correspond au nombre de fois où la modalité apparaît proportionnellement à la population totale étudiée. Les fréquences sont obtenues en faisant le rapport des effectifs sur l'effectif total et sont donc comprises entre 0 et 1. Les fréquences sont généralement exprimées en pourcentages et sont alors comprises entre 0 et 100.

L'avantage d'une distribution en fréquence est de permettre une meilleure lisibilité et comparabilité de l'information de départ. En effet, quel que soit l'effectif, toutes les lectures seront effectuées au regard d'une base 100.

On note :

Effectif total = N Effectif d’une variable : pour chaque valeur xi de la variable X on note ni son effectif, c’est à dire le nombre d’individus de la population qui présentent la modalité i. Fréquence de la variable xi = fi

On a donc :

ni = n1+n2+n3+… = N

fi = Nni

fi = f1+f2+f3+… = 1

Exemple : Distribution des effectifs et des fréquences de la variable GROUPE

Les 6 individus porteurs de la modalité A représentent 40% de la population totale, les modalités B et C, respectivement 33% et 27% des observations.

Commentaire : Une première lecture, par la colonne effectif, tend à illustrer un quasi équilibre

global de la distribution au regard de la variable GROUPE. Cependant , l’approche en termes de fréquence, sans toutefois nier cette première impression, nous amène à nuancer notre commentaire. La modalité A, avec 40% des observations, se distingue fortement des modalités B et C qui représentent respectivement 33% et 27% des observations.

GRPE

xi

Effectif

ni

Fréquence en

%

fi

Calcul

A 6 40 = 6/15

B 5 33 = 5 /15

C 4 27 = 4/15

Total 15 100



1.2 Représentation graphique d'une variable qualitative

La distribution des fréquences d'une variable qualitative peut être représentée soit par un diagramme en secteurs, soit par un diagramme en tuyaux d’orgue.

Dans le cas du diagramme en secteur, les modalités sont représentées par des aires. Si

l’on ne dispose pas de tableur nous permettant d’obtenir automatiquement un tel

graphique, il faudra calculer les angles des différents secteurs. Pour cela, on effectuera un

produit en croix en utilisant les fréquences correspondant aux modalités (360*fi/100). Ainsi,

on obtient la valeur de l’angle de la modalité A (144 degrés), B (118,8°) et C (97,2°).

Dans le cas du diagramme en tuyaux d’orgue les barres sont des rectangles de même

base et de hauteurs proportionnelles aux effectifs.

Notez que lorsque le nombre de modalités de la variable est important (plus que 5) et les valeurs insuffisamment contrastées, il est préférable de recourir au diagramme en barres, plus lisible.

Exemple :

Remarque : La quasi équirépartition évoquée précédemment est amplement illustrée par l’un ou

l’autre de ces deux graphiques exprimés en fréquences.

Diagramme en secteurs

Distribution de la variable GROUPE

en fréquence en %

A

40%

B

33%

C

27%A

B

C

Diagramme en tuyaux d'orgue

Distribution de la variable GROUPE

en fréquence

40 33 27

0

10

20

30

40

50

A B C

Groupe

Fré

qu

en

ces e

n

po

urc

en

tag

e



2 - TRAITEMENT STATISTIQUE DE DEUX VARIABLES QUALITATIVES : DU TABLEAU DE CONTINGENCE AUX DISTRITUTIONS CONDITIONNELLES

Reprenons l'exemple initial, une population abordée sous l'angle de deux variables qualitatives, le SEXE (deux modalités : G ou F) et le GROUPE (trois modalités : A, B, C).

On étudie ici 6 sous-ensembles de la population (2 * 3 modalités) :

Les filles du groupe A,

Les garçons du groupe A,

Les filles du groupe B,

Les garçons du groupe B,

Les filles du groupe C,

Les garçons du groupe C.

2.1 Distributions conjointes et marginales des effectifs et des fréquences

Pour représenter la distribution d'effectifs et de fréquences de deux variables qualitatives X et Y on a recours à un tableau de contingence. C'est un tableau à double entrée qui regroupe les informations de notre population. Il représente ce qu’on appelle un tri croisé entre deux variables.

Chaque case (ligne i et colonne j) du tableau indique l’effectif nij des individus pour lesquels X = xi et Y = yj.

Exemple :

Distributions conjointes et marginales des effectifs des variables GROUPE & SEXE

GROUPE SEXE A B C Total

F 5 1 1 7

G 1 4 3 8

Total 6 5 4 15

On a ici trois distributions d'effectifs :

La distribution conjointe des deux variables qualitatives GROUPE & SEXE, correspondant

aux six effectifs de l'intérieur du tableau ;

La distribution marginale de la variable GROUPE, correspondant aux trois effectifs de la

dernière ligne ;

La distribution marginale de la variable SEXE, correspondant aux deux effectifs de la

dernière colonne.

Les notations standards d’un tableau de contingence sont les suivantes pour deux variables X à p modalités et Y à r modalités :

nij est l’effectif des individus pour lesquels X = xi et Y = yj ;

ni. =

r

j

ijn1

= effectif des individus pour lesquels X = xi

n.j =

p

i

ijn1

= effectif des individus pour lesquels Y = yj

Les ni. s’appellent marges en ligne et les n.j s’appellent marges en colonne.



On obtient le tableau qui aura la forme suivante :

X / Y y1 … yj … yr Total

x1 n11 … … n1r n1. …

… … … … …

xi … … nij … … ni.

…

… … … … …

xp np1 … … npr np.

Total n.1 … n.j … n.r N

De la même façon que précédemment on obtient les distributions conjointes et marginales des fréquences de cette variable.

Exemple :

Tableau des distributions conjointes et marginales des variables SEXE et GROUPE


F 33% 7% 7% 47%

G 7% 27% 20% 53%

Total 40% 33% 27% 100%

2.2 Représentations graphiques

Pour représenter graphiquement les variables qualitatives, plusieurs possibilités sont envisageables : diagrammes en bâton (ou en tuyau d’orgue), sectoriel (ou circulaire) ou en bandeaux (empilement). Néanmoins, quel que soit le graphique choisi, les proportions entre les effectifs ou les modalités devront être respectées.

Diagramme des fréquences des variables GROUPE et SEXE

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

A B C

GROUPE

Fré

qu

en

ces

F

G

Diagramme des fréquences des variables GROUPE et SEXE

0% 20% 40% 60% 80% 100%

A

B

C

GR

OU

PE

Fréquences

F

G

Les filles du groupe A représentent 33%

des effectifs

Les élèves du groupe B

représentent 33% des effectifs

Il y a 53% de garçons dans la

population totale



2.3 Distributions conditionnelles

Il est possible de s'intéresser à des sous-populations particulières, par exemple à celles des filles, et étudier la distribution des effectifs et des fréquences selon les modalités de l'autre variable, le groupe. La distribution est alors appelée distribution des effectifs et des fréquences de la variable GROUPE conditionnellement à l'ensemble des FILLES.

Exemple :

Distributions des fréquences de la variable GROUPE conditionnellement à l'ensemble des FILLES :

GROUPE A B C Total

SEXE 5 1 1 7

F 71% 14% 14% 100%

Calcul =5/7 =1/7 =1/7

Les distributions conditionnelles sont présentées dans des tableaux de profils lignes et des tableaux de profils colonnes.

A partir du tableau de contingence suivant :


F 5 1 1 7

G 1 4 3 8

Total 6 5 4 15

Le tableau des profils lignes donne les deux distributions de la variable GROUPE conditionnellement à la variable SEXE. La dernière ligne donne alors la distribution de fréquences de la variable GROUPE.

Exemple :

Tableau des profils lignes de la variable GROUPE conditionnellement à la variable SEXE


F 71% 14% 14% 100%

Calcul =5/7 =1/7 =1/7

G 13% 50% 38% 100%

Calcul =1/8 =4/8 =3/8

Total 40% 33% 27% 100%



Diagramme des fréquences de la variable GROUPE

conditionnellement à la variable SEXE

14%

38%14%

50%71%

13%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

F G

SEXE

GR

OU

PE A

B

C

Commentaire : L’observation du graphique ci-dessus révèle une sur représentation du groupe A

parmi les filles (71 %) et une sous représentation parmi les garçons (13 %). A l'inverse, le groupe B est sur représenté chez les garçons (50 %) et sous représenté chez les filles (14%). La répartition de la variable GROUPE est donc très variable par sexe.

Le tableau des profils colonnes donne les trois distributions de la variable SEXE conditionnellement à la variable GROUPE. La dernière colonne donne alors la distribution de fréquences de la variable SEXE.

Exemple :

Tableau des profils colonnes de la variable SEXE conditionnellement à la variable GROUPE


F 83% 20% 25% 47%

Calcul =5/7 =1/7 =1/7

G 17% 80% 75% 53%

Calcul =1/8 =4/8 =3/8

Total 100% 100% 100% 100%



Diagramme des fréquences de la variable SEXE

conditionnellement à la variable GROUPE

17%

80% 75%

83%

20% 25%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

A B C

GROUPE

SE

XE F

G

Commentaire : Alors qu'en moyenne les garçons représentent 53% du total des individus de

cette étude, ils sont largement sur représentés dans les groupes B et C (respectivement 80% et 75%) et nettement sous-représentés dans le groupe A avec 17%. A l'inverse, pour la sous-population des filles.



2.4 Le KHI²

Le KHI2 est un indice qui mesure la liaison entre deux variables qualitatives. Nous sortons ici provisoirement de la statistique descriptive pour illustrer des développements possibles des outils présentés ici. Ce développement ne donnera pas lieu à interrogation.

Le Khi2 est nul lorsque les deux variables sont indépendantes, c'est-à-dire qu'il n'y a aucun lien entre les deux variables étudiées.

L'indépendance entre les deux variables se traduirait par une même proportion de filles et de garçons dans chacun des trois groupes. Dans notre exemple, on observe une certaine liaison entre la variable GROUPE et la variable SEXE, puisque le groupe C est composé presque exclusivement de filles (83%) et les groupes A et B presque exclusivement de garçons (80% et 75%).

2.4.1 Calcul du Khi2

On construit le tableau de contingence théorique d'indépendance, c'est-à-dire celui que l'on observerait dans le cas où les deux variables ne seraient pas liées. Dans ce tableau on doit

constater l'égalité des profils lignes et l'égalité des profils colonnes : .1

1

nn j

= … = .p

pj

nn

quel que soit j

et 1.

1

nni = … =

r

ir

nn

. quel que soit i. On obtient que l’indépendance théorique a lieu quand nij =

N

nn ji ...

On obtient donc le tableau de contingence suivant :

Tableau de contingence théorique

B A

b1 … bi … bj Total

a1

…

ai N

nn ji .. ni.

…

ap

Total n.j

Le Khi2 est le carré d'une distance entre la distribution conjointe observée (oij) et la distribution théorique d'indépendance (tij). Cet indice est nul si le tableau observé est identique au tableau théorique.

Khi2 =

p

i

r

jij

ijij

t

to

1 1

2



2.4.2 Exemple d'application du Khi2

Quatre étapes doivent être suivies pour obtenir une interprétation significative du Khi2 :

1. Construction du tableau théorique d'indépendance à partir du tableau de

contingence des variables GROUPE et SEXE ;

2. Construction du tableau de différence entre le tableau observé et le tableau

théorique ;

3. Calcul du Khi2 ;

4. Calcul du tableau de contribution du Khi2.

1 Construction du tableau théorique d'indépendance à partir du tableau de contingence des variables GROUPE et SEXE

On reprend le tableau de contingence observé des variables GROUPE & SEXE

Tableau de contingence observé des variables GROUPE et SEXE

GROUPE

SEXE A B C TOTAL

F O11 = 5 O12 = 1 O13 = 1 O1. = 7

G O21 = 1 O22 = 4 O23 = 3 O2. = 8

TOTAL O.1 = 6 O.2 = 5 O.3 = 4 N =15

On calcul le tableau théorique d'indépendance des variables de la manière suivante :

GROUPE

SEXE A B C TOTAL

F T11 = O.1 x O1. /N

= 6 x (7/15)

T12 = O.2 x O1. / N

= 5 x (7/15)

T13 = O.3 x O1. / N

= 4 x (7/15) T11 + T12 + T13

G T21 = O.1 x O2. / N

= 6 x (8/15)

T22 = O.2 x O2. / N

= 5 x (8/15)

T23 = O.3 x O2. / N

= 4 x (8/15) T21 + T22 + T23

TOTAL T11 + T21 T12 + T22 T13 + T23 N =15

Tableau théorique d'indépendance des variables GROUPE et SEXE

GROUPE

SEXE A B C TOTAL

F 2,80 2,33 1,87 7

G 3,20 2,67 2,13 8

TOTAL 5 4 6 15

2 - Construction du tableau de différence entre le tableau observé et le tableau théorique (Oij - Tij)

Tableau de différence entre le tableau observé et le tableau théorique (Oij - Tij)

GROUPE

SEXE A B C

F 2,20 -1,33 -0,87

G -2,20 1,33 0,87



On remarque que par rapport à l'indépendance :

Les filles sont sur-représentées dans le groupe A et sous-représentées dans les groupes B et

C ;

Les garçons sont sur-représentés dans les groupes B et C et sous-représentés dans le groupe

A

3 - Calcul du Khi2 :

p

i

r

jij

ijij

t

to

1 1

2

Tableau du Khi2

GROUPE Observé Théorique O - T (O - T)² (O - T)² / T

A 5 2,80 2,20 4,84 1,73

FILLES B 1 2,33 -1,33 1,78 0,76

C 1 1,87 -0,87 0,75 0,40

A 1 3,20 -2,20 4,84 1,51

GARCONS B 4 2,67 1,33 1,78 0,67

C 3 2,13 0,87 0,75 0,35

KHI2 5,42

4 - Calcul du tableau de contribution du Khi2

On peut également construire le tableau de contribution au Khi2 des modalités croisées des deux variables en divisant les six nombres par le Khi2.

Tableau de contribution du Khi2

GROUPE

SEXE A B C

F 32% 14% 7%

Calcul =1,73/5,42 =0,76/5,42 =0,40/5,42

G 28% 12% 6%

Calcul =1,51/5,42 =0,67/5,42 =0,35/5,42

Commentaire : On constate que ce sont les modalités (F et GROUPE A) puis (G et GROUPE A)

qui contribuent le plus au Khi2. C'est-à-dire que l'on a les mêmes conclusions que dans le tableau des différences : sur-représentation des filles dans le groupe A et sous-représentation des garçons.

Les contributions mettent en évidence les associations significatives des modalités, le signe de la différence (O-T) indiquant si l’association est positive ou négative.

Dans notre exemple, on obtient une contribution supérieure à 30% pour le groupe A et les filles. Cela indique une sur représentation significative de ces dernières dans le groupe A. En effet, on a O-T = 2.20 > 0.



3 - TRAITEMENT STATISTIQUE D'UNE VARIABLE QUANTITATIVE

Parmi les variables quantitatives on distingue les variables quantitatives discrètes et les variables quantitatives continues.

Les variables discrètes ne prennent qu'un nombre fini de valeurs, par exemple le nombre

d'enfants par famille ;

Les variables continues prennent toutes les valeurs possibles d'un intervalle de nombres

réels. Par exemple le poids ou la taille d'une personne (240,23 Kg et 2.35 mètres !), le temps

d’attente à un guichet...

On ne peut pas toujours faire facilement la distinction entre les deux types de variables.

Généralement on a :

Si la variable étudiée peut prendre un petit nombre de valeurs distinctes on la considère

comme une variable quantitative discrète ;

Si la variable étudiée peut prendre un grand nombre de valeurs distinctes on la regroupe en

classes et on l'étudie comme une variable quantitative continue.

Dans tous les cas, le choix de l'étude doit être expliqué et interprété.

3.1 Distribution d'effectif et de fréquence d'une variable quantitative discrète

Pour obtenir la distribution d'effectifs et de fréquences d'une variable quantitative discrète, on procède en trois temps :

on classe les valeurs de la variable dans l'ordre croissant ;

on compte les effectifs qui s'y rapportent ;

enfin on calcule les fréquences pour chacune des modalités de la variable.

FRAN Effectif Fréquence

9 1 7%

10 3 20%

11 2 13%

12 4 27%

13 1 7%

14 1 7%

15 2 13%

16 1 7%

TOTAL 15 100%

Diagramme en bâtons de distribution de fréquences de la

variable FRAN

0%

5%

10%

15%

20%

25%

30%

9 10 11 12 13 14 15 16

Notes obtenues

Fré

qu

en

ces

Remarque : la hauteur de chaque "bâton" est proportionnelle à l'effectif et donc à la fréquence.

La distance entre les nombres réels est respectée. Le caractère discret de la variable est illustré directement par le caractère discontinu de l'axe horizontal, c'est à dire par la distance entre les nombres réels exprimant ses modalités.



3.2 Effectifs cumulés et fréquences cumulées d'une variable quantitative discrète

A partir du tableau précédent on construit le tableau des cumuls.

FRAN EffectifEffectifs

cumulésFréquences

Fréquences

cumulées

9 1 1 7% 7%

10 3 4 20% 27%

11 2 6 13% 40%

12 4 10 27% 67%

13 1 11 7% 73%

14 1 12 7% 80%

15 2 14 13% 93%

16 1 15 7% 100%

TOTAL 15 100%

Le diagramme indique, pour toute valeur réelle x, l'effectif et la fréquence d'individus prenant une valeur inférieure ou égale à x4. La lecture peut s’effectuer soit de manière directe, soit complémentaire.

Diagramme des fréquences cumulées

de la variable FRAN

0,07

0,27

0,4

0,670,73

0,8

0,93

1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

9 10 11 12 13 14 15 16

Notes obtenues

Fré

qu

en

ces c

um

ulé

es

Il existe en fait deux définitions des fréquences cumulées :

- définition française : pourcentage d’individus dont le caractère est strictement inférieur à xi (somme des fréquences jusqu’à i-1) ;

- définition anglo-saxonne : pourcentage d’individus dont le caractère est inférieur ou égal à xi (somme des fréquences jusqu’à i).

4 Nous retenons ici la définition anglaise de la fréquence.

11 étudiants ont à ce niveau obtenu une note inférieure ou égale à 13

80% de la population étudiée a une note inférieure ou égale à 14

40% des étudiants ont à ce niveau obtenu une note inférieure ou égale à 11

20% de la population étudiée a une note supérieure à 14



3.3 Distribution d'effectif et de fréquence d'une variable quantitative continue

3.3.1 Regroupement en classe

Pour étudier une variable quantitative continue, on la regroupe par commodité en classes et on l'étudie comme une variable quantitative discrète.

Pour chaque classe, on repère :

- ses extrémités e0, e1, …ek. Par convention la borne supérieure d’une classe est toujours exclue de cette classe. La borne supérieure de la dernière classe est souvent déterminée avec une certaine part d’arbitraire (Quel est par exemple, la valeur donnée au revenu ou au patrimoine le plus élevé?).

- leur amplitude hi = différence entre la valeur maximale et la valeur minimale de la classe = ei – ei-1.

- leur effectif ni et leur fréquence fi.

- le centre de classes ci = 22

11

1

iii

ii eeeee

N.B. : le nombre de classes est le résultat de l’arbitrage du statisticien entre la recherche de la lisibilité et de la précision.

On obtient pour la variable MATH :

Remarque : La variable MATH, à la différence de la variable FRAN, ne prend pas que des valeurs

entières. C’est donc bien une variable de type continu.

3.3.2 Histogramme

L'histogramme par principe représente une distribution statistique d'une variable continue.

A chaque classe, on associe un rectangle dont la base est délimitée par les extrémités de la classe et dont l’aire est proportionnelle à l’effectif de la classe (ou à la fréquence). Sa construction nécessite de respecter l’hypothèse d’équirépartition des effectifs dans chaque classe.

Si toutes les classes ont la même amplitude (hi), on porte directement en ordonnée les effectifs (ou les fréquences). Dans le cas où les classes ne sont pas d’amplitude égale, il faut corriger les effectifs (ou les fréquences) de façon à ce que les surfaces des rectangles soient proportionnelles aux effectifs.

Pour cela, on va retenir une amplitude de base ao, ( correspond au Plus Grand Diviseur Commun PGDC des amplitudes). On va déterminer le multiple de cette amplitude de base pour chacune des classes : ki = hi/ao.

ClassesEffectifs

ni

Fréquences

fi en %Amplitude hi

[6 - 9[ 7 46,70 3

[9 - 11[ 5 33,30 2

[11 - 14[ 3 20,00 3

Total 15 100,00



On détermine enfin les effectifs corrigés ni’, ni’= ni/ki. On peut également utiliser les fréquences corrigées, fi’= fi/ki. L’ensemble de ces calculs est généralement présenté dans un tableau.

Exemple: L'énoncé regroupe ici les variables en 3 classes d'amplitudes inégales. Les

rectangles de l'histogramme ne peuvent donc avoir la même aire puisque les amplitudes sont différentes. Il nous faut donc corriger les effectifs selon la méthode précédente.

(amplitude de base a0 = 1)

La construction de l’histogramme se fait d’une part, en portant en ordonnée les fréquences divisées par les amplitudes, puis en abscisse les valeurs de la variable quantitative continue étudiée.

La construction de l’histogramme des notes obtenues en MATH après regroupement en classe est la suivante :

Histogramme des notes obtenues en MATH

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Notes Obtenues

Fré

qu

en

ces e

n %

co

rrig

ées

Commentaire : L'histogramme permet de percevoir ce qu'un graphique en bâton ordinaire aurait

dissimulé. La classe de notes relativement la plus importante n'est pas [6-9[, mais [9-11[ avec une fréquence corrigée de 15.6% contre 16.7%.

ClassesEffectifs

ni

Fréquences

fi en %

Multiple de

l'amplitude de

base

ki

Effectifs

corrigés

ni'

Fréquences

corrigées

fi' en %

[6 - 9[ 7 46,70 3 2,33 15,60

[9 - 11[ 5 33,30 2 2,50 16,70

[11 - 14[ 3 20,00 3 1,00 6,70

Total 15 100,00



3.4 Effectifs cumulés et fréquences cumulées d'une variable quantitative continue

On calcule à partir des effectifs et des fréquences les effectifs et fréquences cumulées :

Effectif cumulé de la ième

classe Ei =

i

k

kn1

;

Fréquence cumulée de la ième

classe : Fi =

i

k

kf1

.

L’exemple du paragraphe précédent nous permet d’obtenir le tableau suivant :

Le deuxième diagramme relatif à un caractère quantitatif continu s’appelle une courbe cumulée

continue (ou courbe cumulative continue). Elle représente la répartition de la variable continue.

Son tracé nécessite également de poser l’hypothèse d’équirépartition des effectifs à l’intérieur

de chaque classe. La courbe relie les points des bornes supérieures de chacune des classes par

des segments de droite.

Commentaire : cette courbe signifie par exemple qu’il y a 12 individus sur 15 qui ont obtenu une

note inférieure ou égale à 11 en math.

ClassesEffectifs

ni

Effectifs

cumulés

Ei

Fréquences fi

en %

Fréquences

cumulées Fi

en %

[6 - 9[ 7 7 46,70 46,70

[9 - 11[ 5 12 33,30 80,00

[11 - 14[ 3 15 20,00 100,00

Total 15 100,00

Répartition des notes obtenues en MATH

0

2

4

6

8

10

12

14

16

0 6 9 11 14 20

Classe des notes

Eff

ec

tifs

cu

mu

lés



Remarque : Afin de faciliter l’interprétation graphique des résultats, il est préférable de

représenter les fréquences cumulées sur l’axe des ordonnées. Ainsi, dans notre exemple, on constate que notre échantillon est représentatif d’une population ayant un niveau relativement moyen en MATH. En effet, 80% des individus ont une note inférieure à 11.


0

20

40

60

80

100

0 6 9 11 14 20

Notes

Fré

qu

en

ce

s c

um

ulé

es

en

%

3.5 Les indices de position et de dispersion

Les distributions des effectifs et des fréquences nécessitent, afin d'obtenir une analyse plus synthétique, d'être résumées par des indices numériques. Le statisticien distingue les indices de position et les indices de dispersion.

3.5.1 Indices de position

Les indices de position, ou de tendance centrale, permettent de définir une valeur autour de laquelle les autres se répartissent.

Le mode

Le mode est la valeur de la variable qui correspond au plus grand effectif.

Pour une variable continue, la classe modale est celle qui correspond au plus grand effectif si toutes les classes ont la même amplitude. Dans le cas où les amplitudes de classes diffèrent, il faut corriger les effectifs. La classe modale est alors celle qui représente l’effectif le plus élevé par unité d’amplitude.

Par exemple, pour la variable discrète FRAN le mode est 12 (effectif : 4) et pour la variable continue MATH la classe modale est [9 ;11[ (effectif corrigé = 2,5 = 5/2).



La moyenne arithmétique

La moyenne d'une variable X, généralement notée X , s'obtient en faisant la somme des valeurs

de la variable pondérées par leurs effectifs et en la divisant par le nombre d'individus.

Soit : - X une variable quantitative discrète définie sur une population de N individus ;

- x1,…xi,… les valeurs distinctes prises par X ;

- n1,…ni,… les effectifs de ces valeurs ;

- f1,…fi,… leurs fréquences.

On a les relations suivantes : fi = Nni , ni = N, fi = 1

La formule de la moyenne est alors : i

i

ii

ii

xfN

xn

X

Pour une variable continue, ce calcul se fait à l’aide des centres de classes :

i

ii

i

iii

i

i

i

eecaveccfN

cn

X2

1

Exemple: Pour la variable FRAN, la moyenne est 12,1 et pour la variable MATH de 9,3.

Commentaire: Les élèves recensés dans cet exemple ont une moyenne en français de presque

3 points supérieure à leur moyenne de maths. On a affaire à une population plutôt « littéraire ».

La médiane : elle correspond à la valeur qui sépare la population en deux sous-ensembles

d’effectifs égaux. Au regard du diagramme des effectifs cumulés et des fréquences cumulées,

la médiane est la valeur de la variable correspondant à la fréquence cumulée 50%.

Pour une variable discrète

La valeur médiane est la valeur Me de Xtelle que, immédiatement à gauche de Me, la fréquence cumulée F(Me) soit inférieure à 50% et, immédiatement à droite de Me, la fréquence cumulée F(Me) soit supérieure à 50%.

Si le nombre des observations est impair, le rang de la valeur médiane Me est (N+1)/2.

Exemple : N = 5 Xi = 6 ; 8 ; 4 ; 10 ; 9. Me(X) = ?

Commencez par classer par ordre (croissant) les valeurs observées. Xi = 4 ; 6 ; 8 ; 9 ; 10.

Calculez le rang de la médiane. Me = (N+1)/2. Ici (5+1)/2 = 3. Le rang de la médiane est 3.

La valeur médiane obtenue est donc 8.

Si le nombre des observations est pair, la solution réside dans un intervalle médian.

Exemple : N = 4 Xi = 6 ; 8 ; 4 ; 10. Me(X) = ?

Commencez par classer par ordre (croissant) les valeurs observées. Xi = 4 ; 6 ; 8 ;9.

Calculez le rang de la médiane. Me = 2,5 Les valeurs de la médiane sont donc celles de l'intervalle 6-8.

Certains statisticiens retiendront le centre de cet intervalle, à savoir la valeur 7.



Exemple: Pour la variable FRAN, la population est impaire. La médiane correspond donc à la

valeur de l’individu de rang (N+1)/2 = 8. On obtient Me = 12

Pour une variable continue

Le parcours est ici plus long. A partir d'une lecture sur les fréquences cumulées, on repère d'abord dans quelle classe est située la médiane.

On fait ensuite l'hypothèse d'équirépartition. On suppose que les valeurs à l'intérieur de cette classe sont uniformément réparties.

Pour calculer la médiane on procède alors à une interpolation linéaire.

Exemple :

Pour la variable ci-dessus, on remarque que les 50% recherchés sont compris entre 46,7% et 80%, c'est-à-dire entre les notes 9 et 11.

On a donc :

xi = 9 => f (xi) = 0,467 (soit 46,7% ont une note inférieure à 9)

xi + 1 = 11=> f (xi+1) = 0,80 (soit 80% ont une note inférieure à 11)

La médiane appartient donc à la classe [9, 11[

On sait que la médiane est la valeur m qui correspond à une fréquence cumulée de 0,50 (soit 50%) :

F(Me) = 0,50

Donc, graphiquement, en utilisant la courbe des fréquences cumulées ascendantes, la médiane est le point d'abscisse qui correspond à 50% en ordonnée.

ClassesEffectifs

ni

Effectifs

cumulés

Ei

Fréquences

fi en %

Fréquences

cumulées Fi

en %

[6 - 9[ 7 7 46,70 46,70

[9 - 11[ 5 12 33,30 80,00

[11 - 14[ 3 15 20,00 100,00

Total 15 100,00


0

20

40

60

80

100

0 6 9 11 14 20

Notes

Fré

qu

en

ce

s c

um

ulé

es

en

%

Me

5 0A B

C

M

M'



Cependant, par la méthode graphique il n’est pas toujours aisé de déterminer avec précision la valeur de la médiane. Dans notre exemple notamment, l’échelle retenue nous permet de donner seulement une valeur grossière de la médiane (un peu moins de 9,5). Afin d’affiner notre approximation, on a recours à une méthode de calcul graphique : l’interpolation linéaire. Elle est issue d’un théorème bien connu qui permet de calculer la mesure de segments…le théorème de Thalès ( !…) : « le rapport de la plus petite mesure sur la plus grande pour chacun des deux segments des 2 droites sécantes, et le rapport de la plus petite mesure sur la plus grande pour les segments qui représentent les droites parallèles sont égaux ». Ainsi, dans le graphique ci-dessus, si l’on considère le triangle ABC, le point M sur le segment [AB] et le point M’ sur le segment [AC], on peut facilement en déduire la formule de la médiane :

Soit : BC

MM

AB

AM '

C’est-à-dire : 467,080,0

467,050,0

911

9

Me , donc Me = 9,2, ce qui signifie que 50% de la population a

obtenu une note inférieure à 9,2 et que 50% de la population a obtenu une note supérieure à 9,2.

Dans le cas général, la formule de la médiane obtenue par interpolation linéaire s’écrit :

ii

i

ii

i

xfxf

xfMef

xx

xMe

11

Commentaire: Les élèves recensés dans cet exemple ont une valeur médiane de leur note en

français de presque 3 points supérieure à celle de maths. On constate également que la moyenne et la médiane ont des valeurs très proches pour les deux séries de notes.

Les quartiles

Les quartiles, notés q1, q2, q3, sont les valeurs ordonnées de la variable qui partagent les valeurs de la population en quatre sous-ensembles d'effectifs égaux de 25%.

Ils correspondent donc aux fréquences cumulées 25%, 50%, 75% du diagramme de fréquences cumulées.

On obtient, par interpolation linéaire, les résultats suivants :

q1 = 0467,0

025,069

61

q d'où q1 = 7,6 c'est-à-dire 25% de la population étudiée a obtenu une note

inférieure ou égale à 7,6 ;

q2 = médiane = 9,2 c'est-à-dire 50% de la population étudiée a obtenu une note inférieure ou égale à 9,2 ;

q3 = 467,080,0467,075,0

911

93

q d'où q3 = 10,7 c'est-à-dire 75% de la population étudiée a obtenu une

note inférieure ou égale à 10,7.

Synthèse graphique

Les positions relatives du mode, de la médiane et de la moyenne arithmétique nous renseignent sur l’allure de la distribution.



- Si la distribution est symétrique et unimodale, alors le mode, la médiane et la moyenne sont confondus.

- En revanche, si la moyenne est inférieure à la médiane elle-même inférieure au mode alors la distribution est dissymétrique avec étalement à gauche.

- Si la moyenne est supérieure à la médiane elle-même supérieure au mode alors la distribution est dissymétrique avec étalement à droite.

Distribution dissymétrique avec étalement à gauche

Distribution dissymétrique avec étalement à droite

Effectifs ni Effectifs ni

X Me Mode

Xi

Mode Me X

Xi



3.5.2 Indices de dispersion

Ce sont des indices qui permettent de mesurer la dispersion des valeurs d'une variable par rapport aux indices de tendance centrale, en particulier à la moyenne.

Ces indices sont utiles afin de mieux comprendre le comportement des variables étudiées. En effet, il arrive que la moyenne ne soit pas un outil suffisant pour comprendre les variables. Par exemple, si on prend le cas de 3 variables (notes obtenues sur 3 matières) X, Y, Z observées sur 6 individus :

indiv 1 indiv 2 indiv 3 indiv 4 indiv 5 indiv 6 Moyenne

X 12 10 7 11 11 9 10

Y 20 0 0 20 0 20 10

Z 10 10 10 10 10 10 10

On constate que les moyennes de ces variables sont toutes égales à 10. Or, la dispersion autour de la moyenne est très différente selon les variables étudiées. On observe une dispersion faible pour la variable X (les notes sont homogènes), une dispersion très élevée pour la variable Y (les notes varient de 0 à 20), et une dispersion nulle pour la variable Z (toutes les notes sont égales à 10).

Si l’on se contentait de résumer la distribution par la seule moyenne, on ne pourrait relever de différence entre les allures des distributions. Notre interprétation serait alors fausse. Pour remédier à ce défaut d'interprétation, il est utile de mesurer la dispersion des valeurs par rapport à leur moyenne grâce aux indices de dispersion.

L'étendue

L'étendue est la différence entre la plus grande et la plus petite valeur de la variable. Pour une

variable continue, l'étendue est la différence entre la borne supérieure de la dernière classe et la

borne inférieure de la première classe.

Exemple: Pour la variable FRAN, l’étendue est 7 = 16 - 9 et pour la variable MATH elle vaut 6,5

(13,08 - 6,58).

La variance (VAR)

La variance est égale à la moyenne des carrés des écarts à la moyenne, c'est-à-dire :

VAR (X) = 221 XxfXxnN

i

i

ii

i

i VAR (X) = 22221 XxfXxn

Ni

i

ii

i

i

Distribution des notes selon les groupes

par individus

0

5

10

15

20

25

X Y Z

Groupes

No

tes

i1

i2

i3

i4

i5

i6

moyenne



Si on reprend l'exemple précédent pour les variables X, Y et Z dont les moyennes sont égales à 10, on a :

indiv 1 indiv 2 indiv 3 indiv 4 indiv 5 indiv 6

xi 12 10 7 11 11 9

xi - 10 2 0 -3 1 1 -1

(xi-10)² 4 0 9 1 1 1


yi 20 0 0 20 0 20

yi - 10 10 -10 -10 10 -10 10

(yi-10)² 100 100 100 100 100 100


zi 10 10 10 10 10 10

zi - 10 0 0 0 0 0 0

(zi-10)² 0 0 0 0 0 0

VAR(Z) = 1/6 (0) = 0

VAR(X) = 1/6 (4+0+9+1+1+1) = 2,67

VAR(Y) = 1/6 (100+100+100+100+100+100) = 100

La variance peut néanmoins présenter certains inconvénients essentiellement liés à l'unité de mesure.

Par exemple, si une variable quantitative est mesurée en mètre, alors sa moyenne sera également mesurée en mètre, mais sa variance sera exprimée en mètre carré. Pour pallier ce problème et éviter de fausser les interprétations, on utilise l'écart type comme indice de dispersion.

Exemple: Pour la variable FRAN, la variance est de 4,1 et pour la variable MATH de 4.

L'écart type

L'écart type est égal à la racine carrée de la variance, et est donc mesuré dans la même unité que

la variable X. = 21

XVARXVAR

ATTENTION à la somme : VAR (X+Y) VAR (X) + VAR (Y)

(X + Y) (X) + (Y)

Exemple: Pour la variable FRAN, comme pour la variable MATH, l’écart type est de 2.

Le coefficient de variation (CV)

Le coefficient de variation est un indicateur de qualité de la moyenne qui se calcule comme le

rapport de l'écart type sur la moyenne, soit / X . Plus il est faible, plus la moyenne peut être

considérée comme un indicateur de synthèse fiable de la distribution, et inversement.

Exemple: Pour la variable FRAN, le coefficient de variation est de 0,17 et pour la variable MATH

de 0,21.

Commentaire: On constate que ces deux séries ne sont pas très dispersées autour de leur

moyenne (rappel : les valeurs sont comprises par définition entre 0 et 20).

Retour à l’exemple :



A l’aide des indicateurs vus précédemment, nous pouvons maintenant poursuivre l’analyse de l’exemple initial et approfondir la question de la performance scolaire comparée des filles et des garçons en lycée. Par simplification, nous considérerons ici que les variables FRAN et MATH sont toutes deux des variables quantitatives discrètes.

Il résulte que les performances scolaires par sexe sont, sur notre échantillon, globalement,

similaires avec un léger avantage aux garçons en raison de leurs résultats en maths, la moyenne arithmétique en témoigne.5 Les Garçons sembleraient aussi plus réguliers…

En Français, la moyenne est identique entre les deux groupes, Filles ou Garçons, à 12,1/20. En outre, les résultats sont plus homogènes pour les seconds que pour les premières (écart-type de 2,2 contre 1,8).

En Mathématique, la moyenne est de 9,6 /20 pour les Garçons, et de 9,1/20 pour les Filles. La dispersion est la plus grande pour les Filles (de 6,5 points, contre 4,25 pour les Garçons) qui obtiennent à la fois la meilleure note et la moins bonne.

5 Les faibles coefficients de variation nous portent à considérer les moyennes obtenues comme des indicateurs de synthèse fiables.



4 - TRAITEMENT STATISTIQUE DE DEUX VARIABLES QUANTITATIVES : COEFFICIENT DE CORRÉLATION ET DROITE DE REGRESSION

Lorsque les variables sont discrètes ou continues (valeurs regroupées en classe), on peut représenter les distributions conjointes et marginales des effectifs et des fréquences comme on l'a fait pour les variables qualitatives, les modalités étant remplacées par les valeurs des variables ou les classes. Il en est de même pour les distributions conditionnelles des fréquences.

4.1 Distribution d'effectifs et de fréquences

A partir de l'exemple de la variable discrète FRAN et de la variable continue MATH (valeurs regroupées en trois classes), nous allons procéder au calcul des distributions conjointes et marginales des effectifs.

Exemple:

Distributions conjointes et marginales des effectifs des variables FRAN et MATH :

FRAN

MATH

1 2 2 1 1 0 0 0 7

0 1 0 2 0 0 2 0 5

0 0 0 1 0 1 0 1 3

1 3 2 4 1 1 2 1 15

14 15 16 TOTAL10 11 12 13

9 - 11

11 - 14

TOTAL

9

6 - 9

Distributions conjointes et marginales des fréquences des variables FRAN et MATH :

FRAN

MATH

7% 13% 13% 7% 7% 0% 0% 0% 47%

0% 7% 0% 13% 0% 0% 13% 0% 33%

0% 0% 0% 7% 0% 7% 0% 7% 20%

7% 20% 13% 27% 7% 7% 13% 7% 100%TOTAL

TOTAL

6 - 9

9 - 11

11 - 14

13 14 15 169 10 11 12

4.2 Représentation graphique

On peut représenter graphiquement deux variables quantitatives sur un graphique. Il indiquera alors les coordonnées d'un point dans un graphique appelé nuage de points. A partir du tableau des notes de français et de mathématiques, nous allons représenter les coordonnées des points dans un même graphique :

13% de la population étudiée a obtenu la note de 12 en Français ET une note comprise entre 9 et 11 en Mathématiques



Nuage de points des variables FRAN et MATH

6

8

10

12

14

16

6 8 10 12 14 16

FRAN

MA

TH

point moyen

Les deux variables quantitatives sont représentées sur le nuage de points suivant :

Commentaire :

On constate que l'ensemble des points, c'est-à-dire le nuage de points, n’est pas aligné.

Ce qui signifie que les deux variables FRAN et MATH ne sont pas fortement liées "linéairement", c'est-à-dire qu'elles ne prennent pas toujours en même temps des fortes valeurs ou des faibles

valeurs. Le point de coordonnées des moyennes G de FRAN et MATH, notées FRAN et MATH ,

est appelé point moyen ou centre de gravité.

4.3 Covariance et coefficient de corrélation linéaire

Pour chaque variable on peut résumer les valeurs et les liens qui relient les variables entre elles au travers de l'analyse de la covariance. On cherche à mesurer quel est le comportement d'une variable X lorsqu'une autre variable Y varie et inversement.

Plusieurs cas sont alors possibles :

Les deux variables varient en même temps, dans les mêmes proportions et dans le même

sens. Les produits (xi - X ) (yj - Y ) sont alors positifs, et leur moyenne est donc positive.

Les deux variables varient en sens inverse, c'est-à-dire, lorsque les valeurs de X sont

inférieures à leur moyenne, les valeurs de Y sont supérieures à leur moyenne, et

réciproquement. Les produits (xi - X ) (yj - Y ) sont alors négatifs, et leur moyenne est donc

négative.

Les deux variables ne varient pas ensemble, ni dans le même sens ni dans le sens contraire.

Certains produits sont positifs, d'autres négatifs, et leur moyenne sera proche de 0.



4.3.1 La covariance

La covariance de deux variables quantitatives X et Y est égale à la moyenne des produits des différences à la moyenne, c'est-à-dire :

A partir du tableau initial des données on a : COV (X,Y) = N1

r

j 1

p

i 1

(Xi - X ) (Yj - Y )

A partir de la distribution d'effectifs et de fréquences du couple de variables (X, Y), c'est-à-dire soit

nij l'effectif des individus tels que X=xi et Y=yj et fij = N

nij la fréquence associée, on a :

COV (X,Y) = N1 nij (xi - X ) (yj - Y ) = fij (xi - X ) (yj - Y )

Il est à noter que l'on est ici en présence, comme pour la variance, d'un inconvénient lié à l'unité de mesure. En effet, supposons que la variable X soit mesurée en mètres et que la variable Y soit mesurée en kilogrammes, alors la covariance est mesurée en mètres x kilogrammes.

4.3.2 Le coefficient de corrélation linéaire

Pour remédier au problème lié à l'unité de mesure, on peut utiliser un indice de liaison sans unité

de mesure : le coefficient de corrélation linéaire, noté (X,Y). Le coefficient de corrélation linéaire est le rapport de la covariance sur le produit des écart-types de X et de Y :

(X,Y) =

YX

YXCOV

,

Le coefficient de corrélation linéaire est symétrique, et est compris entre - 1 et 1. Il est égal à - 1 ou 1 si et seulement s'il existe une relation linéaire entre les variables.

Sa lecture se fait de la façon suivante :

- tend vers 1 ou –1 : il existe une relation linéaire significative entre les variables ;

- [-0,75 ; 0,75] : il est admis qu’il n’existe pas de relation linéaire significative entre les variables.

Remarque : L'absence de corrélation linaire ne signifie pas absence totale de corrélation. Il existe

d'autres formes non linéaires de corrélation, exponentielle ou logarithmique par exemple.

4.4 Construction du tableau de calcul

Lorsque les données sont représentées dans un tableau de contingence, il faut alors reconstruire le tableau (xi, yi, ni). Si on reprend l'exemple des variables FRAN (Y) et MATH (X). La variable MATH étant regroupée en trois classes, il est d'usage de remplacer chaque classe par son centre de classe. Le tableau est alors le suivant :



Tableau reconstruit des variables FRAN et MATH :

FRAN MATH2

9 10 11 12 13 14 15 16 Total

7,5 1 2 2 1 1 0 0 0 7

10 0 1 0 2 0 0 2 0 5

12,5 0 0 0 1 0 1 0 1 3

Total 1 3 2 4 1 1 2 1 15

A partir de ce tableau on construit un autre tableau permettant de calculer les moyennes, les variances, les écart-types et la covariance.

Tableau de calcul intermédiaire

MATH (xi) FRAN (yi) ni nixi niyi nixi² niyi² nixiyi

7,5 9 1 7,5 9 56,25 81 67,5

7,5 10 2 15 20 112,5 200 150

7,5 11 2 15 22 112,5 242 165

7,5 12 1 7,5 12 56,25 144 90

7,5 13 1 7,5 13 56,25 169 97,5

10 10 1 10 10 100 100 100

10 12 2 20 24 200 288 240

10 15 2 20 30 200 450 300

12,5 12 1 12,5 12 156,25 144 150

12,5 14 1 12,5 14 156,25 196 175

12,5 16 1 12,5 16 156,25 256 200

15 140 182 1362,5 2270 1735

1 9,33 12,13 90,83 151,33 115,67

TOTAL

(1/15) x TOTAL

On obtient alors les résultats suivants :

Pour X :

X = ni xi = 9,33 ;

VAR (X) = N1 ni xi² -

2

X = 90,83 - (9,33)² =

3,72 ;

(X) = )(XVAR = 72,3 = 1,93

Pour Y :

Y = ni yi = 12,13 ;

VAR (Y) = N1 ni yi² - 2Y = 151,33 -

(12,13)² = 4,12 ;

(Y) = )(YVAR = 12,4 = 2,03

Pour X et Y :

COV (X,Y) = N1 ni (xi - X ) (yi - Y ) = fi (xi - X ) (yi - Y ) = 115,67 - 9,33 x 12,13 = 2,42

(X,Y).=

YX

YXCOV

,

= 03,293,1

42,2

= 0,62

Commentaire : Il n’existe pas de corrélation linéaire significative entre ces deux variables, notes

en maths et notes en français. Heureusement, non !

Le coefficient de corrélation linéaire est de 0.62, inférieur au seuil d'acceptation retenu (0.75).

Le graphe en nuage de points confirme cette absence de corrélation linéaire.



4.5 Droite de régression linéaire

Reprenons à présent l'exemple des notes obtenues pour les variables MATH 1 et MATH 2. Nous avons constaté que le nuage de points était très étiré et prenait une direction rectiligne. Il s'agit à présent de trouver la droite qui s'ajuste le mieux au nuage de points. Cette droite est appelée droite de régression linéaire.

Soit X, la variable MATH 1 et Y la variable MATH 2. Sachant que l'équation d'une droite est de la forme Y = a X + b, il s'agit de déterminer les coefficients a et b.

4.5.1 Droite de régression linéaire de Y en X

On projette tous les points sur une droite d'équation Y = a X + b, parallèlement à l'axe des Y, et on cherche a et b qui rendent minimum la moyenne des carrés des distances des points à la droite

selon cette direction. On a donc : a = XVAR

YXCOV , ; b = Y - a X

4.5.2 Droite de régression de X en Y

On projette tous les points sur une droite d'équation X = a' Y + b', parallèlement à l'axe des X, et on cherche a et b qui rendent minimum la moyenne des carrés des distances des points à la droite selon cette direction.

On obtient : a' = YVAR

YXCOV , ; b' = X - a' Y

Les deux droites de régression se coupent alors au point moyen de coordonnées ( X ,Y ).



Représentation graphique de FRAN & MATH 1

G

0

2

4

6

8

10

12

14

16

7 8 9 10 11 12 13 14 15 16

FRAN

MA

TH

1

Régression de X en Y

Régression de Y en X

Il faut noter que déterminer les deux droites de régression linéaire n'a de sens que si les deux variables jouent des rôles équivalents. Si une relation de causalité est supposée entre les deux variables, par exemple, la variable X est facilement observable et on souhaite prévoir les valeurs de Y qui sont plus difficiles à observer, en fonction des valeurs de X. on pose alors le modèle linéaire Y = a X + b. X étant la variable explicative et Y la variable à expliquer.

Propriétés: Lorsque la covariance de X et Y est nulle, les droites de régression linéaire sont perpendiculaires. Dans

tous les autres cas elles sont concourantes au point moyen et sont toutes les deux croissantes (a et a' sont positifs) ou toutes les deux décroissantes (a et a' sont négatifs).



Commentaire final : Grâce à l’ensemble des outils statistiques utilisés, on peut établir un

certain nombre de commentaires sur les données proposées initialement à notre analyse :

- la répartition suivant le sexe n’est pas uniforme dans les groupes : il y a beaucoup plus de filles que de garçons dans le groupe A et inversement pour les deux autres groupes ;

- les élèves étudiés obtiennent de meilleures notes en français qu’en maths en moyenne (3 points de plus sur 20) ;

- les performances scolaires par sexe sont, sur notre échantillon, globalement similaires, avec un léger avantage aux garçons en raison de leurs meilleurs résultats en maths ;

- les garçons semblent aussi plus réguliers (moins d’écart dans leurs notes) ;

- il n’y a pas de lien entre les notes obtenues en français et en maths (les élèves bons en français ne le sont pas forcément aussi en maths).



Bibliographie

1. ALBRELLO Luc, BOURGEOIS Etienne, GUYOT Jean-Luc, Statistique descriptive, De Boeck, 2003.

2. BERNADET Maurice, Manuel de statistique descriptive, PUL, 1981.

3. BOURSIN Jean-Louis, Comprendre la statistique descriptive, A. Colin, 1991.

4. CHAUVAT Gérard, REAU Jean-Philippe, Statistiques descriptives, Résumé de cours, 85 exercices corrigés, 40 problèmes avec solutions, QCM, A. Colin, 2001.

5. GRAIS Bernard, Exercices corrigés de statistique descriptive : avec rappels de cours, Dunod, 1993.

6. MONINO Jean-Louis, KOSIANSKI Jean-Michel, LE CORNU François, Statistique descriptive, Rappel de cours, Questions de réflexion, Exercices d’entraînement, Annales corrigées, Dunod, 2000.

Polycopié de statistique Table des matières


TABLE DES MATIÈRES

INTRODUCTION ................................................................................................................................. 2

1 - Traitement statistique d'une variable qualitative ........................................................... 8

1.1 Distribution d'effectif et fréquence d'une variable qualitative ........................................... 8 1.2 Représentation graphique d'une variable qualitative ....................................................... 9

2 - Traitement statistique de deux variables qualitatives : du tableau de contingence aux distritutions conditionnelles ............................................................................................ 10

2.1 Distributions conjointes et marginales des effectifs et des fréquences .......................... 10 2.2 Représentations graphiques ......................................................................................... 11 2.3 Distributions conditionnelles .......................................................................................... 12 2.4 Le KHI² .......................................................................................................................... 15

2.4.1 Calcul du Khi2 ......................................................................................................................... 15 2.4.2 Exemple d'application du Khi2 ................................................................................................ 16

3 - Traitement statistique d'une variable quantitative ....................................................... 18

3.1 Distribution d'effectif et de fréquence d'une variable quantitative discrète ..................... 18 3.2 Effectifs cumulés et fréquences cumulées d'une variable quantitative discrète ............. 19 3.3 Distribution d'effectif et de fréquence d'une variable quantitative continue .................... 20

3.3.1 Regroupement en classe ....................................................................................................... 20 3.3.2 Histogramme .......................................................................................................................... 20

3.4 Effectifs cumulés et fréquences cumulées d'une variable quantitative continue ............ 21 3.5 Les indices de position et de dispersion ........................................................................ 23

3.5.1 Indices de position .................................................................................................................. 23 3.5.2 Indices de dispersion .............................................................................................................. 28

4 - Traitement statistique de deux variables quantitatives : coefficient de corrélation et droite de regression ................................................................................................................ 31

4.1 Distribution d'effectifs et de fréquences ......................................................................... 31 4.2 Représentation graphique ............................................................................................. 31 4.3 Covariance et coefficient de corrélation linéaire ............................................................ 32

4.3.1 La covariance ......................................................................................................................... 33 4.3.2 Le coefficient de corrélation linéaire ....................................................................................... 33

4.4 Construction du tableau de calcul ................................................................................. 33 4.5 Droite de régression linéaire ......................................................................................... 35

4.5.1 Droite de régression linéaire de Y en X ................................................................................. 35 4.5.2 Droite de régression de X en Y .............................................................................................. 35

BIBLIOGRAPHIE .............................................................................................................................. 38

TABLE DES MATIÈRES ..................................................................................................................... 39

Documents

1 INTRODUCTION...relatives des filles et des garçons en lycée. Pour ce faire, nous relevons les notes obtenues à deux épreuves test, en mathématiques et en français, d’une