Statistique exploratoire
Thierry Dhorne
3 mars 2016
Méthode d’analyse
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 2 / 25
✉ on travaille d’abord variable par variable
statistique univariée✉ puis on s’intéresse aux variables deux à deux
pour étudier les liens
statistique bivariée✉ enfin on analyse le tableau globalement
pour faire une synthèse
statistique multivariée
⋆ pas étudiée dans ce cours
Exploration univariée d’une variablequalitative
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
❖ Présentation desdonnées
❖ Étude exploratoire
❖ Analyse critique
❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 3 / 25
Présentation des données
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
❖ Présentation desdonnées
❖ Étude exploratoire
❖ Analyse critique
❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 4 / 25
✉ population ou un échantillon d’effectif n sur laquelle estdéfinie une variable qualitative Y à I modalités yi
Exemple :Population : les étudiants d’une classe d’effectif 45.Sexe :
F HF HF HF F F F HF H H H H H H H H H HF
H HF H H HF F H H H H HF H H H HF H H H
Y = sexe ; variable qualitative de modalité yi : masculin /féminin où i = 1,2 (car 2 modalités)
Étude exploratoire
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
❖ Présentation desdonnées
❖ Étude exploratoire
❖ Analyse critique
❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 5 / 25
✉ information synthétique des données
tableau des effectifs ou des fréquences (absolues ourelatives)
yi ni fi
y1 = Homme 31 68.9 %y2 = Femme 14 31.1 %
total 45 100 %
Analyse critique
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
❖ Présentation desdonnées
❖ Étude exploratoire
❖ Analyse critique
❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 6 / 25
comparer par rapport à la fréquence dans la populationglobale des jeunes Français pour les mêmes classes d’âge
yi ni fi
y1 = Homme 2404787 50.5 %y2 = Femme 2355020 49.5 %
total 4759807 100 %
Restitution graphiqueDiagramme en barres ou en colonnes
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
❖ Présentation desdonnées
❖ Étude exploratoire
❖ Analyse critique
❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 7 / 25
M F
05
1015
2025
30
M F
0500
000100
0000
150000
0200
0000
Diagramme en barres de la variable sexe :
– à gauche population étudiante– à droite population de référence
Restitution graphiqueDiagramme en secteurs ou camembert
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
❖ Présentation desdonnées
❖ Étude exploratoire
❖ Analyse critique
❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert
Explorationunivariée d’unevariable quantitativeentière
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 8 / 25
M
F
M
F
Diagramme en secteurs de la variable sexe :
– à gauche population étudiante– à droite population de référence
Exploration univariée d’une variablequantitative entière
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 9 / 25
Présentation des données
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 10 / 25
✉ population d’effectif N sur laquelle est définie une variablequantitative discrète Z à c modalités zi .
Exemple :Population : les étudiants d’une classe d’effectif N=45.Nombre de bonnes réponses au QCM de statistique :7 6 5 5 6 4 8 3 4 5 4 4 9 5 3 8 7 6 5 8 8 8 6 9 7 7 8 7 6 10 2 89 5 6 6 10 8 7 7 5 6 4 8 7
Z = nombre de bonnes réponses ; variable quantitativediscrète de modalités zi : 2/3/4/5/6/7/8/9/10. Où i = 1,2,. . .,9
Étude exploratoire
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 11 / 25
✉ tableau de distribution statistique ou tableau de donnéesgroupées ou tri à plat
la distribution statistique associe à chaque valeur de lavariable Z , l’effectif et/ou la fréquence d’individus présentantcette valeur
valeur effectif fréquence effectif cumulé fréquence cumulée2 1 2.22 1 2.223 2 4.44 3 6.674 5 11.11 8 17.785 7 15.56 15 33.336 8 17.78 23 51.117 8 17.78 31 68.898 9 20.00 40 88.899 3 6.67 43 95.5610 2 4.44 45 100.00
Étude exploratoire
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 12 / 25
⋆ les effectifs sont parfois appelés fréquences absolues,dans ce cas on appelle les fréquences « fréquencesrelatives » pour éviter toute confusion
Étude graphiqueDiagramme en bâtons
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 13 / 25
outil le plus adapté pour visualiser une série statistiqueentière✉ pour chaque valeur de la variable on représente un bâton
dont la hauteur est la fréquence absolue ou relative (oumoins souvent la fréquence cumulée).
nbrep
Freque
ncy
2 4 6 8 10
02
46
8
Diagramme en bâtons du nombre de bonnes réponses - Effectifs
Étude graphiqueFonction de répartition empirique
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 14 / 25
✉ On peut aussi visualiser la fonction de répartitionempirique encore appelée courbe cumulative des fréquences
Fonction de répartition empirique
Fn(x) =nombre d′éléments dans l′échantillon≤ x
n
Étude graphiqueFonction de répartition empirique
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 15 / 25
2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
x
Fn(x
)
Résumé numérique
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 16 / 25
✉ caractéristiques de tendance centrale✉ autres indicateurs de position✉ caractéristiques de dispersion✉ caractéristiques de forme
Caractéristiques de tendance centrale
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 17 / 25
✉ pour caractériser le cœur (centre) de distribution
la notion de cœur est intuitive mais non rigoureuse
il existe donc plusieurs indicateurs
– le mode– la médiane– la moyenne
Mode
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 18 / 25
✉ c’est la valeur la plus fréquente (s’il n’y en a qu’une)
le mode n’est donc pas toujours défini
mais il est facile repérer visuellement
et parfois difficile à calculer
⋆ ne pas confondre mode et maximum (le mode correspondau maximum en ordonnée)✉ il peut exister des modes locaux (valeurs plus fréquentes
localement)
dans ce cas on parle de série multimodale (bimodale,trimodale,...)
Médiane
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 19 / 25
✉ c’est la valeur qui coupe l’échantillon ordonné en deuxparties égales
c’est-à-dire qui correspond à l’indice moyen pour la sérieordonnée
c’est un indicateur assez difficile à calculer (il faut trier lasérie)
Médiane
Soit la série statistique : {x1, x2, . . . , xr , . . . , xn}
On considère la série ordonnée :{x(1), x(2), . . . , x(s), . . . , x(n)}
La médiane vaut :
– si n = 2p +1, x(p+1)
– si n = 2p, x(p)+x(p+1)
2
Fonction de répartition empirique et médiane
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 20 / 25
✉ On peut visualiser la médiane sur la fonction de répartitionempirique
0.00.2
0.40.6
0.81.0
Fn(x)
Moyenne
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 21 / 25
✉ c’est l’indicateur le plus classiquement utilisé
très facile à calculer
il correspond au barycentre (point d’équilibre de la série)
Moyenne
x̄ =
1
n
n∑
r=1
xr =
∑Ii=1
ni xi∑I
i=1ni
Autres indicateurs de position
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 22 / 25
✉ on utilise d’autres indicateurs de position pour identifierdes positions non centrales de la série
proportions particulières
extrémités
....
Autres indicateurs de positionValeurs extrêmes
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 23 / 25
✉ il s’agit tout simplement
– du minimum– du maximum
de la série
Autres indicateurs de positionQuartiles
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 24 / 25
✉ on généralise la médiane qui coupe en deux la série
aux quartiles qui coupent en quatre
il y a donc 3 quartiles
⋆ dont le deuxième est la médiane✉ on considère donc le premier et le dernier (troisième
quartile)
le calcul exact des quartiles se fait par interpolation linéaire
Autres indicateurs de positionDéciles
❖ Méthoded’analyse
Explorationunivariée d’unevariable qualitative
Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées
❖ Étude exploratoire
❖ Diagramme enbâtons❖ Fonction derépartition empirique
❖ Résuménumérique
❖ Tendance centrale
❖ Mode
❖ Médiane
❖ Moyenne
❖ Autres indicateursde position
❖ Valeurs extrêmes
❖ Quartiles
❖ Déciles
T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 25 / 25
✉ on « coupe » la série en 10✉ on s’intéresse essentiellement aux déciles extrêmes
premier et dernier décile
pour avoir une idée de l’extension de la série