Les mesures de dispersion
Cours 5
Retour sur cours 4
Les mesures de dispersion › Étendue
› Variance et écart-type
› Coefficient de variation
Mesures de dispersion
La fonction «compute» ou «calculer»
2
Tableaux et graphiques
Mesures de
tendance
centrale
Mesures de
position
Mesures de
dispersion
Utilité Les tableaux présentent l’information relative aux données individuelles. Les graphiques donnent un profil général de la
distribution.
Permettent de résumer en un seul nombre, la valeur la plus représentative d’une série
statistique.
Renseignent sur la position d’une donnée par rapport aux autres données d’une
distribution ordonnée.
Mesurent le niveau de variation ou de dispersion des variables.
Types •Tableau de fréquences •Diagrammes à rectangles, circulaire, à bâtons •Histogramme
•Polygone de fréquence
•Moyenne •Mode et classe modale •Médiane
•Quartiles •Quintiles •Déciles •Centiles
•Étendue •Variance et Écart-type •Coefficient de
variation
Outils et mesures permettant de faire l’analyse descriptive détaillée des données et des distributions.
3
Les mesures de tendance centrale ne peuvent pas décrire pleinement une distribution de scores.
Les mesures de dispersion sont des indices qui caractérisent l'étalement des valeurs d'une distribution d'une variable autour d'une valeur centrale.
Les indices de dispersion permettent de savoir si les scores individuels se rapprochent ou s’éloignent beaucoup des mesures de tendance centrale.
4 indices principalement utilisés :
Étendue, variance, écart-type et coefficient de variation
Renseignent sur :
› L’étalement des données Étendue
› La variabilité des données Variance et écart-type
› L’homogénéité des données Coefficient de variation
Ne s’appliquent qu’aux variables quantitatives
5
Renseigne sur l’étalement des données
› Différence entre la valeur observée la plus élevée et
la valeur observée la moins élevée d’une distribution
de variables.
2 18
Étendue = Max – Min
Étendue = 18 – 2
Étendue = 16
Nombre de crimes commis durant le dernier mois
E = Vmax − Vmin
Par exemple, sur un nombre de crimes commis
Étendue (E)
Avantages
› Simplicité du calcul
Désavantages
› Basée seulement sur les valeurs extrêmes
› Information sommaire
7
8
Renseignent sur la variabilité des données
Variance
› Mesure la distance de chaque observation
par rapport à la moyenne.
σ2= S (xi - m)2
N Où S = somme de ...
xi = observations
m = moyenne
N = nombre de cas
L’écart-type
› Mesure la distance de chaque observation
par rapport à la moyenne. Il s’interprète mieux que la variance, car il donne les unités
utilisées dans l'échelle originale et non dans leur forme au carré.
› C’est tout simplement la racine carré de la
variance!
› On utilise l’écart-type corrigé en présence d’un
échantillon (n-1).
9
( )N
uxi 2-S
Règle empirique
pour une distribution normale
› Environ 68% des observations se
situent à ± 1σ de la moyenne.
› Environ 95% des observations se
situent à ± 2 σ de la moyenne.
› Environ 99,7 % des observations se
situent à ± 3 σ de la moyenne.
10
$ par transaction pour 1 gr. d’héroïne
Moyenne : 305/8= 40$
› Médiane=40$ et mode = 40$
Étendue: 60$-20$ = 40$
Variance et écart-type
1. Moyenne = 40$
2. Déviations : (40-40= 0); (20-40=-20); (60-40=20); (50-40=10); (40-
40= 0); (35-40= -5); (40-40= 0)
3. Carré des déviations: 0; 400; 400; 100; 0; 25; 0; 25; 0
4. Somme des carrés des déviations= 950
5. Moyenne des carrés des déviations (variance): 950/8=118,75$
6. Racine carrée de la variance (écart-type) =10,90$
11
40$ 20$ 60$ 50$ 40$ 35$ 35$ 40$
Interprétation de l’écart-type › 68% des transactions d’héroïne se situent entre ± 10,90$ de
la moyenne (40$)
donc entre 29,10$ et 50,90$
› 95% des transactions d’héroïne se situent entre ± 21,80$ de
la moyenne (40$)
donc entre 18,20$ et 61,80$
› 99,7% des transactions d’héroïne se situent entre ± 32,70$
de la moyenne (40$)
donc entre 7,30$ et 72,70$
12
Avantages › Mesures particulièrement représentatives de la réalité
lorsque la distribution est normale
› Tiennent compte de toutes les valeurs de la distribution
donc représentent bien sa dispersion
› Utiles pour comparer la dispersion d’une variable d’une
même population à des temps différents ou de populations semblables.
Désavantages › Mesures affectées par les valeurs extrêmes
› Difficultés d’interprétation liées au fait que la valeur de
l’écart-type varie selon les valeur de la variable. 13
L’écart-type est toujours ≥ à 0 parce que
les déviations sont au carré.
L’écart-type = 0 quand toutes les valeurs
observées sont égales.
Un grand écart-type ne signifie pas
nécessairement une grande dispersion.
14
Renseigne sur l’homogénéité des
données
› Permet d’évaluer l’importance relative de la
dispersion
donc de comparer des distributions entre
elles.
› Le CV divise l’écart-type par la moyenne.
CV= σ/µ ou CV= s/x
15
Transaction d’héroïne
($/gr)
› Moyenne = 40$
› Écart-type =10,90$
CV= 0,27 ou 27%
Transaction de cocaïne
($/gr)
› Moyenne =121$
› Écart-type = 64,21$
CV= 0,53 ou 53%
Interprétation
› Plus le CV est grand, plus
la dispersion des données
est grande.
› Plus le CV est faible (près de 0), plus les données
sont homogènes donc plus la moyenne est
représentative.
16
Avantages › C’est une mesure neutre, donc on peut comparer
l’homogénéité de plusieurs distributions entre elles, même
si leurs données ne sont pas exprimées avec les mêmes
unités de mesure .
› Prend en considération toutes les données.
Désavantage › Ne s’applique qu’aux variables quantitatives.
17
Médiane
Médiane
MoyenneMédianeet Mode
Normale
Asymétrique négative
Asymétrique positive
Mode
Mode
Moyenne
Moyenne
Sy
mé
trie
de
s d
istr
ibu
tio
ns
La symétrie › Mode = médiane =
moyenne
L’asymétrie › Négative: mode >
médiane > moyenne Concentration de fortes
valeurs
› Positive: mode < médiane < moyenne Concentration de faibles
valeurs
La symétrie des distributions
Mésokurtique: courbe normale (cloche)
Leptokurtique: courbe élancée
› haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne
› peu de variation : distribution relativement homogène
Platikurtique: courbe plate
› les cas s’éloignent de la moyenne
› forte variation : distribution relativement hétérogène
MoyenneMédianeet Mode
MoyenneMédianeet Mode
Normale
Leptokurtique
MoyenneMédianeet Mode
Platikurtique
Ku
rto
se
de
s d
istr
ibu
tio
ns
Asymétrie (skewness)
› Coefficient d’asymétrie utilisé pour vérifier si la distribution est normale
› On utilise le rapport entre le coefficient sur son erreur type (standard
error)
On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2
Distribution normale = skew=0
Applatissement (kurtosis)
› Coefficient d’applatissement utilisé pour vérifier si la distribution est
normale
› On utilise le rapport entre le coefficient sur son erreur type (standard
error)
On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2
Distribution normale = kurtosis =0
Pour obtenir les mesures de tendance centrale
et de dispersion
Analyse – Statistiques descriptives - Effectifs – Option Statistiques
22
Banque de données homicides Banque de données DUC Vols qualifiés
23
Banque de données homicides Banque de données DUC Vols qualifiés
Ratio: Exprime le poids relatif des effectifs d’une
catégorie sur le nombre total de données. › On compte 1 trafiquant sur 8 détenus
Taux : Rapport entre deux quantités
(Nb d’observation/Nb total) › Par exemple sur un nombre d’habitants :1000, 10 000, 100 000
› Taux d’homicide à Mtl en 1996
71 homicides
Population 1996 = 3 365 200 individus
Taux : (71/ 3 365 200 )* 100 000 habitants = 2,11 homicides par 100 000
habitants en 1996 (Mtl)
Comparativement à 2,07 homicides par 100 000 habitants (PQ) n=153
24