Upload
mokrzah
View
213
Download
1
Embed Size (px)
DESCRIPTION
aaaaaaaaaa
Citation preview
STAT0002 - Statistique descriptive
Transparents
Philippe Lambert
http : //www.statsoc.ulg.ac.be/statdescr.html
Institut des Sciences Humaines et Sociales
Universite de Lie`ge
Avertissement - Droits dauteur
Les supports de cours mis sur Internet ont pour seulevocation detre utilises par les etudiants dans le cadrede leur cursus au sein de lUniversite de Lie`ge. Aucunautre usage ni diffusion ne sont autorises, sous peinede constituer une violation de la Loi du 30 juin 1994relative aux droits dauteurs.
Les supports de cours mis sur Internet ne represententpas lentie`rete de la matie`re, mais constituent lesnotes de base indispensables et minimales a` la bonneconnaissance de celle-ci.
P. Lambert c - Institut des sciences humaines et sociales
References
Statistique descriptive:
Nimporte quel livre introductif a` la statistique peut convenir.
Quelques references en francais:
. Wonnacott T.H. et Wonnacott R.J. (1991, 4e`me edition) Statistique. Econom-
ica. ISBN 2-7178-2072-8. Prix: 40 euros.. Howell, D.C. (2008) Methodes statistiques en sciences humaines. De Boeck.
ISBN 978-2804156855. Prix: 55 euros.
Theorie statistique des sondages:
. Ardilly P. (2006) Les techniques de sondage. Editions Technip. ISBN 2-7108-
0847-1. Prix: 65 euros.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 1
Objectifs du cours
Montrer comment on peut resumer linformation disponible dans un ensemble dedonnees a` laide de quelques nombres et graphiques.
Presenter quelques concepts de la theorie des probabilites. Proposer, sur base des concepts precedents, une introduction aux aspects statis-
tiques de la theorie des sondages.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 2
Chapitre 1: Statistique descriptive
Objectif de la statistique descriptive: resumer les donnees. Nous allons organiser les donnees pour savoir quelles sont les valeurs observees
pour la (les) variable(s) et les frequences qui y sont attachees.
Outils utilises: tables, diagrammes et mesures numeriques.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 3
Types de variables
Une variable est une mesure qui peut prendre des valeurs differentes dun individua` un autre, dun groupe dindividus a` un autre.
Ex taille et poids dun individu, nombre denfants par couple, nombre dannees
detudes, salaires, QI, nombre daccidents de la route durant un WE. . .
On appelle donnees brutes lensemble des valeurs mesurees pour toutes les entitesconsiderees.
Ces variables sont de deux types possibles:
Variable qualitative / categorielle
La variable indique a` quelle categorie lentite (sur laquelle la mesure est effectuee)appartient.
Ex couleur des yeux, genre (homme ou femme), qualite de vie, humeur dune
personne, etc.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 4
Types de variables (2)
Ces donnees sont souvents resumee sous forme de tableaux (frequences, propor-tions ou pourcentages).
On distingue deux types de variable categorielle:. Les variables nominales:
categories distinctes non ordonnees auxquelles on peut assigner un nom.
Ex couleur des yeux, genre (homme ou femme).
. Les variables ordinales:
categories distinctes presentant un ordre. On ne peut pas quantifier la dis-
tance les separant.
Ex qualite de vie, humeur dune personne.
Souvent, on associe aux categories un nombre entier indiquant lordre dans
lequel elles doivent etre considerees.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 5
Types de variables (3)
Variable quantitative
La variable prend des valeurs numeriques. On distingue deux types de variable quantitative:
. les variables discre`tes ne peuvent prendre que des valeurs entie`res.
Ex Nombre denfants par couple, nombre dannees detudes, nombre daccidents
de la route durant un WE.
. les variables continues peuvent prendre nimporte quelle valeur dans un
intervalle donne.
Ex taille, poids, age, salaires.
En principe, le nombre de valeurs possibles quune variable continue peut
prendre est infini. En pratique, ce nombre est fini car les mesures se font
avec une precision finie dans un intervalle borne.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 6
Distribution empirique des frequences
La Distribution empirique dune variable donne les frequences (relatives)avec lesquelles on observe les differentes valeurs possibles dans lensemble de
donnees.
La methode de construction dune distribution de frequences (relatives) dependdu type (qualitatif ou quantitatif) de la variable consideree:
Variable qualitative
La distribution empirique des frequences (relatives) reprend les frequences (rela-tives) associees a` chacune des valeurs observees pour la variable consideree.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 7
Distribution empirique . . . (2)
Ex Les donnees suivantes, issues dune enquete, reprennent les dix races de chiens
preferees de 2000 Quebecois.
Race Frequence Pourc. Race Frequence Pourc.
1. Berger allemand 272 13.6% 6. Caniche 66 3.3 %
2. Colley 196 9.8% 7. Rottweiller 52 2.6 %
3. Labrador 192 9.6% 8. Dalmatien 34 1.7 %
4. Golden Retreiver 152 7.6% 9. Cocker 32 1.6 %
5. Epagneul 68 3.4% 10. Saint-Bernard 32 1.6 %
11. Autre 904 45.2%
Deux methodes peuvent etre utilisees pour representer graphiquement ces donnees:
. le diagramme en barre (ou en baton),
. le graphique en secteurs (ou camembert).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 8
Diagramme en barre
Berg
er a
llem
and
Colle
y
Labr
ador
Gol
den
Retre
iver
Epag
neul
Cani
che
Rot
twei
ller
Dal
mat
ien
Cock
er
Sain
tBe
rnar
d
Pour
cent
age
02
4
68
1012
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 9
Graphique en secteurs
Voici comment les races retenues (ca`d Autre exclue) dans la table se repartissent:
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 10
Distribution empirique . . . (3)
Variable quantitative
Lorsque la variable est discre`te et que le nombre de valeurs differentes observeespour cette variable reste raisonnable, on peut utiliser les memes outils quavec les
variables qualitatives.
Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes:5 6 3 3 1 6 0 5 7 5 6 5 1 7 4 6 3 10 3 3 7 5 7 6 5
4 8 0 5 5 9 10 5 5 0 0 2 1 7 5 4 1 5 10 6 5 6 7 7 6
6 7 5 3 3 10 3 5 7 5 4 5 4 3 2 6 2 0 0 5 9 4 1 8 9
6 6 7 4 3 3 3 1 3 2 10 0 6 3 3 7 5 10 8 4 6 5 12 2 9
8 6 8 5 2 4 4 7 4 8 3 5 7 8 8 4 3 6 8 5 5 2 5 9 1
5 4 0 5 6 10 5 3 6 4 3 11 7 4 6 2 10 8 7 8 6 6 5 7 6
7 8 4 10 5 1 4 13 4 5 12 3 4 3 3 2 6 4 11 11 7 6 6 6 3
7 2 4 4 4 4 7 3 9 2 8 4 6 2 2 3 4 6 3 8 6 6 6 5 2
6 9 0 8 6 4 6 6 6 6 6 4 5 4 2 7 7 6 4 4 5 2 3 5 7
10 8 0 2 2 8 0 7 4 5 5 6 5 4 3 5 6 3 4 2 5 7 3 4 7
6 6 5 3 3 7 6 0 7 4 3 6 5 5 4 5 4 7 2 5 8 6 4 5 10
4 3 7 3 6
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 11
Distribution empirique . . . (4)
Ces donnees brutes peuvent etre organisees selon leur distribution empirique des frequences:
Absences 0 1 2 3 4 5 6 7 8 9 10 11 12 13
Frequences 12 8 20 35 40 46 47 30 18 7 11 3 2 1
Freq. relatives 4% 3% 7% 12% 14% 16% 17% 11% 6% 3% 4% 1% 1% 0%
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 12
Distribution empirique . . . (5)
Plus generalement, lorsque la variable est discre`te ou continue, on construit habituelle-ment entre 5 et 15 sous-intervalles reprenant lensemble des valeurs observables
pour la variable consideree.
La distribution empirique des frequences (relatives) reprend alors les frequences(relatives) observees pour chacun de ces intervalles.
Lhistogramme est loutil graphique utilise pour representer une distributiondes frequences (relatives).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 13
Distribution empirique . . . (6)
Ex Variable continue
Les donnees qui suivent donnent la taille (au centime`tre pre`s) de 500 hommes:
183 188 177 174 171 183 172 173 163 175 191 169 171 176 178 175 182 188 175 170 183 187 184 167
175 183 171 172 173 171 172 171 176 170 173 174 180 176 179 180 176 179 183 175 162 170 172 174
180 174 184 177 175 180 168 176 185 185 181 173 180 169 181 168 186 174 173 184 173 185 181 182
188 193 179 181 168 175 175 179 173 186 169 170 173 170 185 174 186 180 182 177 175 172 174 186
174 174 179 179 171 167 178 175 180 169 167 179 175 174 170 159 166 177 195 174 184 181 168 175
182 179 171 177 169 183 179 182 171 182 170 182 185 174 166 182 174 189 187 190 174 175 183 170
162 173 175 184 171 183 180 165 182 170 185 175 174 176 184 170 177 175 174 173 180 160 171 182
174 174 181 172 186 172 169 185 175 185 181 169 168 172 182 196 179 168 183 175 177 175 193 173
188 185 173 172 178 178 182 179 188 176 181 185 187 186 181 178 178 186 190 160 179 179 184 183
179 169 176 174 173 185 165 183 179 174 187 180 167 174 169 178 175 172 161 176 194 181 168 179
171 181 184 183 184 176 172 162 185 182 185 184 166 173 173 177 173 161 166 179 171 178 169 186
171 177 185 179 183 174 173 190 171 183 168 163 173 177 171 171 177 176 191 177 179 179 179 173
176 165 179 169 178 178 181 176 171 169 190 180 184 180 183 178 172 187 186 170 177 172 163 177
179 175 183 179 174 165 184 173 176 171 181 173 185 187 184 159 181 177 184 173 181 179 185 179
189 167 189 175 174 176 180 173 176 178 176 175 181 174 182 180 180 173 158 179 182 177 177 185
172 176 166 175 164 169 181 174 181 165 184 171 182 176 190 189 187 187 181 173 187 169 177 177
182 181 173 173 174 179 178 167 168 176 181 179 170 174 193 182 171 189 178 178 181 172 180 175
170 181 183 172 173 178 177 176 178 178 178 179 183 166 162 173 177 180 173 184 172 161 179 177
174 174 170 173 180 175 178 177 180 184 180 168 167 164 177 172 170 186 166 178 174 169 174 175
182 177 175 186 189 171 176 174 179 179 187 176 178 178 176 179 180 174 171 185 188 176 165 182
184 173 175 176 178 178 184 194 179 177 170 167 180 172 170 183 171 178 174 173
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 14
Distribution empirique . . . (7)
Un choix possible pour la limite des categories est155 160 165 170 175 180 185 190 195 200
La distribution empirique des frequences et des frequences relatives estTaille [155,160[ [160,165[ [165,170[ [170,175[ [175,180[ [180,185[ [185,190[ [190,195[ [195,200[Frequence 5 16 48 139 137 98 45 11 1Freq. relative 1% 3% 10% 28% 27% 20% 9% 2% 0%
Caracteristiques de lhistogramme:. En abscisse: limites des categories considerees.
. Base des rectangles = categorie
. Hauteur des rectangles = frequence observee pour la categorie.
Note: lorsque les bases des rectangles nont pas la meme dimension, cest laire
des rectangles qui represente les frequences (relatives).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 15
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 16
Distribution empirique . . . (8)
La bote a` moustaches
Le boxplot (diagramme en bote ou bote a` moustaches) est une alternativepour representer la distribution dune variable continue.
Lechelle utilisee est habituellement presentee verticalement. La bote contient les 50% dobservations centrales:
. Les limites inferieure et superieure correspondent aux quantiles 25% (=1er
quartie Q1) et 75% (=3e`me quartile Q3).
Leur difference est lecart inter-quartile (EIQ).
. La barre centrale correspond au quantile 50% (=mediane = 2e`me quartile
Q2).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 17
La patte inferieure est habituellementmax{min{yi : i = 1, . . . , n}, Q1 1.5 EIQ}
La patte superieure est habituellementmin{max{yi : i = 1, . . . , n}, Q3 + 1.5 EIQ}
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 18
Representation du lien entre deux variables
Les donnees dinteret reprennent le poids (en kg), la taille (en cm) et lage (en annees)
de 260 femmes et 247 hommes.
Deux variables quantitatives
Relations entre la taille et le poids et entre lage et le poids
sexe age taille poids sexe age taille poidshomme 21 174.0 65.6 femme 26 163.2 55.9homme 23 175.3 71.8 femme 20 152.4 46.5homme 28 193.5 80.7 femme 20 157.5 54.3homme 23 186.5 72.6 femme 26 168.3 54.8homme 22 187.2 78.8 femme 21 180.3 60.7homme 21 181.5 74.8 femme 21 165.5 60.0homme 26 184.0 86.4 femme 38 165.0 62.0homme 27 184.5 78.4 femme 23 164.5 60.3homme 23 175.0 62.0 femme 37 156.0 52.7homme 21 184.0 81.6 femme 19 160.0 74.3
. . . . . . . . . . . . . . . . . . . . . . . .
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 19
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 20
Graphique de dispersion (scatterplot)
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 21
Variable qualitative - variable continue
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 22
Lien entre 2 variables continues pour une valeur donnee dune variable qualitative (ici:
Sexe):
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 23
Graphique de dispersion conditionnel
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 24
Mesures numeriques
Les outils presentes jusquici sont essentiellement graphiques. En pratique, on utilise aussi des mesures numeriques pour decrire un ensemble de
donnees.
Ces deux approches sont evidemment complementaires. Parmi ces mesures, on trouve:
. des mesures de localisation,
. des mesures de dispersion,
. des mesures dasymetrie,
. des mesures de kurtosis,
. des mesures dassociation.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 25
Mesures de localisation
Ce sont des mesures de tendance centrale.
La moyenne (arithmetique)
Cette mesure nest utilisable que lorsque les observations considerees {y1, . . . , yn}sont relatives a` une variable quantitative.
Par definition, il sagit de la somme des mesures realisees (ni=1 yi = y1 + . . .+yn)divisee par le nombre n dobservations:
y =i yin
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):y =
9 + 8 + . . . + 6 + 5
10= 8.2
Ex Moyenne de taille, poids et age par sexe:
age taille poids
Homme 31.7 177.7 78.1
Femme 28.8 164.9 60.6
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 26
Mesures de localisation (2)
Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes: on
a y = 5.1.
Lorsque la distribution empirique des frequences est disponible sous la forme{(yk, nk) : k = 1, . . . , K} ou` nk est la frequence associee a` la ke`me valeuryk, on a
y =1
n
Kk=1
nkyk =Kk=1
wkyk avec wk = nk/n = frequence relative
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10): on ay = (1 5 + 2 6 + 1 8 + 4 9 + 1 10 + 1 11)/10 = 8.2.
Remarques concernant la moyenne
La moyenne est tre`s sensible a` la presence de valeurs extremes. La moyenne est attiree vers la droite (gauche) lorsque la distribution presente une
asymetrie positive (negative).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 27
Mesures de localisation (3)
La medianeLa mediane divise lechantillon ordonne en 2 ensembles disjoints de meme effectif.
Si y1 y2 . . . yn, alors la mediane est: yn+1
2si n est impair, la moyenne de yn
2et yn
2+1si n est pair.
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10): la serieordonnee est 5 6 6 8 9 9 9 9 10 11. La mediane vaut doncy5+y6
2 =9+9
2 = 9. Elle coupe lechantillon en 2 sous-echantillons 5 6 6 8 9et 9 9 9 10 11 de meme taille.Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes (y = 5.1):
de la distribution empirique des frequences cumulees,Absences 0 1 2 3 4 5 6 7 8 9 10 11 12 13
Frequences 12 8 20 35 40 46 47 30 18 7 11 3 2 1
Freq. cumulees 12 20 40 75 115 161 208 238 256 263 274 277 279 280
on conclut que la mediane est y140+y1412 =5+5
2 = 5.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 28
Mesures de localisation (4)
Ex Mediane de taille, poids et age par sexe:
age taille poids
Homme 29.0 177.8 77.3
Femme 26.0 164.5 59.0
Remarques concernant la mediane
Mediane et moyenne sont proches lorsque la distribution est symetrique. La mediane est insensible aux valeurs extremes. On parle de classe mediane avec des donnees ordinales.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 29
Mesures de localisation (5)
Le mode
Le mode est la valeur la plus souvent observee dans les donnees.Il sagit donc de la donnee associee a` la plus grande frequence.
Lorsque les donnees sont relatives a` une variable aleatoire continue, la frequenceassociee a` chaque valeur est souvent 1. On a alors autant de modes que de
donnees.
Dans ce cas (comme lors de la construction dun histogramme), on construit
entre 5 et 15 sous-intervalles reprenant lensemble des valeurs observables pour la
variable consideree.
Le (les) sous-intervalle(s) presentant la frequence la plus elevee est appelee classe
modale.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 30
Mesures de dispersion
Letendue
Letendue est la difference entre la plus grande et la plus petite observation. Lesmesures doivent etre relatives a` une variable quantitative.
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):letendue vaut 11 5 = 6.
Ex Etendue de taille, poids et age par sexe:
age taille poids
Homme 47.0 40.9 62.5
Femme 49.0 35.7 63.2
Remarques concernant letendue
Letendue est (par definition) tre`s sensible aux valeurs extremes. Letendue tend a` augmenter avec le nombre dobservations dans lechantillon.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 31
Mesures de dispersion (2)
Lecart inter-quartile Les quartiles Q1, Q2 et Q3 sont par definition les quantiles 25%, 50% et 75%, ca`d desnombres presentant en-dessous deux respectivement, 25%, 50% et 75% des donnees:
. Q1 est la mediane des observations inferieures a` la mediane.
. Q3 est la mediane des observations superieures a` la mediane.
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10). Pour rappel,la mediane vaut 9 et coupe lechantillon en 2 sous-echantillons 5 6 6 8 9 et9 9 9 10 11 de meme taille. Q1 est la mediane du 1er sous-echantillon 5 6 6 8 9 de taille n1 = 5.Comme n1 est impair, cest la
n1+12 = 3e donnee de ce sous-echantillon ordonne: 6.
Q3 est la mediane du 2e`me sous-echantillon 9 9 9 10 11 de taille n2 = 5:comme n2 est impair, cest la
n2+12 = 3e`me donnee de ce sous-echantillon ordonne (et
donc la 8e`me de lechantillon ordonne de depart), soit 9.
Lecart inter-quartile vaut donc Q3 Q1 = 9 6 = 3.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 32
Mesures de dispersion (3)
Ex Nombre de jours dabsence dans une entreprise comptant = 280 personnes. La
distribution empirique des frequences cumulees estAbsences 0 1 2 3 4 5 6 7 8 9 10 11 12 13
Freq. cumulees 12 20 40 75 115 161 208 238 256 263 274 277 279 280
Nous savons deja` que la mediane vaut 5: elle coupe lechantillon en 2 sous-echantillons
de meme taille n1 = n2 = 140.
Q1 est la mediane du 1er sous-echantillon de taille n1 = 140: comme n1 est pair,cest la moyenne de la 70e`me et 71e`me donnee de ce sous-echantillon ordonne, soit 3.
Q3 est la mediane du 2e`me sous-echantillon de taille n2 = 140: comme n2 est pair,cest la moyenne de la 70e`me et 71e`me donnee de ce sous-echantillon ordonne (et
donc la moyenne de la 210e`me et 211e`me donnee de lechantillon ordonne de depart),
soit 7.
Lecart inter-quartile vaut donc Q3 Q1 = 7 3 = 4.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 33
Mesures de dispersion (4)
Ex Ecart inter-quartile de taille, poids et age par sexe:
age taille poids
Homme 13.0 9.8 14.5
Femme 12.0 9.5 11.1
Remarques concernant lecart inter-quartile
Lecart inter-quartile est Q3 Q1, ca`d letendue des 50% de donnees centrales. Lecart inter-quartile est insensible a` la presence de valeurs extremes.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 34
Mesures de dispersion (5)
La variance
La variance est par definition la moyenne des carres des ecarts par rapport a` lamoyenne. Elle est estimee par
2 =1
n
ni=1
(yi y)2 = . . . =ni=1 y
2i
n y2
Il arrive quon divise par n 1 au lieu de n: le resultat est note par s2. On as2 =
n
n 1 2
Lorsque la distribution empirique des frequences est disponible sous la forme{(yk, nk) : k = 1, . . . , K} ou` nk est la frequence associee a` la ke`me valeuryk, on a
2 =1
n
Kk=1
nk(yk y)2 =Kk=1
wk(yk y)2 = . . . =Kk=1
wky2k y2
ou` wk = nk/n est la frequence relative.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 35
Mesures de dispersion (6)
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):yi yi y (yi y)2 y2i9 0.8 0.64 81
8 -0.2 0.04 64
9 0.8 0.64 81
9 0.8 0.64 81
6 -2.2 4.84 36
9 0.8 0.64 81
10 1.8 3.24 100
11 2.8 7.84 121
6 -2.2 4.84 36
5 -3.2 10.24 25
82 0 33.6 706
y = 82/10 = 8.2. 2 = 33.610 = 70610 8.22 = 3.36.
A` partir de la distribution empirique des frequences:
yk 5 6 8 9 10 11 Total
nk 1 2 1 4 1 1 10wk 0.1 0.2 0.1 0.4 0.1 0.1 1wkyk 0.5 1.2 0.8 3.6 1.0 1.1 8.2wky
2k 2.5 7.2 6.4 32.4 10.0 12.1 70.6
wk(yk y)2 1.024 0.968 0.004 0.256 0.324 0.784 3.36 y = k wkyk = 8.2. 2 = k wk(yk y)2 = 3.36ou 2 =
k wky
2k y2 = 70.6 8.22 = 3.36.
s2 = 109 2 = 3.73.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 36
Mesures de dispersion (7)
Ex Variance de taille, poids et age par sexe:
age taille poids
Homme 103.1 51.6 110.5
Femme 78.4 42.8 92.5
Remarques concernant la variance
La variance est sensible a` la presence de valeurs extremes. Lunite de la variance est le carre de lunite utilisee pour les observations.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 37
Mesures de dispersion (8)
Lecart-type
Lecart-type s est la racine carree de la variance s2.Ex Serie dobservations: s =
3.73 = 1.93.
Ex Ecart-type de taille, poids et age par sexe:
age taille poids
Homme 10.2 7.2 10.5
Femme 8.9 6.5 9.6
Remarques concernant lecart-type
Lecart- type est sensible a` la presence de valeurs extremes. Lunite de lecart-type est la meme que celle des observations.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 38
Mesures de dispersion (9)
Lorsque la distribution (des frequences) dune variable a` la forme dune cloche,environ 95% (99%) des observations se trouvent a` moins de deux (trois) ecart-types
de la moyenne.
Ex Ecart-type des poids des 247 hommes:
Lintervalle y 2s = 78.1 2 10.5 =(57.1, 99.1) devrait approximativement
contenir 95% des donnees.
Ici, il en contient 95.1%.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 39
Mesures de dispersion (10)
Le coefficient de variation
Il est defini par CV = s(y)/y.
Cette mesure est souvent utilisee car elle est depourvue dunite et insensible aux
changements dechelle.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 40
Mesures dassociation
Coefficient de correlation lineaire de Pearson
Cest une mesure dassociation (lineaire) entre deux variables quantitatives:
1 r(x, y) = 1n
ni=1
xi xx
yi yy
1
r > 0: de grandes (petites)valeurs pour x sont associees a` de
grandes (petites) valeurs pour y.
r < 0: de grandes (petites)valeurs pour x sont associees a` de
petites (grandes) valeurs pour y.
La force de cette association estdautant plus grande que |r| estproche de 1.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 41
Ex Correlation entre la taille et le poids de 247 hommes: r = 0.53
Ex Correlation entre lage et le poids de 247 hommes: r = 0.14
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 42
Calcul du coefficient de correlation de Pearson
r(x, y) =1
n
ni=1
xi xx
yi yy
30 35 40 45 50 55
3540
4550
x
y
i xi yi x2i y
2i (xi x) (yi y) (xi x)(yi y)
1 30 35 900 1225 -12.50 -7.83 97.922 35 40 1225 1600 -7.50 -2.83 21.253 40 38 1600 1444 -2.50 -4.83 12.084 45 46 2025 2116 2.50 3.17 7.925 47 45 2209 2025 4.50 2.17 9.756 58 53 3364 2809 15.50 10.17 157.58
255 257 11323 11219 306.50
Moyennes: x = 255/6 = 42.5 ; y = 257/6 = 42.83 Variances: 2x = 11323/6 x2 = 80.92 ; 2y = 11219/6 y2 = 35.42 Correlation: r(x, y) = 16 306.580.92 35.42 = 0.95
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 43
Association entre 2 variables categorielles
European Social Survey: enquete financee par lEC realisee tous les 2 ans depuis2002 dans plus de 30 pays europeens (dont la Belgique).
Les questions portent sur differents aspects de la vie des personnes questionnees(utilisation des medias, confiance, sante, exclusion. . . ).
Les personnes questionnees sont selectionnees a` laide dun sondage probabiliste a`plusieurs degres (voir chap. 3 & 4) ; interview face-a`-face.
Ex Quel interet avez-vous pour la politique? (ESS 2008, Belgique).
Interet pour la politique
Genre Tre`s interesse Assez interesse Peu interesse Pas du tout interesse
Masculin 91 369 269 135
Feminin 55 337 301 203
Cette table de contingence reprend les frequences associees a` chacune des modalitesproposees pour les 1760 personnes qui ont apporte une reponse a` cette question.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 44
Variable reponse et variable explicative
Dans lexemple precedent, linteret pour la politique apparat clairement commela variable dinteret: cest la variable reponse.
Certains aspects de la distribution de la variable reponse seront compares dans lesgroupes definis par lautre variable, ici le genre.
Cest une variable explicative (. . . des valeurs prises par la variable reponse).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 45
Calcul de pourcentages
Les frequences brutes apparaissant dans la table de contingence ne permettent pasde visualiser rapidement comment la reponse apportee se distribue et change avec
le genre.
Pour y parvenir, il est conseille de calculer la distribution empirique des frequencesrelatives (= pourcentages) de la variable reponse pour chaque modalite de la
variable explicative.
Interet pour la politiqueGenre Tre`s interesse Assez interesse Peu interesse Pas du tout interesse Total
Masculin 91 (10.5%) 369 (42.7%) 269 (31.1%) 135 (15.6%) 864 (100%)Feminin 55 (6.1%) 337 (37.6%) 301 (33.6%) 203 (22.7%) 896 (100%)
Total 146 (8.3%) 706 (40.1%) 570 (32.4%) 338 (19.2%) 1760 (100%)
On voit desormais relativement clairement que les femmes tendent a` presenter uninteret moins marque que les hommes pour la politique.
Une absence de lien entre les 2 variables se manifesterait par des pourcentagessemblables dans les 2 lignes du tableau.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 46
Representation graphique du lien entre 2 categorielles
Masc (n=864) Fem (n=896)
Pas du tout intressPeu intressAssez intressTrs intress
Intrt pour la politique et genre
010
2030
4050
6070
8090
100 Chaque barre correspond a` une
modalite de la variable explicative
avec un rappel des effectifs pour cha-
cune.
Le partage de chaque barre entreles modalites de la reponse se fait
proportionnellement aux frequences
relatives correspondantes.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 47
Autre exemple
Lien entre le niveau deducation du repondant (dau moins 30 ans) et celui de ses
parents [ESS 2002, Belgique].
La variable reponse est de toute evidence le niveau de formation du repondant. La variable explicative est le niveau de formation dun des parents.
Diplome du repondantDiplome Pe`re Primaire Secondaire Superieur Total Primaire 148 (29.0%) 301 (58.9%) 62 (12.1%) 511 (100%)Secondaire 15 (3.7%) 232 (56.7%) 162 (39.6%) 409 (100%)
Superieur 2 (1.3%) 45 (29.4%) 106 (69.3%) 153 (100%)
Total 165 (15.4%) 578 (53.9%) 330 (30.7%) 1073 (100%)
Diplome du repondantDiplome Me`re Primaire Secondaire Superieur Total Primaire 152 (25.2%) 365 (60.5%) 86 (14.3%) 603 (100%)Secondaire 11 (2.8%) 195 (49.2%) 190 (48.0%) 396 (100%)
Superieur 2 (2.7%) 18 (24.3%) 54 (73.0%) 74 (100%)
Total 165 (15.4%) 578 (53.9%) 330 (30.7%) 1073 (100%)
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 48
Representation graphique du lien avec le Pe`re
Representation graphique du lien avec la Me`re
Les variables en presence peuvent avoir le meme statut . . .
Dans lexemple precedent, on pourrait sinteresser au lien eventuel entre les niveauxde formation des parents du repondant.
Pour resituer le contexte, rappelez-vous que le repondant avait au moins 30 ans
en 2002. Il sagit donc dans la plupart des cas de couples qui se sont maries au
plus tard debut des annees 70 !
Diplome Pe`re
Diplome Me`re Primaire Secondaire Superieur Primaire 443 144 16Secondaire 62 250 84
Superieur 6 15 53
A priori, aucune de ces variables ne simpose comme la reponse. Tout depend du point de vue de lanalyste. . .
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 51
Point de vue 1: cest lepouse qui choisit son conjoint. . .
Dans ce cas. la variable explicative est le diplome de la Me`re ;
. la variable reponse est le diplome du Pe`re.
Diplome Pe`re
Diplome Me`re Primaire Secondaire Superieur Total Primaire 443 (73%) 144 (24%) 16 (3%) 603 (100%)Secondaire 62 (16%) 250 (63%) 84 (21%) 396 (100%)
Superieur 6 (8%) 15 (20%) 53 (72%) 74 (100%)
Total 511 (48%) 409 (38%) 153 (14%) 1073 (100%)
Lamour nest pas aveugle. . . :. Plus de 6 (voir 7) fois sur 10, la Me`re choisit un conjoint avec le meme
niveau de formation quelle: qui se ressemble sassemble !
. Dans les autres cas, elle tend a` choisir un conjoint avec un niveau de for-
mation pas trop eloigne ou superieur au sien.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 52
Point de vue 2: cest lepoux qui choisit sa conjointe. . .
Dans ce cas. la variable explicative est le diplome du Pe`re ;
. la variable reponse est le diplome de la Me`re.
Diplome Pe`re
Diplome Me`re Primaire Secondaire Superieur Total Primaire 443 (87%) 144 (35%) 16 (10%) 603 (56%)Secondaire 62 (12%) 250 (61%) 84 (55%) 396 (37%)
Superieur 6 (1%) 15 (4%) 53 (35%) 74 (7%)
Total 511 (100%) 409 (100%) 153 (100%) 1073 (100%)
Le constat nest pas le meme:. Pre`s de 9 fois sur 10, le Pe`re choisit une partenaire avec niveau de formation
au plus egal au sien.
. Alors quune femme avec un diplome superieur choisissait un conjoint avec
un meme niveau de formation dans 72% des cas, ce pourcentage nest que
de 35% chez les hommes.
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 53
Point de vue 3: comment les diplomes se combinent-ils?
Il peut etre interessant de calculer le pourcentage associe a` chacune des 9 combi-naisons possibles de diplomes.
Diplome Pe`re
Diplome Me`re Primaire Secondaire Superieur Primaire 443 (41.3%) 144 (13.4%) 16 (1.5%)Secondaire 62 (5.8%) 250 (23.3%) 84 (7.8%)
Superieur 6 (0.6%) 15 (1.4%) 53 (4.9%)
. 4 fois sur 10 (41.3%), les parents ont tous les 2 un diplome primaire.
. Pre`s d1 fois sur 4 (23.3%), les parents ont tous les 2 un diplome secondaire.
. Les couples primaire-superieur sont rares (0.6%+1.5%).
P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 54