56
STAT0002 - Statistique descriptive Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/statdescr.html Institut des Sciences Humaines et Sociales Universit´ e de Li` ege

chap1aaaaa

  • Upload
    mokrzah

  • View
    213

  • Download
    1

Embed Size (px)

DESCRIPTION

aaaaaaaaaa

Citation preview

  • STAT0002 - Statistique descriptive

    Transparents

    Philippe Lambert

    http : //www.statsoc.ulg.ac.be/statdescr.html

    Institut des Sciences Humaines et Sociales

    Universite de Lie`ge

  • Avertissement - Droits dauteur

    Les supports de cours mis sur Internet ont pour seulevocation detre utilises par les etudiants dans le cadrede leur cursus au sein de lUniversite de Lie`ge. Aucunautre usage ni diffusion ne sont autorises, sous peinede constituer une violation de la Loi du 30 juin 1994relative aux droits dauteurs.

    Les supports de cours mis sur Internet ne represententpas lentie`rete de la matie`re, mais constituent lesnotes de base indispensables et minimales a` la bonneconnaissance de celle-ci.

    P. Lambert c - Institut des sciences humaines et sociales

  • References

    Statistique descriptive:

    Nimporte quel livre introductif a` la statistique peut convenir.

    Quelques references en francais:

    . Wonnacott T.H. et Wonnacott R.J. (1991, 4e`me edition) Statistique. Econom-

    ica. ISBN 2-7178-2072-8. Prix: 40 euros.. Howell, D.C. (2008) Methodes statistiques en sciences humaines. De Boeck.

    ISBN 978-2804156855. Prix: 55 euros.

    Theorie statistique des sondages:

    . Ardilly P. (2006) Les techniques de sondage. Editions Technip. ISBN 2-7108-

    0847-1. Prix: 65 euros.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 1

  • Objectifs du cours

    Montrer comment on peut resumer linformation disponible dans un ensemble dedonnees a` laide de quelques nombres et graphiques.

    Presenter quelques concepts de la theorie des probabilites. Proposer, sur base des concepts precedents, une introduction aux aspects statis-

    tiques de la theorie des sondages.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 2

  • Chapitre 1: Statistique descriptive

    Objectif de la statistique descriptive: resumer les donnees. Nous allons organiser les donnees pour savoir quelles sont les valeurs observees

    pour la (les) variable(s) et les frequences qui y sont attachees.

    Outils utilises: tables, diagrammes et mesures numeriques.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 3

  • Types de variables

    Une variable est une mesure qui peut prendre des valeurs differentes dun individua` un autre, dun groupe dindividus a` un autre.

    Ex taille et poids dun individu, nombre denfants par couple, nombre dannees

    detudes, salaires, QI, nombre daccidents de la route durant un WE. . .

    On appelle donnees brutes lensemble des valeurs mesurees pour toutes les entitesconsiderees.

    Ces variables sont de deux types possibles:

    Variable qualitative / categorielle

    La variable indique a` quelle categorie lentite (sur laquelle la mesure est effectuee)appartient.

    Ex couleur des yeux, genre (homme ou femme), qualite de vie, humeur dune

    personne, etc.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 4

  • Types de variables (2)

    Ces donnees sont souvents resumee sous forme de tableaux (frequences, propor-tions ou pourcentages).

    On distingue deux types de variable categorielle:. Les variables nominales:

    categories distinctes non ordonnees auxquelles on peut assigner un nom.

    Ex couleur des yeux, genre (homme ou femme).

    . Les variables ordinales:

    categories distinctes presentant un ordre. On ne peut pas quantifier la dis-

    tance les separant.

    Ex qualite de vie, humeur dune personne.

    Souvent, on associe aux categories un nombre entier indiquant lordre dans

    lequel elles doivent etre considerees.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 5

  • Types de variables (3)

    Variable quantitative

    La variable prend des valeurs numeriques. On distingue deux types de variable quantitative:

    . les variables discre`tes ne peuvent prendre que des valeurs entie`res.

    Ex Nombre denfants par couple, nombre dannees detudes, nombre daccidents

    de la route durant un WE.

    . les variables continues peuvent prendre nimporte quelle valeur dans un

    intervalle donne.

    Ex taille, poids, age, salaires.

    En principe, le nombre de valeurs possibles quune variable continue peut

    prendre est infini. En pratique, ce nombre est fini car les mesures se font

    avec une precision finie dans un intervalle borne.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 6

  • Distribution empirique des frequences

    La Distribution empirique dune variable donne les frequences (relatives)avec lesquelles on observe les differentes valeurs possibles dans lensemble de

    donnees.

    La methode de construction dune distribution de frequences (relatives) dependdu type (qualitatif ou quantitatif) de la variable consideree:

    Variable qualitative

    La distribution empirique des frequences (relatives) reprend les frequences (rela-tives) associees a` chacune des valeurs observees pour la variable consideree.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 7

  • Distribution empirique . . . (2)

    Ex Les donnees suivantes, issues dune enquete, reprennent les dix races de chiens

    preferees de 2000 Quebecois.

    Race Frequence Pourc. Race Frequence Pourc.

    1. Berger allemand 272 13.6% 6. Caniche 66 3.3 %

    2. Colley 196 9.8% 7. Rottweiller 52 2.6 %

    3. Labrador 192 9.6% 8. Dalmatien 34 1.7 %

    4. Golden Retreiver 152 7.6% 9. Cocker 32 1.6 %

    5. Epagneul 68 3.4% 10. Saint-Bernard 32 1.6 %

    11. Autre 904 45.2%

    Deux methodes peuvent etre utilisees pour representer graphiquement ces donnees:

    . le diagramme en barre (ou en baton),

    . le graphique en secteurs (ou camembert).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 8

  • Diagramme en barre

    Berg

    er a

    llem

    and

    Colle

    y

    Labr

    ador

    Gol

    den

    Retre

    iver

    Epag

    neul

    Cani

    che

    Rot

    twei

    ller

    Dal

    mat

    ien

    Cock

    er

    Sain

    tBe

    rnar

    d

    Pour

    cent

    age

    02

    4

    68

    1012

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 9

  • Graphique en secteurs

    Voici comment les races retenues (ca`d Autre exclue) dans la table se repartissent:

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 10

  • Distribution empirique . . . (3)

    Variable quantitative

    Lorsque la variable est discre`te et que le nombre de valeurs differentes observeespour cette variable reste raisonnable, on peut utiliser les memes outils quavec les

    variables qualitatives.

    Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes:5 6 3 3 1 6 0 5 7 5 6 5 1 7 4 6 3 10 3 3 7 5 7 6 5

    4 8 0 5 5 9 10 5 5 0 0 2 1 7 5 4 1 5 10 6 5 6 7 7 6

    6 7 5 3 3 10 3 5 7 5 4 5 4 3 2 6 2 0 0 5 9 4 1 8 9

    6 6 7 4 3 3 3 1 3 2 10 0 6 3 3 7 5 10 8 4 6 5 12 2 9

    8 6 8 5 2 4 4 7 4 8 3 5 7 8 8 4 3 6 8 5 5 2 5 9 1

    5 4 0 5 6 10 5 3 6 4 3 11 7 4 6 2 10 8 7 8 6 6 5 7 6

    7 8 4 10 5 1 4 13 4 5 12 3 4 3 3 2 6 4 11 11 7 6 6 6 3

    7 2 4 4 4 4 7 3 9 2 8 4 6 2 2 3 4 6 3 8 6 6 6 5 2

    6 9 0 8 6 4 6 6 6 6 6 4 5 4 2 7 7 6 4 4 5 2 3 5 7

    10 8 0 2 2 8 0 7 4 5 5 6 5 4 3 5 6 3 4 2 5 7 3 4 7

    6 6 5 3 3 7 6 0 7 4 3 6 5 5 4 5 4 7 2 5 8 6 4 5 10

    4 3 7 3 6

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 11

  • Distribution empirique . . . (4)

    Ces donnees brutes peuvent etre organisees selon leur distribution empirique des frequences:

    Absences 0 1 2 3 4 5 6 7 8 9 10 11 12 13

    Frequences 12 8 20 35 40 46 47 30 18 7 11 3 2 1

    Freq. relatives 4% 3% 7% 12% 14% 16% 17% 11% 6% 3% 4% 1% 1% 0%

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 12

  • Distribution empirique . . . (5)

    Plus generalement, lorsque la variable est discre`te ou continue, on construit habituelle-ment entre 5 et 15 sous-intervalles reprenant lensemble des valeurs observables

    pour la variable consideree.

    La distribution empirique des frequences (relatives) reprend alors les frequences(relatives) observees pour chacun de ces intervalles.

    Lhistogramme est loutil graphique utilise pour representer une distributiondes frequences (relatives).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 13

  • Distribution empirique . . . (6)

    Ex Variable continue

    Les donnees qui suivent donnent la taille (au centime`tre pre`s) de 500 hommes:

    183 188 177 174 171 183 172 173 163 175 191 169 171 176 178 175 182 188 175 170 183 187 184 167

    175 183 171 172 173 171 172 171 176 170 173 174 180 176 179 180 176 179 183 175 162 170 172 174

    180 174 184 177 175 180 168 176 185 185 181 173 180 169 181 168 186 174 173 184 173 185 181 182

    188 193 179 181 168 175 175 179 173 186 169 170 173 170 185 174 186 180 182 177 175 172 174 186

    174 174 179 179 171 167 178 175 180 169 167 179 175 174 170 159 166 177 195 174 184 181 168 175

    182 179 171 177 169 183 179 182 171 182 170 182 185 174 166 182 174 189 187 190 174 175 183 170

    162 173 175 184 171 183 180 165 182 170 185 175 174 176 184 170 177 175 174 173 180 160 171 182

    174 174 181 172 186 172 169 185 175 185 181 169 168 172 182 196 179 168 183 175 177 175 193 173

    188 185 173 172 178 178 182 179 188 176 181 185 187 186 181 178 178 186 190 160 179 179 184 183

    179 169 176 174 173 185 165 183 179 174 187 180 167 174 169 178 175 172 161 176 194 181 168 179

    171 181 184 183 184 176 172 162 185 182 185 184 166 173 173 177 173 161 166 179 171 178 169 186

    171 177 185 179 183 174 173 190 171 183 168 163 173 177 171 171 177 176 191 177 179 179 179 173

    176 165 179 169 178 178 181 176 171 169 190 180 184 180 183 178 172 187 186 170 177 172 163 177

    179 175 183 179 174 165 184 173 176 171 181 173 185 187 184 159 181 177 184 173 181 179 185 179

    189 167 189 175 174 176 180 173 176 178 176 175 181 174 182 180 180 173 158 179 182 177 177 185

    172 176 166 175 164 169 181 174 181 165 184 171 182 176 190 189 187 187 181 173 187 169 177 177

    182 181 173 173 174 179 178 167 168 176 181 179 170 174 193 182 171 189 178 178 181 172 180 175

    170 181 183 172 173 178 177 176 178 178 178 179 183 166 162 173 177 180 173 184 172 161 179 177

    174 174 170 173 180 175 178 177 180 184 180 168 167 164 177 172 170 186 166 178 174 169 174 175

    182 177 175 186 189 171 176 174 179 179 187 176 178 178 176 179 180 174 171 185 188 176 165 182

    184 173 175 176 178 178 184 194 179 177 170 167 180 172 170 183 171 178 174 173

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 14

  • Distribution empirique . . . (7)

    Un choix possible pour la limite des categories est155 160 165 170 175 180 185 190 195 200

    La distribution empirique des frequences et des frequences relatives estTaille [155,160[ [160,165[ [165,170[ [170,175[ [175,180[ [180,185[ [185,190[ [190,195[ [195,200[Frequence 5 16 48 139 137 98 45 11 1Freq. relative 1% 3% 10% 28% 27% 20% 9% 2% 0%

    Caracteristiques de lhistogramme:. En abscisse: limites des categories considerees.

    . Base des rectangles = categorie

    . Hauteur des rectangles = frequence observee pour la categorie.

    Note: lorsque les bases des rectangles nont pas la meme dimension, cest laire

    des rectangles qui represente les frequences (relatives).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 15

  • P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 16

  • Distribution empirique . . . (8)

    La bote a` moustaches

    Le boxplot (diagramme en bote ou bote a` moustaches) est une alternativepour representer la distribution dune variable continue.

    Lechelle utilisee est habituellement presentee verticalement. La bote contient les 50% dobservations centrales:

    . Les limites inferieure et superieure correspondent aux quantiles 25% (=1er

    quartie Q1) et 75% (=3e`me quartile Q3).

    Leur difference est lecart inter-quartile (EIQ).

    . La barre centrale correspond au quantile 50% (=mediane = 2e`me quartile

    Q2).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 17

  • La patte inferieure est habituellementmax{min{yi : i = 1, . . . , n}, Q1 1.5 EIQ}

    La patte superieure est habituellementmin{max{yi : i = 1, . . . , n}, Q3 + 1.5 EIQ}

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 18

  • Representation du lien entre deux variables

    Les donnees dinteret reprennent le poids (en kg), la taille (en cm) et lage (en annees)

    de 260 femmes et 247 hommes.

    Deux variables quantitatives

    Relations entre la taille et le poids et entre lage et le poids

    sexe age taille poids sexe age taille poidshomme 21 174.0 65.6 femme 26 163.2 55.9homme 23 175.3 71.8 femme 20 152.4 46.5homme 28 193.5 80.7 femme 20 157.5 54.3homme 23 186.5 72.6 femme 26 168.3 54.8homme 22 187.2 78.8 femme 21 180.3 60.7homme 21 181.5 74.8 femme 21 165.5 60.0homme 26 184.0 86.4 femme 38 165.0 62.0homme 27 184.5 78.4 femme 23 164.5 60.3homme 23 175.0 62.0 femme 37 156.0 52.7homme 21 184.0 81.6 femme 19 160.0 74.3

    . . . . . . . . . . . . . . . . . . . . . . . .

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 19

  • P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 20

  • Graphique de dispersion (scatterplot)

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 21

  • Variable qualitative - variable continue

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 22

  • Lien entre 2 variables continues pour une valeur donnee dune variable qualitative (ici:

    Sexe):

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 23

  • Graphique de dispersion conditionnel

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 24

  • Mesures numeriques

    Les outils presentes jusquici sont essentiellement graphiques. En pratique, on utilise aussi des mesures numeriques pour decrire un ensemble de

    donnees.

    Ces deux approches sont evidemment complementaires. Parmi ces mesures, on trouve:

    . des mesures de localisation,

    . des mesures de dispersion,

    . des mesures dasymetrie,

    . des mesures de kurtosis,

    . des mesures dassociation.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 25

  • Mesures de localisation

    Ce sont des mesures de tendance centrale.

    La moyenne (arithmetique)

    Cette mesure nest utilisable que lorsque les observations considerees {y1, . . . , yn}sont relatives a` une variable quantitative.

    Par definition, il sagit de la somme des mesures realisees (ni=1 yi = y1 + . . .+yn)divisee par le nombre n dobservations:

    y =i yin

    Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):y =

    9 + 8 + . . . + 6 + 5

    10= 8.2

    Ex Moyenne de taille, poids et age par sexe:

    age taille poids

    Homme 31.7 177.7 78.1

    Femme 28.8 164.9 60.6

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 26

  • Mesures de localisation (2)

    Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes: on

    a y = 5.1.

    Lorsque la distribution empirique des frequences est disponible sous la forme{(yk, nk) : k = 1, . . . , K} ou` nk est la frequence associee a` la ke`me valeuryk, on a

    y =1

    n

    Kk=1

    nkyk =Kk=1

    wkyk avec wk = nk/n = frequence relative

    Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10): on ay = (1 5 + 2 6 + 1 8 + 4 9 + 1 10 + 1 11)/10 = 8.2.

    Remarques concernant la moyenne

    La moyenne est tre`s sensible a` la presence de valeurs extremes. La moyenne est attiree vers la droite (gauche) lorsque la distribution presente une

    asymetrie positive (negative).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 27

  • Mesures de localisation (3)

    La medianeLa mediane divise lechantillon ordonne en 2 ensembles disjoints de meme effectif.

    Si y1 y2 . . . yn, alors la mediane est: yn+1

    2si n est impair, la moyenne de yn

    2et yn

    2+1si n est pair.

    Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10): la serieordonnee est 5 6 6 8 9 9 9 9 10 11. La mediane vaut doncy5+y6

    2 =9+9

    2 = 9. Elle coupe lechantillon en 2 sous-echantillons 5 6 6 8 9et 9 9 9 10 11 de meme taille.Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes (y = 5.1):

    de la distribution empirique des frequences cumulees,Absences 0 1 2 3 4 5 6 7 8 9 10 11 12 13

    Frequences 12 8 20 35 40 46 47 30 18 7 11 3 2 1

    Freq. cumulees 12 20 40 75 115 161 208 238 256 263 274 277 279 280

    on conclut que la mediane est y140+y1412 =5+5

    2 = 5.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 28

  • Mesures de localisation (4)

    Ex Mediane de taille, poids et age par sexe:

    age taille poids

    Homme 29.0 177.8 77.3

    Femme 26.0 164.5 59.0

    Remarques concernant la mediane

    Mediane et moyenne sont proches lorsque la distribution est symetrique. La mediane est insensible aux valeurs extremes. On parle de classe mediane avec des donnees ordinales.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 29

  • Mesures de localisation (5)

    Le mode

    Le mode est la valeur la plus souvent observee dans les donnees.Il sagit donc de la donnee associee a` la plus grande frequence.

    Lorsque les donnees sont relatives a` une variable aleatoire continue, la frequenceassociee a` chaque valeur est souvent 1. On a alors autant de modes que de

    donnees.

    Dans ce cas (comme lors de la construction dun histogramme), on construit

    entre 5 et 15 sous-intervalles reprenant lensemble des valeurs observables pour la

    variable consideree.

    Le (les) sous-intervalle(s) presentant la frequence la plus elevee est appelee classe

    modale.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 30

  • Mesures de dispersion

    Letendue

    Letendue est la difference entre la plus grande et la plus petite observation. Lesmesures doivent etre relatives a` une variable quantitative.

    Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):letendue vaut 11 5 = 6.

    Ex Etendue de taille, poids et age par sexe:

    age taille poids

    Homme 47.0 40.9 62.5

    Femme 49.0 35.7 63.2

    Remarques concernant letendue

    Letendue est (par definition) tre`s sensible aux valeurs extremes. Letendue tend a` augmenter avec le nombre dobservations dans lechantillon.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 31

  • Mesures de dispersion (2)

    Lecart inter-quartile Les quartiles Q1, Q2 et Q3 sont par definition les quantiles 25%, 50% et 75%, ca`d desnombres presentant en-dessous deux respectivement, 25%, 50% et 75% des donnees:

    . Q1 est la mediane des observations inferieures a` la mediane.

    . Q3 est la mediane des observations superieures a` la mediane.

    Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10). Pour rappel,la mediane vaut 9 et coupe lechantillon en 2 sous-echantillons 5 6 6 8 9 et9 9 9 10 11 de meme taille. Q1 est la mediane du 1er sous-echantillon 5 6 6 8 9 de taille n1 = 5.Comme n1 est impair, cest la

    n1+12 = 3e donnee de ce sous-echantillon ordonne: 6.

    Q3 est la mediane du 2e`me sous-echantillon 9 9 9 10 11 de taille n2 = 5:comme n2 est impair, cest la

    n2+12 = 3e`me donnee de ce sous-echantillon ordonne (et

    donc la 8e`me de lechantillon ordonne de depart), soit 9.

    Lecart inter-quartile vaut donc Q3 Q1 = 9 6 = 3.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 32

  • Mesures de dispersion (3)

    Ex Nombre de jours dabsence dans une entreprise comptant = 280 personnes. La

    distribution empirique des frequences cumulees estAbsences 0 1 2 3 4 5 6 7 8 9 10 11 12 13

    Freq. cumulees 12 20 40 75 115 161 208 238 256 263 274 277 279 280

    Nous savons deja` que la mediane vaut 5: elle coupe lechantillon en 2 sous-echantillons

    de meme taille n1 = n2 = 140.

    Q1 est la mediane du 1er sous-echantillon de taille n1 = 140: comme n1 est pair,cest la moyenne de la 70e`me et 71e`me donnee de ce sous-echantillon ordonne, soit 3.

    Q3 est la mediane du 2e`me sous-echantillon de taille n2 = 140: comme n2 est pair,cest la moyenne de la 70e`me et 71e`me donnee de ce sous-echantillon ordonne (et

    donc la moyenne de la 210e`me et 211e`me donnee de lechantillon ordonne de depart),

    soit 7.

    Lecart inter-quartile vaut donc Q3 Q1 = 7 3 = 4.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 33

  • Mesures de dispersion (4)

    Ex Ecart inter-quartile de taille, poids et age par sexe:

    age taille poids

    Homme 13.0 9.8 14.5

    Femme 12.0 9.5 11.1

    Remarques concernant lecart inter-quartile

    Lecart inter-quartile est Q3 Q1, ca`d letendue des 50% de donnees centrales. Lecart inter-quartile est insensible a` la presence de valeurs extremes.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 34

  • Mesures de dispersion (5)

    La variance

    La variance est par definition la moyenne des carres des ecarts par rapport a` lamoyenne. Elle est estimee par

    2 =1

    n

    ni=1

    (yi y)2 = . . . =ni=1 y

    2i

    n y2

    Il arrive quon divise par n 1 au lieu de n: le resultat est note par s2. On as2 =

    n

    n 1 2

    Lorsque la distribution empirique des frequences est disponible sous la forme{(yk, nk) : k = 1, . . . , K} ou` nk est la frequence associee a` la ke`me valeuryk, on a

    2 =1

    n

    Kk=1

    nk(yk y)2 =Kk=1

    wk(yk y)2 = . . . =Kk=1

    wky2k y2

    ou` wk = nk/n est la frequence relative.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 35

  • Mesures de dispersion (6)

    Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):yi yi y (yi y)2 y2i9 0.8 0.64 81

    8 -0.2 0.04 64

    9 0.8 0.64 81

    9 0.8 0.64 81

    6 -2.2 4.84 36

    9 0.8 0.64 81

    10 1.8 3.24 100

    11 2.8 7.84 121

    6 -2.2 4.84 36

    5 -3.2 10.24 25

    82 0 33.6 706

    y = 82/10 = 8.2. 2 = 33.610 = 70610 8.22 = 3.36.

    A` partir de la distribution empirique des frequences:

    yk 5 6 8 9 10 11 Total

    nk 1 2 1 4 1 1 10wk 0.1 0.2 0.1 0.4 0.1 0.1 1wkyk 0.5 1.2 0.8 3.6 1.0 1.1 8.2wky

    2k 2.5 7.2 6.4 32.4 10.0 12.1 70.6

    wk(yk y)2 1.024 0.968 0.004 0.256 0.324 0.784 3.36 y = k wkyk = 8.2. 2 = k wk(yk y)2 = 3.36ou 2 =

    k wky

    2k y2 = 70.6 8.22 = 3.36.

    s2 = 109 2 = 3.73.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 36

  • Mesures de dispersion (7)

    Ex Variance de taille, poids et age par sexe:

    age taille poids

    Homme 103.1 51.6 110.5

    Femme 78.4 42.8 92.5

    Remarques concernant la variance

    La variance est sensible a` la presence de valeurs extremes. Lunite de la variance est le carre de lunite utilisee pour les observations.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 37

  • Mesures de dispersion (8)

    Lecart-type

    Lecart-type s est la racine carree de la variance s2.Ex Serie dobservations: s =

    3.73 = 1.93.

    Ex Ecart-type de taille, poids et age par sexe:

    age taille poids

    Homme 10.2 7.2 10.5

    Femme 8.9 6.5 9.6

    Remarques concernant lecart-type

    Lecart- type est sensible a` la presence de valeurs extremes. Lunite de lecart-type est la meme que celle des observations.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 38

  • Mesures de dispersion (9)

    Lorsque la distribution (des frequences) dune variable a` la forme dune cloche,environ 95% (99%) des observations se trouvent a` moins de deux (trois) ecart-types

    de la moyenne.

    Ex Ecart-type des poids des 247 hommes:

    Lintervalle y 2s = 78.1 2 10.5 =(57.1, 99.1) devrait approximativement

    contenir 95% des donnees.

    Ici, il en contient 95.1%.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 39

  • Mesures de dispersion (10)

    Le coefficient de variation

    Il est defini par CV = s(y)/y.

    Cette mesure est souvent utilisee car elle est depourvue dunite et insensible aux

    changements dechelle.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 40

  • Mesures dassociation

    Coefficient de correlation lineaire de Pearson

    Cest une mesure dassociation (lineaire) entre deux variables quantitatives:

    1 r(x, y) = 1n

    ni=1

    xi xx

    yi yy

    1

    r > 0: de grandes (petites)valeurs pour x sont associees a` de

    grandes (petites) valeurs pour y.

    r < 0: de grandes (petites)valeurs pour x sont associees a` de

    petites (grandes) valeurs pour y.

    La force de cette association estdautant plus grande que |r| estproche de 1.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 41

  • Ex Correlation entre la taille et le poids de 247 hommes: r = 0.53

    Ex Correlation entre lage et le poids de 247 hommes: r = 0.14

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 42

  • Calcul du coefficient de correlation de Pearson

    r(x, y) =1

    n

    ni=1

    xi xx

    yi yy

    30 35 40 45 50 55

    3540

    4550

    x

    y

    i xi yi x2i y

    2i (xi x) (yi y) (xi x)(yi y)

    1 30 35 900 1225 -12.50 -7.83 97.922 35 40 1225 1600 -7.50 -2.83 21.253 40 38 1600 1444 -2.50 -4.83 12.084 45 46 2025 2116 2.50 3.17 7.925 47 45 2209 2025 4.50 2.17 9.756 58 53 3364 2809 15.50 10.17 157.58

    255 257 11323 11219 306.50

    Moyennes: x = 255/6 = 42.5 ; y = 257/6 = 42.83 Variances: 2x = 11323/6 x2 = 80.92 ; 2y = 11219/6 y2 = 35.42 Correlation: r(x, y) = 16 306.580.92 35.42 = 0.95

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 43

  • Association entre 2 variables categorielles

    European Social Survey: enquete financee par lEC realisee tous les 2 ans depuis2002 dans plus de 30 pays europeens (dont la Belgique).

    Les questions portent sur differents aspects de la vie des personnes questionnees(utilisation des medias, confiance, sante, exclusion. . . ).

    Les personnes questionnees sont selectionnees a` laide dun sondage probabiliste a`plusieurs degres (voir chap. 3 & 4) ; interview face-a`-face.

    Ex Quel interet avez-vous pour la politique? (ESS 2008, Belgique).

    Interet pour la politique

    Genre Tre`s interesse Assez interesse Peu interesse Pas du tout interesse

    Masculin 91 369 269 135

    Feminin 55 337 301 203

    Cette table de contingence reprend les frequences associees a` chacune des modalitesproposees pour les 1760 personnes qui ont apporte une reponse a` cette question.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 44

  • Variable reponse et variable explicative

    Dans lexemple precedent, linteret pour la politique apparat clairement commela variable dinteret: cest la variable reponse.

    Certains aspects de la distribution de la variable reponse seront compares dans lesgroupes definis par lautre variable, ici le genre.

    Cest une variable explicative (. . . des valeurs prises par la variable reponse).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 45

  • Calcul de pourcentages

    Les frequences brutes apparaissant dans la table de contingence ne permettent pasde visualiser rapidement comment la reponse apportee se distribue et change avec

    le genre.

    Pour y parvenir, il est conseille de calculer la distribution empirique des frequencesrelatives (= pourcentages) de la variable reponse pour chaque modalite de la

    variable explicative.

    Interet pour la politiqueGenre Tre`s interesse Assez interesse Peu interesse Pas du tout interesse Total

    Masculin 91 (10.5%) 369 (42.7%) 269 (31.1%) 135 (15.6%) 864 (100%)Feminin 55 (6.1%) 337 (37.6%) 301 (33.6%) 203 (22.7%) 896 (100%)

    Total 146 (8.3%) 706 (40.1%) 570 (32.4%) 338 (19.2%) 1760 (100%)

    On voit desormais relativement clairement que les femmes tendent a` presenter uninteret moins marque que les hommes pour la politique.

    Une absence de lien entre les 2 variables se manifesterait par des pourcentagessemblables dans les 2 lignes du tableau.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 46

  • Representation graphique du lien entre 2 categorielles

    Masc (n=864) Fem (n=896)

    Pas du tout intressPeu intressAssez intressTrs intress

    Intrt pour la politique et genre

    010

    2030

    4050

    6070

    8090

    100 Chaque barre correspond a` une

    modalite de la variable explicative

    avec un rappel des effectifs pour cha-

    cune.

    Le partage de chaque barre entreles modalites de la reponse se fait

    proportionnellement aux frequences

    relatives correspondantes.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 47

  • Autre exemple

    Lien entre le niveau deducation du repondant (dau moins 30 ans) et celui de ses

    parents [ESS 2002, Belgique].

    La variable reponse est de toute evidence le niveau de formation du repondant. La variable explicative est le niveau de formation dun des parents.

    Diplome du repondantDiplome Pe`re Primaire Secondaire Superieur Total Primaire 148 (29.0%) 301 (58.9%) 62 (12.1%) 511 (100%)Secondaire 15 (3.7%) 232 (56.7%) 162 (39.6%) 409 (100%)

    Superieur 2 (1.3%) 45 (29.4%) 106 (69.3%) 153 (100%)

    Total 165 (15.4%) 578 (53.9%) 330 (30.7%) 1073 (100%)

    Diplome du repondantDiplome Me`re Primaire Secondaire Superieur Total Primaire 152 (25.2%) 365 (60.5%) 86 (14.3%) 603 (100%)Secondaire 11 (2.8%) 195 (49.2%) 190 (48.0%) 396 (100%)

    Superieur 2 (2.7%) 18 (24.3%) 54 (73.0%) 74 (100%)

    Total 165 (15.4%) 578 (53.9%) 330 (30.7%) 1073 (100%)

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 48

  • Representation graphique du lien avec le Pe`re

  • Representation graphique du lien avec la Me`re

  • Les variables en presence peuvent avoir le meme statut . . .

    Dans lexemple precedent, on pourrait sinteresser au lien eventuel entre les niveauxde formation des parents du repondant.

    Pour resituer le contexte, rappelez-vous que le repondant avait au moins 30 ans

    en 2002. Il sagit donc dans la plupart des cas de couples qui se sont maries au

    plus tard debut des annees 70 !

    Diplome Pe`re

    Diplome Me`re Primaire Secondaire Superieur Primaire 443 144 16Secondaire 62 250 84

    Superieur 6 15 53

    A priori, aucune de ces variables ne simpose comme la reponse. Tout depend du point de vue de lanalyste. . .

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 51

  • Point de vue 1: cest lepouse qui choisit son conjoint. . .

    Dans ce cas. la variable explicative est le diplome de la Me`re ;

    . la variable reponse est le diplome du Pe`re.

    Diplome Pe`re

    Diplome Me`re Primaire Secondaire Superieur Total Primaire 443 (73%) 144 (24%) 16 (3%) 603 (100%)Secondaire 62 (16%) 250 (63%) 84 (21%) 396 (100%)

    Superieur 6 (8%) 15 (20%) 53 (72%) 74 (100%)

    Total 511 (48%) 409 (38%) 153 (14%) 1073 (100%)

    Lamour nest pas aveugle. . . :. Plus de 6 (voir 7) fois sur 10, la Me`re choisit un conjoint avec le meme

    niveau de formation quelle: qui se ressemble sassemble !

    . Dans les autres cas, elle tend a` choisir un conjoint avec un niveau de for-

    mation pas trop eloigne ou superieur au sien.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 52

  • Point de vue 2: cest lepoux qui choisit sa conjointe. . .

    Dans ce cas. la variable explicative est le diplome du Pe`re ;

    . la variable reponse est le diplome de la Me`re.

    Diplome Pe`re

    Diplome Me`re Primaire Secondaire Superieur Total Primaire 443 (87%) 144 (35%) 16 (10%) 603 (56%)Secondaire 62 (12%) 250 (61%) 84 (55%) 396 (37%)

    Superieur 6 (1%) 15 (4%) 53 (35%) 74 (7%)

    Total 511 (100%) 409 (100%) 153 (100%) 1073 (100%)

    Le constat nest pas le meme:. Pre`s de 9 fois sur 10, le Pe`re choisit une partenaire avec niveau de formation

    au plus egal au sien.

    . Alors quune femme avec un diplome superieur choisissait un conjoint avec

    un meme niveau de formation dans 72% des cas, ce pourcentage nest que

    de 35% chez les hommes.

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 53

  • Point de vue 3: comment les diplomes se combinent-ils?

    Il peut etre interessant de calculer le pourcentage associe a` chacune des 9 combi-naisons possibles de diplomes.

    Diplome Pe`re

    Diplome Me`re Primaire Secondaire Superieur Primaire 443 (41.3%) 144 (13.4%) 16 (1.5%)Secondaire 62 (5.8%) 250 (23.3%) 84 (7.8%)

    Superieur 6 (0.6%) 15 (1.4%) 53 (4.9%)

    . 4 fois sur 10 (41.3%), les parents ont tous les 2 un diplome primaire.

    . Pre`s d1 fois sur 4 (23.3%), les parents ont tous les 2 un diplome secondaire.

    . Les couples primaire-superieur sont rares (0.6%+1.5%).

    P. Lambert c - Institut des sciences humaines et sociales Statistique descriptive - 54