22
UNIVERSIT ´ E D’ORL ´ EANS UFR de Sciences 2011–2012 STATISTIQUES DESCRIPTIVES Notes de cours Didier CHAUVEAU

Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

UNIVERSITE D’ORLEANS

UFR de Sciences

2011–2012

STATISTIQUES DESCRIPTIVES

Notes de cours

Didier CHAUVEAU

Page 2: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

1

1 Introduction

En preambule, il est important de souligner la difference d’approche entre cequ’il est convenu d’appeler les methodes statistiques, et l’analyse de donnees ouplus simplement les methodes descriptives objet de ces notes de cours. Les deuxcorpus de methodes s’attachent a degager d’un volume de donnees disponible, desresumes synthetiques et eventuellement des “decision”. Les donnees peuvent etre desobservations brutes (enregistrements de qualite de pieces produites, de phenomenesmeteorologiques, de resultats de sondages type INSEE, de cours de bourse. . .) oubien des donnees issues de protocoles experimentaux (experiences biologiques, agro-nomiques. . .).

Les techniques statistiques, en tant que science, consistent a prendre en compte lefait que les donnees sont entachees d’aleatoire (en particulier en recourant au tiraged’echantillons), et qu’il ne s’agit que d’une connaissance imparfaite d’une realitesous-jacente. On modelise donc leur recueil par l’usage des methodes mathematiquesdu calcul des probabilites. Cette approche necessite donc de faire des hypothesessur la nature aleatoire des donnees, ce qui est contraignant, mais offre en retour desconclusions ou des regles de decision “garanties” en terme de probabilites, concernantla population d’ou provient l’echantillon.

La terminologie “Analyse des donnees” emerge dans la deuxieme moite duvingtieme siecle, lorsque le progres des moyens de calcul permet de faire subir destraitements simplificateurs a des masses de donnees de plus en plus grandes, et cesans (ou eventuellement prealablement a) la mise en place de modeles probabilistes.Ces techniques ne doivent pas etre vues comme s’opposant aux methodes ditesstatistiques, mais comme complementaires de celles-ci, les deux points de vue s’etantlargement interpenetres dans leur progression commune.

L’objet des statistiques descriptives est de donner un resume (numerique ougraphique) d’une population sur laquelle on observe des caracteres ou variables sta-tistiques. On note Ω = 1, ..., n cette population de n “individus” et on pose p“questions” a ces n individus (il s’agit d’une terminologie generale, ces questionspeuvent etre des observations, des mesures physiques ou de veritables questionsdans un sondage). On note X1, ..., Xp ces questions, et (X1

` , ..., Xp` ) la “reponse”

de l’individu ` a ces p questions. La presentation usuelle des donnees est la tableindividus-caracteres, qui consiste a ranger les donnees dans une matrice X dedimension (n, p), dans laquelle la i-ieme ligne notee Xi est la reponse de ` auxp questions, et la j-ieme colonne contient la reponse des n individus a la j-iemequestion : c’est le j-ieme caractere, ou variable statistique Xj.

On distingue :

– les reponses de nature qualitatives, dont les valeurs sont de type categorielles,

Page 3: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 2

en general non ordonnees– les reponses de nature quantitatives, ordonnees, typique des mesures phy-

siques.

Dans ces notes, on se limite aux techniques elementaires de resumes et de representations.Ces methodes sont limitees aux etudes des liens simultanes entre quelques variables(disons p ≤ 3, bien que certaines techniques de representation, notamment dans R,peuvent aller plus loin). L’etude globale de liens entre p variables pour p “grand”necessite les techniques d’analyse de donnees proprement dites, et plus precisementles methodes factorielles telles que l’Analyse en Composante Principales (ACP).

Nous illustrerons les differentes methodes sur le tout petit jeu de donnees exemplede la table 1, qui recense p = 5 caracteristiques sur n = 17 individus. Les sortiesproviennent du logiciel de statistique R qui est gratuit et multi-plateforme (voir [4]et www.r-project.org).

Tab. 1 – Jeu de donnees exemple, a n = 17 individus et p = 4 caracteres.

NOM SEXE AGE TAILLE POIDS CSPAubray M 41 188 76 CA

Ron M 42 173 75 CACarl M 32 178 70 EM

Antonio M 39 183 75 CADeborah F 30 168 56 MA

Jacqueline F 33 168 52 CAHelen F 26 163 54 EMDavid M 30 180 71 MAJames M 53 183 79 CA

Michael M 32 175 64 MARuth F 47 175 63 EMJoel M 34 183 73 EM

Donna F 23 157 44 EMRoger M 36 190 72 CA

Elisabeth F 31 170 61 CATim M 29 180 79 MA

Susan F 28 165 59 EM

2 Caracteres (facteurs) qualitatifs

Dans le cas ou on observe un caractere qualitatifX, on choisi de noter generiquementx1, ..., xk l’ensemble des modalites possibles que peut prendre X. En pratique cesmodalites peuvent etre codees par des lettres ou des nombres, ce qui n’a pas d’im-

Page 4: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 3

portance tant que l’on n’utilise pas la relation d’ordre sur les nombres lorsque ellen’a pas de sens. Des exemple de telles variables sont le sexe , qui peut etre code parexemple X ∈ M,F comme dans le jeu de donnees Tab. 1, ou bien X ∈ 0, 1(sans relation d’ordre), la CSP (Categorie Socio-Professionnelle, qui dans l’exempleTab. 1 prend pour simplifier les valeurs CAdre, EMploye, MAnuel), le groupesanguin,. . .

On utilise souvent le terme de facteur pour designer une variable qualitative.Cette terminologie vient du fait que l’on s’interesse souvent a l’effet que produit unou plusieurs facteur sur une ou plusieurs variables numeriques. Par exemple dansl’analyse “jouet” de la table 1, on peut s’interesser a l’effet du facteur sexe sur la tailledes individus. Nous verrons dans la suite des methodes descriptives et graphiquespour mettre en evidence de tels effets.

2.1 Observation d’un caractere qualitatif

C’est la situation la plus simple ; on observe sur Ω un seul caractere qualitatif X,c’est-a-dire que a chaque “individu” ` on fait correspondre sa “reponse” X` ∈ E =x1, ..., xk, pour ` = 1, . . . , n. Pour un veritable caractere qualitatif, les modalitesne sont pas ordonnees, donc pas comparables (en particulier la valeur moyenne deX n’a pas de sens).

2.1.1 Resume numerique

On resume la distribution des valeurs prises par X par la table des frequences,qui consiste a compter les occurrences de chaque modalite. On note

ni =n∑`=1

IX`=xi, et fi =nin, i = 1, . . . , k.

Remarquons que∑k

i=1 fi = 1, et donc (f1, . . . , fk) est une probabilite sur x1, ..., xk,qui s’interprete comme la loi de probabilite empirique de X : fi = P(X = xi),i = 1, . . . , k.

Exemple 1 Pour les donnees 1, on compte n1 = 7 occurrences de “F” et n2 = 10occurrences de “M” ; la table de frequence (probabilites empiriques) de la variablesexe est

F M

0.412 0.588

Page 5: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 4

donc 41.2% de cette population sont des femmes. Cette table peut etre calculee sousR par la commande table(sexe).

2.1.2 Representation : l’histogramme

On represente la distribution des valeurs par l’histogramme (ou diagramme enbatons), dans lequel les modalites de E sont en abscisse et les frequences absoluesni ou les probabilites empiriques fi sont en ordonnee (figure 1).

F M

02

46

810

Fig. 1 – Histogramme des ni pour la variable sexe, obtenu sous R par la commandeplot(sexe).

2.2 Observation de deux caracteres qualitatif

A chaque “individu” `, on fait a present correspondre sa “reponse” (X`, Y`), ouX` ∈ E = x1, ..., xK et Y` ∈ F = y1, . . . , yL, pour ` = 1, . . . , n. Les comptagesabsolus et relatifs dans le cas de 2 caracteres sont les comptages du nombre ou dela frequence d’occurrences de tout couple de modalites (xi, yj),

nij =n∑`=1

IX`=xi,Y`=yj, fij =nijn, 1 ≤ i ≤ K, 1 ≤ j ≤ L.

Le vecteur (fij, 1 ≤ i ≤ K, 1 ≤ j ≤ L) verifie∑K

i=1

∑Lj=1 fij = 1, et s’interprete

comme la loi empirique du couple (X, Y ). A cette loi empirique on associe la loimarginale (empirique) du caractere X, donnee par les K frequences (f1•, . . . , fK•),et la loi marginale du caractere Y , donnee par les L frequences (f•1, . . . , f•L), ou le• remplace l’indice pour lequel on somme :

fi• =L∑j=1

fij, f•j =K∑i=1

fij, avecK∑i=1

fi• =L∑j=1

f•j = 1.

Page 6: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 5

On represente les frequences empiriques du couple (X, Y ) sous forme d’une tablede contingence, table (K × L) dans laquelle a l’intersection de la ligne i et de lacolonne j figure fij (ou nij).

Exemple 2 Dans le cas de nos donnees, la table de contingence croisant X =SEXE

avec Y =CSP est :

csp

sexe CA EM MA

F 0.118 0.235 0.059

M 0.294 0.118 0.176

par exemple, 29.4% de cette population sont des cadres masculins. Les sommes enligne ou en colonne donnent les lois marginales X ou Y . La loi marginale de X estcelle donnee au § 2.1.

2.2.1 Etude des profils

On peut aussi etudier les lois conditionnelles empiriques, qu’en analyse de donneeson appelle les profils-ligne et profils-colonne . Le i-eme profil-ligne est la repartitionde Y lorsque X vaut xi, qui s’interprete comme la loi de probabilite (Y |X = xi), em-pirique. Dans notre exemple, il s’agit de la repartition en CSP des femmes (x1 = F)ou des hommes (x2 = M). La probabilite conditionnelle empirique P(Y = yj|X = xi)se determine en calculant les frequences de reponses Y = yj parmi les individusayant repondu X = xi, autrement dit il s’agit de l’emploi de la formule de Bayes :

P(Y = yj|X = xi) =P(Y = yj, X = xi)

P (X = xi)=fijfi•, j = 1, . . . , L. (1)

On obtient ainsi K profils-lignes (fi1/fi•, . . . , fiL/fi•), i = 1, . . . , K, que l’on a cou-tume de representer par l’histogramme des profils, qui est un histogramme de lavariable de conditionnement (X) avec representation dans chaque barre associee axi du i-ieme profil-ligne. Les choix de representations dependent des logiciels. Parexemple dans R la fonction spineplot(X,Y) cree des barres de meme hauteur, maisde largeurs proportionnelles aux fi•, de sorte qu’il est facile de comparer visuellementles repartitions des profils-ligne dans chaque modalite de X.

L’interet de ces representations est de pouvoir evaluer visuellement les liens entreles caracteres X et Y (dans notre exemple, il est naturel de se demander si le sexea une influence sur la CSP ; c’est une question que se posent classiquement lesinstituts de sondage a plus grande echelle). En effet, dans le cas d’independance entre

Page 7: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 6

sexe

csp

F M

CA

EM

MA

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 2 – Histogramme des profils de csp par sexe.

ces deux variables, les repartitions de Y ne sont pas influencees par les modalitesde conditionnement en X, et donc les profils calcules sur les donnees doivent etreapproximativement semblables (on aurait a peu pres la meme repartition de cadres,employes et manuels que l’on soit un homme ou une femme, ce qui n’est pas le casau vu de la figure 1). Les liens entre deux variables qualitatives peuvent etre etudiesplus precisement grace a l’Analyse Factorielle des Correspondances, une methoded’analyse de donnees fondee sur la technique de projection optimale d’un nuage depoints (comme l’Analyse en Composante Principales). Cette intuition est egalementprecisee dans un cadre statistique par le test d’independance du χ2.

2.2.2 Test d’independance du χ2

Ce test fait appel aux techniques de statistique inferentielle, et a ce titre nedevrait pas figurer dans ce texte consacre aux statistiques descriptives. Mais il esttellement couramment utilise dans le cadre de l’observation de deux variables qua-litatives qu’il est bon de le connaıtre. De plus il ne necessite pas d’hypotheses demodeles contraignantes sur les donnees (il n’exige en particulier pas de modele pa-rametrique sur les lois sous-jacentes).

On observe les n couples de “reponses” ((X1, Y1), . . . , (Xn, Yn)) precedents, et onsouhaite tester l’hypothese (dite hypothese nulle)

H0 : “X et Y sont independantes” contre H1 : “c’est faux”.

On se place ici dans un cadre de modele statistique, c’est-a-dire que l’on considere (cequi est non contraignant dans ce cadre) que ces observations sont des realisationsaleatoires et identiquement distribuees (iid) du couple de variables aleatoires quel’on notera aussi (X, Y ). La loi du couple (X, Y ) est un K × L-uple que l’on note

p = (pij, i = 1, . . . , K, j = 1, . . . , L), pij = P(X = xi, Y = yj),

Page 8: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 7

et les lois marginales de X et Y sont les suites (pi•)1≤i≤K et (p•j)1≤j≤L donnees par :

pi• = P(X = xi) =L∑j=1

pij, p•j = P(Y = yj) =K∑i=1

pij.

Sous l’hypothese nulle, la loi du couple est la loi p0 produit des marginales :

p0ij = pi•p•j, ∀i = 1, . . . , K, j = 1, . . . , L.

Intuitivement, on souhaite proceder comme pour un test parametrique usuel(e.g., le test de Student), c’est-a-dire estimer la loi du couple par la loi empirique (p) :

pij =nijn

= fij, i = 1, . . . , K, j = 1, . . . , L,

et calculer une distance entre p et la loi sous H0. La “distance” adaptee entredeux probabilites discretes sur le meme espace est la distance du χ2 (qui n’est pasmathematiquement une distance car non symetrique, on parle de dissimilarite). Sicette distance χ2(p0, p) est “trop grande”, alors on rejette H0. La difficulte vientde ce que la loi p0 sous H0 n’est pas connue : a la difference par exemple du testde Student, elle n’est pas totalement specifiee par l’hypothese nulle. Il faut doncl’estimer elle aussi, ce que l’on fera en estimant les marginales :

p0ij =

ni•n

n•jn

= fi•f•j.

Sous des conditions qui sont verifiees dans le cas present, on montre alors que, sousH0, la loi de la statistique

nχ2(p0, p

)= n

K∑i=1

L∑j=1

(p0ij − fij

)2

p0ij

=K∑i=1

L∑j=1

(np0

ij − nij)2

np0ij

tend vers une loi du chi-deux dont les degres de libertes sont le nombre de parametresestimes pour la loi empirique (KM − 1) diminues du nombre de parametres estimessous H0. Ici, on estime K−1 parametres pi• et L−1 parametres p•j puisque chaquesuite somme a 1, soit KL− 1− (K− 1)− (L− 1) = (K− 1)(L− 1). On admet doncle resultat asymptotique suivant :

Theoreme 1 Si l’hypothese nulle d’independance est satisfaite, alors

nχ2(p0, p

)L→ χ2((K − 1)(L− 1)) lorsque n→∞.

On dit que nχ2(p0, p

)converge en loi vers la loi limite ci-dessus.

Page 9: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 8

On rappelle que

Definition 1 Si (Z1, . . . , Zd) sont des variables aleatoires i.i.d. de loi normale N (0, 1),alors la loi de

∑di=1 Z

2i est appelee loi du chi-deux a d degres de liberte, notee

T =d∑i=1

Z2i ∼ χ2(d).

Son esperance est E(T ) = d et sa variance var(T ) = 2d.

Il n’est pas utile pour ce cours de connaıtre l’expression de sa densite, dans lamesure ou notre besoin sera l’obtention de quantiles ou de probabilites d’intervallessous cette loi, et que ceux-ci ne sont pas explicites (et donc tabules et accessiblesdans les logiciels de statistique).

0 10 20 30 40

0.00

0.05

0.10

0.15

0.20

0.25

z

f1

d=3

d=10

d=20

Fig. 3 – Allure de la densite de la loi χ2(d) pour d = 3 (noir), d = 10 (tirets) etd = 20 (tirets longs).

Intuitivement, ceci signifie que si les variables sont independantes, les fluctuationsaleatoires dans l’estimation de la loi du couple et des marginales font que la distance

Page 10: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

2 CARACTERES (FACTEURS) QUALITATIFS 9

normalisee entre ces lois, nχ2(p0, p

), se comporte comme une loi χ2((K − 1)(L −

1)) dont des exemples de densite sont donnes Fig. 3. Il faut garder ces graphiquespresents a l’esprit lorsque on utilise cette loi pour la construction d’intervalles deconfiance ou de tests, ils indiquent dans quels intervalles la statistique de test prendraisonablement ses valeurs lorsque H0 est vraie. La construction de la region de rejetse fait avec un quantile de cette loi limite :

Proposition 1 Le test de H0 : “X et Y sont independantes” contre “c’est faux” deniveau voisin de 0 < α < 1 conduit au rejet de H0 si

nχ2(p0, p

)> χ2

(K−1)(L−1),1−α

.

L’application de la proposition 1 produit la decision “rejet” ou “non rejet” deH0 au niveau α. Mais cette decision seule est imprecise : on ne sait pas si on arejete “largement” ou “de justesse” H0. Les logiciels de statistique preferent donnerle resultat d’un test sous la forme de la p-valeur ou probabilite critique du test,plus petit niveau qui permette de rejeter H0 avec l’observation obtenue pour lastatistique de test a partir des donnees nχ2(p0, p) = x. L’expression mathematiquede la p-valeur depend du test (de la loi de la statistique de test sous H0 et de la formede sa region de rejet). Pour le test du χ2 d’independance la probabilite critique est

p = P(Z > x), ou Z ∼ χ2((K − 1)(L− 1)).

Exemple 3 On applique le test du χ2 a la table de l’exemple 2, qui croise sexe

(K = 2) et CSP (L = 3). On obtient la valeur numerique

nχ2(p0, p

)= 2.5009

qui suit approximativement une loi χ2(2). Le seuil de rejet au niveau α = 5% estici χ2

2,0.95 = 5.991 (on le lit dans une table, ou on l’obtient par exemple sous R parla commande qchisq(0.95,2). Donc on ne peut pas rejeter l’hypothese nulle. Lap-valeur du test est p = P(Z > 2.5009), ou Z ∼ χ2(2) ; a l’aide d’une table defonction de repartition de cette loi (ou d’un logiciel) on obtient p = 0.2864, ce quisignifie que si on rejette H0, la probabilite de se tromper (rejet de H0 a tort) est de28.64%, ce qui est trop important, on conclu donc que le sexe n’a pas d’influencesur la CSP.

On remarque que cette conclusion n’est pas en accord avec celle que l’on pensaitraisonnable au vu de l’histogramme des profils (fig. 2). Il se trouve que l’effectifobserve ici (n = 17) n’est pas suffisant pour que l’approximation donnee par letheoreme 1 s’applique : en fait le test sur ces donnees de faible effectif n’est pasvalide, meme si les calculs sont realisables.

Page 11: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 10

3 Caracteres quantitatifs

On parle de caractere quantitatif lorsque la “reponse” de la variable observeeest a valeur dans un ensemble muni d’une relation d’ordre. En general il s’agitd’un sous-ensemble d’entiers, X ∈ N (age en annees, nombre d’enfants,. . .), ou plusgeneralement de reels X ∈ E ⊆ R (mesures physiques, taille, poids,. . .).

3.1 Observation d’un caractere quantitatif

On observe sur Ω la variable X ∈ E ⊆ R, et on note ici Xi la reponse del’individu i, pour i ∈ 1, . . . , n. Par exemple, pour la table 1, X peut etre l’age, lataille ou le poids.

3.1.1 Representation : l’histogramme

Comme pour un caractere qualitatif, on peut representer la distribution desvaleurs de X a l’aide d’un histogramme. Cependant il faut ici distinguer deux cas :

1. E = x1, . . . , xk avec Card(E) = k petit, ce qui peut etre le cas si la va-riable ne peut techniquement prendre sur la population observee que peu devaleurs distinctes (exemple, le nombre d’enfants dans une famille, k ≤ 10le plus souvent), ou si X represente une mesure avec un fort arrondi (parexemple les ages en annees entieres dans une classe de CP, k ≤ 3). Dans cecas, on peut representer X a l’aide d’un histogramme par valeurs, dans lequela chaque valeur distincte xj de E on fait correspondre une barre de hauteurfj =

∑ni=1 IXi=xj

/n, comme dans le cas d’un facteur qualitatif (mais ici les xjsont ordonnees).

2. X est une mesure (physique) precise (taille, poids) ; on aura alors le plussouvent pratiquement autant de valeurs distinctes observees que le nombre nd’observations. Dans ce cas un histogramme par valeur ne donne pas d’in-formation (voir fig. 4, gauche), et on procede par discretisation, c’est-a-diredecoupage de l’intervalle [min(Xi),max(Xi)] en k classes :

c0 = min1≤i≤n

(Xi) < c1 < · · · < ck = max1≤i≤n

(Xi).

On affecte alors a chaque barre la hauteur

ni =n∑i=1

IXi∈[cj−1;cj [

(cas de l’histogramme des frequences, voir fig. 4) ou fi = ni/n (histogrammedes probabilites empiriques).

Page 12: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 11

23 26 28 29 30 31 32 33 34 36 39 41 42 47 53

0.0

0.5

1.0

1.5

2.0

age

Fre

quen

cy

20 25 30 35 40 45 50 55

01

23

45

Fig. 4 – Histogramme de age par valeurs (gauche) et par discretisation en k = 7classes (droite).

Le choix du nombre de classes k d’un histogramme est important :– Si k est trop grand par rapport a n (penser par exemple au cas k = n pour

fixer les idees) alors les classes ne contiennent que rarement plus d’une valeur,autrement dit ni ∈ 0, 1 le plus souvent, et l’histogramme n’apporte pasd’information (il est comparable a celui de la fig. 4, gauche).

– Si k est trop petit, l’histogramme est trop “grossier” et n’apporte pas non plusd’information (penser par exemple au cas extreme k = 2, ou, si la coupure sefait “au milieu” (notion definie ci-dessous) de la distribution, on observera apeu pres f1 = f2 = 1/2).

Il existe des algorithmes de determination automatique du nombre k = k(n,X)“optimal” de classes en fonction de la taille (n) des donnees et parfois de la dispersiondes donnee (notion definie plus loin). Ces algorithmes sont en general calibres pourdes donnees gaussiennes (dont les observations sont proches de celles issues d’uneloi normale). Les logiciels SAS ou R utilisent de tels algorithmes.

3.1.2 Mesures de localisation

La localisation est la “tendance centrale” d’une distribution. La moyenne empi-rique des valeurs de X est le parametre de localisation naturel :

X =1

n

n∑i=1

Xi.

On utilise parfois une notation un peu plus generales, en particulier lorsque on abesoin de ponderer les individus de maniere non uniforme. On affecte alors a i lepoids pi ∈]0, 1[, de sorte que la suite des poids p = (p1, . . . , pn) verifie

∑ni=1 pi = 1.

La suite p peut ainsi etre vue comme une probabilite particuliere sur l’ensembleΩ = 1, . . . , n.

Page 13: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 12

Definition 2 La moyenne empirique de la variable X affectee des poids p =(p1, . . . , pn) est

X =n∑i=1

piXi.

La moyenne empirique peut etre vue comme une esperance mathematique relati-vement a la probabilite p sur Ω, et verifie donc les meme proprietes qu’une esperance.En particulier elle est lineaire : si pour un scalaire a ∈ R on note Y = aX la variabledont les observation sont (aX1, . . . , aXn), on a Y = aX, et si on note Y = X + Zpour une autre variable observee Z (exprimee dans les memes unites que X), lavariable dont les cordonnees sont (X1 + Z1, . . . , Xn + Zn), on a Y = X + Z. Cesnotation vectorielles seront utilisees egalement au chapitre ??.

On peut toujours centrer une variable X en retirant sa moyenne empirique atoutes ses coordonnees : si on note In le vecteur (colonne) compose de 1, de taille n,alors la variable centree associee a X est, en notation vectorielle,

Y = X − XIn =

X1...Xn

− X 1

...1

qui verifie Y = 0.

Une autre tendance centrale, moins dependante des valeurs extremes que X, estl’analogue empirique de la mediane d’une loi de probabilite, c’est-a-dire le milieude la distribution en probabilite. Pour le determiner on trie les donnees par ordrecroissant, et on note

X(1) ≤ X(2) ≤ · · · ≤ X(n)

les donnees triees (le vecteur des X(i), i = 1, . . . , n s’appelle les statistiques d’ordrede X ; cette notation vient de ce que le resultat s’obtient via une permutation del’ensemble indices 1, . . . , n de depart).

La mediane empirique de X est alors M ∈ R tel que– si n impair, n = 2d+ 1, M = X(d)

– si n pair, n = 2d on peut prendre M = X(d), ou bien M =X(d) +X(d+1)

2(cela

depend des logiciels).Par exemple sur les donnees de la table 1, la mediane de Taille, calculee avec R parla commande median(taille), est M = 175.

Page 14: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 13

3.1.3 Quantiles empiriques

On generalise la notion de mediane a celle du quantile empirique d’ordre α ∈]0, 1[ : c’est le reel Qα tel que l’on ait une proportion α des donnees de valeursinferieure a Qα. La mediane M est le quantile d’ordre 1/2. On le calcule egalementa l’aide des statistiques d’ordre :

Definition 3 Le quantile empirique d’ordre α ∈]0, 1[ de X est

Qα = X([nα]),

ou pour x ∈ R, [x] est la partie entiere de x, c’est-a-dire l’entier le plus proche de x,et pour k ∈ N, X(k) est la k-ieme statistique d’ordre de X.

Pour fixer les idees, si l’on dispose de n = 100 donnees, le quantile empirique d’ordreα = 0.10 est X(10). Les 3 quantiles Q0.25, Q0.5 = M et Q0.75 qui coupent la distri-bution en 4 parties d’egale probabilite 1/4 s’appellent les quartiles. Les quantilesQ0.10, . . . , Q0.90 qui la coupent en parts de probabilite 1/10 s’appellent les deciles.L’intervalle Q0.75 −Q0.25, qui contient 50% de la distribution, s’appelle ecart inter-quartiles.

Representation des quantiles empiriques : Boxplot Un boxplot, ou “boıteet moustaches” est un diagramme de representation de la distribution d’une variableau moyen de quelques quantiles caracteristiques, et eventuellement de certaines va-leurs particulieres, dites “extremes”. Les limites de la “boıte” de ce diagrammerepresentent les quartiles 25% et 75%, entre lesquelles la mediane figure (ligne ho-rizontale) ; les lignes extremes (moustaches) representent des valeurs extremes dontla definition depend des logiciels utilises. Dans le logiciel R par exemple, il s’agit desvaleurs extremes ne se trouvant pas a plus de 1.5IQR de la boite, ou IQR est l’ecartinterquartiles.

L’interet des representations de type boxplots reside surtout dans la comparaisonde distributions empiriques entre plusieurs variables, ou bien entre les distributionsd’une meme variable ventilee suivant les modalites d’un facteur qualitatif. La fig. 5represente par exemple la distribution de la variable taille en considerant toutesles observations, puis en ventilant celles-ci par sexe. On voit alors clairement uneffet du sexe des individus sur leurs taille, qui se manifeste par une translation detoute la distribution.

3.1.4 Mesures de dispersion

Une mesure de localisation ne decrit pas a elle seule toutes les caracteristiquesd’une distribution (empirique ou non). Deux variables peuvent avoir la meme moyenne

Page 15: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 14

160

165

170

175

180

185

190

F M

160

165

170

175

180

185

190

Fig. 5 – Boxplot de taille (gauche) et boxplots de taille par sexe (droite).

empirique et cependant etre tres differentes ; par exemple l’une peut avoir des ob-servations tres concentrees autour de sa moyenne, l’autre tres “dispersee”. C’estcette notion de dispersion, que l’on mesure usuellement par la moyenne des ecartsquadratiques a la moyenne empirique :

Definition 4 La variance empirique de la variable X affectee des poids p =(p1, . . . , pn) est

σ2(X) =n∑i=1

pi(Xi − X)2 (2)

On retrouve la variance empirique usuelle lorsque p est la ponderation uniforme,pi = 1/n pour tout i = 1, . . . , n.

La variance empirique verifie les memes proprietes que la variance d’une variablealeatoire, car on peut la considerer comme telle, relativement a la probabilite p surΩ. En particulier, pour a et b constantes,

σ2(aX + bIn) = a2σ2(X). (3)

La variance s’exprime dans le carre de l’unite dans laquelle s’exprime X, ce qui peutetre genant pour les interpretations, pour lesquelles on utilise plutot l’ecart-type note

σ(X) =√σ2(X).

Exemple 4 Pour les donnees 1, les variances et ecart-types des variables quantita-tives peuvent etre calculees sous R par les commandes

Page 16: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 15

> var(poids)

[1] 108.5588

> sd(taille)

[1] 9.148288

par exemple l’ecart-type de la taille est de 9.15 cms.

On peut toujours reduire une variable X, c’est-a-dire la transformer en une va-riable de variance 1, en divisant les observations par son ecart-type : vectoriellementon note Y = X/σ(X) qui verifie σ2(Y ) = 1 en appliquant (3) avec a = 1/σ(X).

La variable centree reduite associee a X est donc Z = (X − XIn)/σ(X), qui estde moyenne empirique nulle et de variance empirique 1.

3.2 Observation de deux caracteres quantitatifs

On observe deux variables X et Y numeriques, et on note (Xi, Yi) la reponse del’individu i comme precedemment. On pourrait penser representer la loi du couplepar un histogramme 3D, mais en general ces representations sont difficilement li-sibles. On leur prefere les representations de type nuage de points ou scatterplot,diagramme en 2 dimensions sur lequel l’individu i a pour coordonnees (Xi, Yi) ou(Yi, Xi), suivant l’interpretation que l’on a des liens entre les variabes, et en par-ticulier de la causalite de la relation. En effet, on a l’habitude de choisir commevariable en ordonnees celle que l’on pense pouvoir dependre de la variable en abs-cisse (et eventuellement d’autres variables). Il est de plus courant de representersur ces graphiques les individus par des “labels” (noms, caracteristiques, modalitesd’un facteur,. . .) plutot que par un symbole grahique. Ceci est utile si l’analyse peutporter sur les individus, ou groupes d’individus (cas ou n n’est pas trop grand). Leslogiciels de statistique courants permettent de telles representations. Par exemple,la fig. 6 represente le nuage du poids contre la taille (parce que on pense que le poidspeut dependre de la taille et pas le contraire) avec deux types de labels, les nomsdes individus (pour reperer des individus particuliers) et les modalites du facteursexe (pour etudier l’effet de ce facteur et ses liens avec taille et poids).

3.2.1 Liaison lineaire entre deux variables quantitatives

On s’interesse souvent au lien entre X et Y , pour repondre a des questions comme“Y a-t-il tendance a etre grand si X l’est ?”. Le critere numerique qui mesure cettedependance est l’analogue de la covariance de deux variables aleatoires :

Page 17: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

3 CARACTERES QUANTITATIFS 16

160 165 170 175 180 185 190

4550

5560

6570

7580

taille

poid

s

AubrayRon

Carl

Antonio

Deborah

Jacqueline

Helen

David

James

MichaelRuth

Joel

Donna

Roger

Elisabeth

Tim

Susan

160 165 170 175 180 185 19045

5055

6065

7075

80taille

poid

s

MM

M

M

F

F

F

M

M

MF

M

F

M

F

M

F

Fig. 6 – Nuage de points de poids contre taille avec representation des noms(gauche) et des modalites du facteur sexe avec coloration(droite).

Definition 5 La covariance empirique des variables X et Y pour la ponderationp = (p1, . . . , pn) est

Γ(X, Y ) =n∑i=1

pi(Xi − X)(Yi − Y ). (4)

Intuitivement, on voit par exemple que lorsque un Xi est “grand”, disons Xi > X,et que simultanement Yi > Y , ou bien qu’ils sont tous deux “petits”, l’individu iapporte une contribution positive a la covariance ; il en apporte une negative dans lescas contraires. La covariance s’exprime dans le produit des unites des deux variables,ce qui n’est pas pratique, on lui prefere pour l’interpretation le critere suivant :

Definition 6 Le coefficient de correlation empirique des variables X et Ypour la ponderation p = (p1, . . . , pn) est

ρ(X, Y ) =Γ(X, Y )

σ(X)σ(Y ). (5)

On montre que ρ(X, Y ) ∈ [−1, 1], et que ρ(X, Y ) = ±1 si et seulement si il existea, b reels tel que X = aY + bIn.

Ce coefficient de correlation mesure la force de la liaison lineaire entre X et Y .Par exemple ρ(X, Y ) ≈ 1 signifie que les variables X et Y ont tendance a croıtre

Page 18: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

4 LIAISONS ENTRE UN CARACTERE QUANTITATIF ET UN FACTEUR 17

simultanement, autrement dit que les individus caracterises par de fortes valeurs deX possedent aussi de fortes valeurs de Y , “fortes” signifiant au-dessus de la moyenneempirique.

3.2.2 Regression lineaire simple

Lorsque un tel lien est constate (par l’etude de la forme du nuage de points, etle calcul de ρ(X, Y )), on peut proposer un modele reliant ces 2 variables, de forme

Y = β + αX,

ou Y est la variable a expliquer et X la variable explicative ou regresseur. On re-cherche alors la “meilleure” droite, c’est-a-dire celle passant au plus pres des pointsdu nuage. Ceci revient a determiner les estimateurs (α, β) des parametres de penteet constante par la methode des moindres carres, qui cherche a minimiser lesecarts

(β, α) = minα,β

n∑i=1

(Yi − αXi − β)2 .

Le calcul de (α, β) est direct ; on obtient

α =Γ(X, Y )

σ2(X), β = Y − αX,

Ce type de modele permet ensuite de faire de la prediction de Y par X : imaginonsque une nouvelle observation x de X soit disponible, mais que la valeur y qui luicorresponde soit inacessible (mesure couteuse, etc). On peut predire cette valeur parla valeur ajustee y = β + αx. Cette technique se generalise a plusieurs regresseurs,ou a des modeles non lineaires.

Par exemple ici la regression de Y = Poids sur X = Taille donne comme estima-teurs β = −109.138, α = 0.999.

4 Liaisons entre un caractere quantitatif et un

facteur

On peut egalement, par des techniques elementaires, etudier et resumer les effetsd’un facteur (c’est-a-dire une variable qualitative X ∈ x1, . . . , xk) sur une variablequantitative (disons Y ∈ R). Les logiciels proposent de nombreuses methodes : statis-tiques descriptives par groupes identifies par les modalites du facteur, distributionsboxplot par groupes (comme dans la fig. 5, droite).

Page 19: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

4 LIAISONS ENTRE UN CARACTERE QUANTITATIF ET UN FACTEUR 18

160 165 170 175 180 185 190

4550

5560

6570

7580

taille

poids

AubrayRon

Carl

Antonio

Deborah

JacquelineHelen

David

James

MichaelRuth

Joel

Donna

Roger

Elisabeth

Tim

Susan

Fig. 7 – Nuage de points de poids contre taille avec droite de regression lineaire.

Techniquement, il s’agit simplement de calculer les statistiques precedentes (moyennes,variances, ecart-types,. . .) sur Y , separement pour chaque groupe identifies par lesmodalites du facteur X. Par exemple, si on note Yxj

la moyenne empirique en Y desindividus ayant repondu xj pour x, on a

Yxj=

∑ni=1 YiIXi=xj∑ni=1 IXi=xj

j = 1, . . . , k. (6)

Exemple 5 Pour les donnees 1, les moyennes de Y =taille par le facteur X =sexe

peuvent etre calculees sous R par

> tapply(taille,sexe,mean)

F M

166.5714 181.3000

Donc YM = 181 > YF = 167. Ceci suggere d’utiliser un test statistique (par exemplele test de Student) afin de voir si les hommes sont plus grands que les femmes au vude ces donnees.

Page 20: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

5 OBSERVATION DE P CARACTERES QUANTITATIFS 19

5 Observation de p caracteres quantitatifs

On considere une population de n “individus”, ou chaque individu a repondu ap “questions” de nature quantitative. La “reponse” de l’individu i aux p questionsest la i-ieme ligne de la table individus-caracteres

Xi = (X1i , . . . , X

pi ),

et est affectee, comme on l’a vu precedemment, d’un poids pi. Les poids representent“l’importance” accordee a l’individu i dans l’analyse, et verifient

∑ni=1 pi = 1 (la

ponderation usuelle est pi = 1/n pour tout i = 1, . . . , n).

Dans ce cadre quantitatif, la table individus-caracteres est une matrice X (n×p),dans laquelle la i-ieme ligne Xi est note comme un vecteur-ligne, mais sera considerecomme vecteur-colonne dans les calculs algebriques. La j-ieme colonne de cette ma-trice est le j-ieme caractere ou variable statistique Xj comme precedemment.

La moyenne empirique du j-ieme caractere est

Xj =n∑i=1

piXji

et on definit le tableau des donnees centrees, matrice (n× p)

Y = [Y 1 · · ·Y p], ou Y j = Xj − XjIn,

et ou In est le vecteur (colonne) compose de 1, de taille n :

tIn = (1, . . . , 1︸ ︷︷ ︸×n

).

Les variables associees a la table Y sont de moyennes empiriques nulles : Y j = 0pour j = 1, . . . , p. On note egalement N la matrice (n× n) diagonale des poids :

N =

p1 0 . . . 00 p2 . . . 0

0 . . .. . . 0

0 . . . 0 pn

Definition 7 On appelle matrice de variances-covariances empiriques as-sociee aux p variable quantitative (X1, . . . , Xp), la matrice Γ de dimension (p× p),donnee par

Γjk =n∑i=1

pi(Xji − Xj)(Xk

i − Xk) = Γ(Xj, Xk), j, k = 1, . . . , p,

Page 21: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

REFERENCES 20

ou Γ(Xj, Xk) est la covariance empirique entre les caracteres Xj et Xk definieen (4). Les termes diagonaux de cette matrice sont les variances empiriques :

Γjj =n∑i=1

pi(Xji − Xj)2 = σ2(Xj), j = 1, . . . , p.

La matrice Γ est symetrique (tΓ = Γ), et positive (∀v ∈ Rp, tvΓv ≥ 0). On verifieque matriciellement

Γ = tYNY.

Pour l’interpretation des liaisons lineaires entre les caracteres deux a deux, on utiliseplutot en analyse de donnees la matrice de correlations :

Definition 8 On appelle matrice de correlations empiriques associee aux pvariable quantitative (X1, . . . , Xp), la matrice (p× p) R, donnee par

Rjk = ρ(Xj, Xk) =Γ(Xj, Xk)

σ(Xj)σ(Xk), 1 ≤ j, k ≤ p.

ou ρ(Xj, Xk) est la correlation empirique entre les caracteres Xj et Xk.

Pour le petit jeu de donnees exemple, il n’y a que 3 variables quantitatives, dontla matrice de correlations empiriques est :

age taille poids

age 1.000 0.570 0.592

taille 0.570 1.000 0.878

poids 0.592 0.878 1.000

References

[1] Bouroche, J.M., Saporta, G. L’Analyse des Donnees, PUF, Que sais-je no 1854,1983.

[2] Chauveau D. Initiation au logiciel SAS, Notes de cours, 2010.

[3] Dacunha-Castelle D., Duflo M. Probabilites et Statistiques, Tome 1, Masson, 2dEdition, 1994.

[4] R Development Core Team (2010). R : A language and environment for sta-tistical computing. R Foundation for Statistical Computing, Vienna, Austria.ISBN 3-900051-07-0, URL http ://www.R-project.org.

[5] Saporta, G. Probabilites, analyse des donnees et statistiques, Tecnip, 1990.

Page 22: Didier CHAUVEAUthebear45.free.fr/miage/Master 1/Analyse de données... · 2013. 12. 9. · Didier CHAUVEAU. 1 1 Introduction En pr eambule, ... Joel M 34 183 73 EM Donna F 23 157

Index

p-valeur, 9ecart interquartiles, 13ecart-type, 14

boıte et moustaches, 13boxplot, 13

caractere, 1qualitatif, 2quantitatif, 10

centrage, 12coefficient de correlation empirique, 16covariance empirique, 16

deciles, 13discretisation, 10distance

du χ2, 7

facteur, 3, 13, 17formule de Bayes, 5

histogramme, 4, 10des profils, 5nombre de classes, 11

localisation, 11logiciel R, 2, 11

median, 12plot, 4qchisq, 9sd, 15spineplot, 5table, 4tapply, 18var, 15

loi de probabiliteconditionnelle empirique, 5du chi-deux, 8empirique, 3

empirique du couple, 4marginale, 4

mediane empirique, 12methode des moindres carres, 17matrice de correlations empiriques, 20matrice de covariances empiriques, 20moyenne empirique, 11

nuage de points, 15

ponderation, 11prediction, 17probabilite critique, 9profils-colonne, 5profils-ligne, 5

qualitatif, 1quantile empirique, 13quantitatif, 2quartiles, 13

reduction, 15regression lineaire, 17

statistiques d’ordre, 12

table de contingence, 5table des frequences, 3table individus-caracteres, 1, 19Test d’independance du χ2, 6

variance empirique, 14

21