105
Aix Marseille Universit´ e L3 MASS Cours d’Analyse des donn´ ees. F. Castell.

Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Embed Size (px)

Citation preview

Page 1: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Aix Marseille Universite

L3 MASS

Cours d’Analyse des donnees.

F. Castell.

Page 2: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

2

Page 3: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Table des matieres

1 Introduction. 7

2 Statistique descriptive unidimensionnelle. 92.1 Une seule variable quantitative discrete. . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Differentes representations. . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.2 Caracteristiques numeriques . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . . . . . 132.2.1 Representations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Caracteristiques numeriques. . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 Une seule variable qualitative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Vers la statistique inferentielle. Normalisation de donnees quantitatives. . . . . . 16

2.4.1 Comment tester la normalite ? . . . . . . . . . . . . . . . . . . . . . . . . 172.4.2 Que faire si l’hypothese de normalite n’est pas satisfaite ? . . . . . . . . . 18

2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.5.1 Une seule variable quantitative discrete. . . . . . . . . . . . . . . . . . . 222.5.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . 222.5.4 Normalisation de donnees quantitatives . . . . . . . . . . . . . . . . . . . 23

2.6 Pour aller plus loin : fonctions de repartition, simulation. . . . . . . . . . . . . . 242.6.1 Fonction de repartition. . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.6.2 Fonction de repartition empirique. . . . . . . . . . . . . . . . . . . . . . . 27

3 Statistique descriptive bidimensionnelle. 293.1 Deux variables quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.1 Representation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1.2 Coefficient de correlation lineaire empirique. . . . . . . . . . . . . . . . . 293.1.3 Coefficient de correlation des rangs de Spearman. . . . . . . . . . . . . . 32

3.2 Une variable quantitative et une variable qualitative. . . . . . . . . . . . . . . . 363.2.1 Distribution theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.2 Quantites empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 383.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2.5 Que faire lorsque l’hypothese de normalite n’est pas satisfaite ? . . . . . . 42

3.3 Deux variables qualitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3.1 Distribution theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3

Page 4: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

4 TABLE DES MATIERES

3.3.2 Quantites empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 503.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.4.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 523.4.2 Une variable qualitative et une variable quantitative . . . . . . . . . . . . 543.4.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Analyse en Composantes Principales. 554.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.1.1 Espace des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.1.2 Inertie d’un nuage de points. . . . . . . . . . . . . . . . . . . . . . . . . . 604.1.3 Espace metrique des variables. . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2 Principes de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.1 Le probleme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.2 Espaces et axes principaux. . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.3 Composantes Principales (CP) . . . . . . . . . . . . . . . . . . . . . . . . 664.2.4 Resume d’une analyse en composantes principales. . . . . . . . . . . . . . 68

4.3 ACP dans l’espace des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.4 Les representations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.4.1 Representation des individus. . . . . . . . . . . . . . . . . . . . . . . . . 704.4.2 Representation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.5 Reconstitution des donnees de depart. . . . . . . . . . . . . . . . . . . . . . . . . 744.6 Pratique de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.6.1 Nombre d’axes a retenir. . . . . . . . . . . . . . . . . . . . . . . . . . . . 744.6.2 Interpretation de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.7 Tableau recapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.8 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.8.1 Description du jeu de donnees. . . . . . . . . . . . . . . . . . . . . . . . . 764.8.2 Objectif. Choix des variables et des individus actifs. . . . . . . . . . . . . 764.8.3 Choix du nombre d’axes a retenir. . . . . . . . . . . . . . . . . . . . . . . 774.8.4 Carte des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.8.5 Carte des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 Analyse Factorielle des Correspondances (AFC). 855.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.1.1 Table de contingence et profils. . . . . . . . . . . . . . . . . . . . . . . . 855.1.2 Ecart a l’independance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.2 Principes de l’AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.2.1 Nuage des profils-lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.2.2 Nuage des profils-colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . 885.2.3 Metrique du khi2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.2.4 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Page 5: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

TABLE DES MATIERES 5

5.3 ACP des deux nuages profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.3.1 ACP des profils-lignes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.3.2 ACP des profils-colonnes. . . . . . . . . . . . . . . . . . . . . . . . . . . 935.3.3 Relations de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.4 Formules de reconstitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 955.5 Tableau recapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.6 Aides a l’interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.7 Exemple traite sous R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.7.1 Description des donnees. . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.7.2 Objectifs. Choix des modalites actives. . . . . . . . . . . . . . . . . . . . 985.7.3 Choix du nombre d’axes a retenir. . . . . . . . . . . . . . . . . . . . . . . 985.7.4 Analyse des resultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.8 Exercice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6 References. 103

Page 6: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

6 TABLE DES MATIERES

Page 7: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Chapitre 1

Introduction.

L’objet de ce cours est de donner quelques outils couramment employes en statistique pourtraiter des donnees multidimensionnelles. Ces donnees correspondent souvent a l’observation denombreuses variables aleatoires sur plusieurs individus, le mot individu etant a prendre en unsens tres large. Ces donnees sont representees sous forme d’un tableau ou chaque ligne representeles variables mesurees sur un individu. Le but est d’extraire le maximum d’informations de cetableau de donnees. Suivant la nature de la question posee, et suivant la nature des donnees,plusieurs methodes sont possibles. Voici quelques exemples de questions que nous chercheronsa aborder dans ce cours.

1. Analyse des relations entre plusieurs variables.On a releve aupres d’un echantillon de personnes des descripteurs d’utilisation de differentsmedia, des temps d’activites quotidiennes et d’autres caracteristiques telles que l’age, lesexe, le niveau d’education, le lieu de residence.... etc.

On souhaite savoir quelles sont les variables liees entre elles sans qu’aucune des variablesne soit vraiment privilegiee.

Si les variables auxquelles on s’interesse sont toutes des variables quantitatives, il s’agitd’un probleme d’analyse en composante principale (ACP). S’il s’agit de deux va-riables qualitatives, on parle d’analyse factorielle des correspondances (AFC). S’ils’agit de p ≥ 3 variables qualitatives, on parle d’analyse des correspondances mul-tiples (ACM).

En plus de decrire les liens entre variables, ces methodes permettent :— d’”eliminer” des variables peu pertinentes, car l’information qu’elles apportent est

deja contenue dans les autres variables ;— de donner des representations graphiques les plus fideles possible, de l’ensemble des

donnees sur un graphe plan (ou de dimension 3).Elles sont souvent une premiere etape, dite exploratoire ou descriptive, avant demettre en oeuvre d’autres methodes, qui necessitent des hypotheses sur les donnees.

2. Etude de l’influence des variables sur une variable particuliere.On peut s’interesser au type de media choisi en fonction du sexe, de l’age, du sportpratique, etc... Ici, on met en exergue une des variables, dite variable a expliquer,(ou variable d’interet, variable reponse). On veut analyser l’influence des autresvariables (dites variables explicatives, ou variables regresseurs) sur la variable

7

Page 8: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

8 Analyse des Donnees. Fabienne CASTELL

d’interet. La tableau suivant donne la terminologie des methodes utilisees suivant lanature des donnees :

Variable a expliquer Variable a expliquerquantitative qualitative

Var explicatives Classification supervisee ,quantitatives Regression Analyse discriminanteVar explicativesqualitatives analyse de variance AFC, ACM

References :

un bon investissement : ”Probabilites, Analyse des donnees et Statistique”, de GilbertSaporta. Editions Technip.

Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-Andre Cornillon,Arnaud Guyader, Francois Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, EricMatzner-Lober, Laurent Rouviere. Presses Universitaires de Rennes.

ainsi que le site des auteurs du livres :

http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/statistiques.avec.R

deux sites ou vous trouverez beaucoup d’informations utiles :— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/— Le site http ://wikistat.fr/

Page 9: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Chapitre 2

Statistique descriptiveunidimensionnelle.

Avant de rentrer dans l’analyse de donnees multidimensionnelles, nous allons commencerpar rappeler quelques concepts de base permettant de decrire une serie de donnees.

Nous considerons ici que nous avons mesure une variable sur n individus dans la population.On obtient donc une serie d’observations notees (x1, · · · , xn). On peut aussi associer a l’indi-vidu i, un poids wi (”w” pour ”weight”) representant son importance dans la population. Parexemple, si les individus representent des regions, on peut vouloir associer a chaque region unpoids proportionnel au nombre d’habitants de la region. La serie des poids w = (w1, · · · , wn)verifie :

∀i ∈ 1, · · · , n , wi ≥ 0 ;n∑i=1

wi = 1. (2.1)

Si tous les individus ont meme poids, alors wi = 1n.

2.1 Une seule variable quantitative discrete.

Une variable quantitative discrete est une variable prenant des valeurs discretes (entieresou decimales). Theoriquement le nombre de valeurs possibles est au plus denombrable ; enpratique il est souvent assez faible. On peut penser par exemple au nombre de deplacementsjournaliers d’une personne, au nombre d’enfants par famille, au nombre de mois separant la findes etudes et le premier emploi en CDI, .... etc.

Exemple 2.1: On a note le nombre de mois separant la fin des etudes et le premier emploien CDI de 25 etudiants issu d’un master MASS. Les resultats sont les suivants et sont desdonnees fictives : 9 5 5 6 5 10 7 5 8 8 8 4 7 8 4 3 4 5 7 7 6 3 2 6 9 .

On notera (x1, · · · , xn) la serie de donnees, et (y1, · · · , yr) les valeurs possibles pour cesdonnees, ordonnees par ordre croissant (y1 < · · · < yr).

9

Page 10: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

10 ANALYSE DES DONNEES. FABIENNE CASTELL.

yj nj Nj fj Fj2 1 1 1/25 1/253 2 3 2/25 3/254 3 6 3/25 6/255 5 11 5/25 11/256 3 14 3/25 14/257 4 18 4/25 18/258 4 22 4/25 22/259 2 24 2/25 24/2510 1 25 1/25 1

Table 2.1 – Tableau representant les donnees de l’exemple 2.1.

2.1.1 Differentes representations.

Lorsque tous les individus ont meme poids (wi = 1/n pour tout i), ces donnees sont souventrepresentees sous forme d’un tableau donnant pour chaque valeur possible yj (1 ≤ j ≤ r) :

— l’effectif nj qui lui est associe,

nj = nombre d’individus pour lesquels la variable mesuree vaut yj

= card i ≤ n;xi = yj ;

On a evidemment∑r

j=1 nj = n.— l’effectif cumule Nj ,

Nj =

j∑i=1

ni ;

— la frequence fj = nj/n ;— la frequence cumulee Fj =

∑ji=1 fj = Nj/n.

Question : Comment adapter ces definitions au cas ou l’individu i est affecte d’un poidswi ?

Ce tableau peut-etre represente sous forme de diagrammes.Diagramme en batons : C’est le graphe de yj 7→ fj (ou de yj 7→ nj).Diagramme cumulatif : C’est le graphe de yj 7→ Fj (ou de yj 7→ Nj). Plus precisement,

il s’agit du graphe de la fonction de repartition empirique Fn definie par :

Fn(x) =

0 si x < y1

Fj si yj ≤ x < yj+1, pour 1 ≤ j ≤ r − 11 si x ≥ yr

On a

Fn(x) =1

n

n∑i=1

1Ixi≤x (2.2)

La figure 2.1 donne ces deux graphes sur les donnees de l’exemple 2.1.

Page 11: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 11

2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

Nombre de mois entre fin des etudes et premier CDI

frequ

ence

0 2 4 6 8 10 120

0.2

0.4

0.6

0.8

1

Nombre de mois entre fin des etudes et premier CDI

frequ

ence

cum

ulee

Figure 2.1 – Diagramme batons et diagramme cumulatif des donnees de l’exemple 2.1.

2.1.2 Caracteristiques numeriques

Caracteristiques de position : elles donnent un ordre de grandeur de la serie.

— Moyenne empirique : xn = 1n

∑ni=1 xi =

∑rj=1 fjyj ;

— Quantiles empiriques : La fonction ”quantile empirique” est la fonction inverse dela fonction de repartition empirique. Pour α ∈ [0.1], le quantile empirique d’ordreα est une valeur de qα telle que Fn(qα) ≥ α et Fn(qα−) ≤ α. Notez qu’une telle valeurn’est pas necessairement unique (cf diagramme 2.2). Une mediane empirique estun quantile empirique d’ordre α = 1/2, i.e. c’est une valeur de la variable observeeen dessous de laquelle et au dessus de laquelle les effectifs sont egaux ; le premierquartile et le troisieme quartile correspondent respectivement a α = 1/4 et α =3/4.

Caracteristiques de dispersion : elles donnent une idee de la variabilite de la serie, i.e. uneidee de la facon dont la serie varie autour de sa ”tendance centrale”.

— Variance empirique : σ2n(x) = 1

n

∑ni=1(xi − xn)2 =

∑rj=1 fj(yj − xn)2 ;

— Ecart interquartile : q3/4 − q1/4.

Une representation synthetique de ces caracteristiques est donnee par le diagramme-boıte(”boxplot” en anglais”), qui donne les quartiles, la mediane, et les valeurs extremes de la serie.Sa representation est donnee dans la figure 2.3.

Page 12: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

12 ANALYSE DES DONNEES. FABIENNE CASTELL.

0 2 4 6 8 10 120

0.2

0.4

0.6

0.8

1

Nombre de mois entre fin des etudes et premier CDIfre

quen

ce c

umul

ee

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

2

4

6

8

10

!

Qua

ntile

d’o

rdre

!

0.72

0.72

!

Tout l’intervalle est quantile d’ordre 0.72

médiane

Tout l’intervalle est quantile d’ordre 0.72

Quantile d’ordre !

Figure 2.2 – Quantiles empiriques sur les donnees de l’exemple 2.1.

24

68

10

Figure 2.3 – Diagramme-boıte sur les donnees de l’exemple 2.1.

Page 13: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 13

2.2 Une seule variable quantitative continue.

Une variable quantitative est dite continue lorsqu’elle peut prendre a priori un continuumde valeurs possibles, comme par exemple la temperature. Dans ce cadre, on se retrouve avecune serie de donnees (x1, · · · , xn) ou la plupart des xi sont distincts, le cas de xi egaux resultantessentiellement de la ”troncature” des donnees (ecriture a la deuxieme decimale par exemple).La encore, chacun des individus peut etre affecte d’un poids, la serie des poids etant notee(w1, · · · , wn). Ici, on supposera que tous les individus ont meme poids.

2.2.1 Representations graphiques.

Courbe cumulative ou Fonction de repartition empirique : elle est definie de la meme faconque dans le cas discret. C’est le graphe de la fonction de repartition empirique definie par(2.2). Si on note (x(1), · · · , x(n)) la suite des (x1, · · · , xn) ordonnee par ordre croissant, etsi on pose x(0) = −∞, x(n+1) = +∞, on a par definition de Fn(x),

Fn(x) =i

n, ∀x ∈ [x(i);x(i+1)[ (i = 0, . . . , n) .

Fn est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont lessauts sont situes sur les points de l’echantillon de donnees (cf figure 2.4). On peut aussila representer comme une fonction lineaire par morceaux (cf figure 2.4).

Quand on suppose que les donnees (x1, · · · , xn) sont une realisation de n variablesaleatoires i.i.d. (X1, · · · , Xn) (ce qu’on notera (x1, · · · , xn) = (X1(ω), · · · , Xn(ω)) ou ωdesigne l’echantillon particulier qu’on est en train de regarder), et que les Xi sont dememe fonction de repartition F , la fonction de repartition empirique permet de se faireune idee de F . La loi des grands nombres dit en effet que pout tout x ∈ R,

limn→+∞

Fn(x) = limn→+∞

1

n

n∑i=1

1IXi(ω)≤x = P(X1 ≤ x) = F (x) ,

et on peut montrer que la convergence est uniforme (theoreme de Glivenko-Cantelli).

Histogramme et histogramme normalise : Le diagramme en batons est remplace par la no-tion d’histogramme. On partitionne l’ensemble (disons R) dans lequel vivent les va-riables xi :

R = ∪ri=1Ii ; Ii ∩ Ij = ∅ si i 6= j .

A chacun des ensembles Ij, on associe son effectif

nj = card xi tel que xi ∈ Ij =n∑i=1

1IIj(xi) .

L’histogramme associe a ce decoupage est la courbe x ∈ Ij 7→ Hn(x) = nj.Notez que l’histogramme depend fortement du choix de la partition.

Notez aussi que∫Hn(x) dx =

∑rj=1 nj |Ij| 6= 1 en general. Si on veut normaliser de facon

a ce que l’histogramme soit une densite de probabilite, differentes possibilites s’offrent

Page 14: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

14 ANALYSE DES DONNEES. FABIENNE CASTELL.

a vous. Une facon automatique de proceder (adoptee par defaut par les logiciels) est dediviser l’intervalle [xmin;xmax] (ou xmin = min(xi) et xmax = max(xi)) en k intervallesde meme longueur h = (xmax − xmin)/k. Dans ce cas,

∑rj=1 nj |Ij| = h

∑rj=1 nj = hn =

n(xmax − xmin)/k. L’histogramme normalise est alors la courbe

x ∈ Ij 7→ hn(x) =k

xmax − xminnjn.

Quand les intervalles Ij ne sont pas de meme longueur, on peut normaliser l’histogrammede facon a s’assurer que l’histogramme normalise soit ”une approximation de la densite”.C’est ce qui explique dans les lignes qui suivent.

Histogramme et estimation de densite : Quand on suppose que les donnees (x1, · · · , xn) sontune realisation de n variables aleatoires i.i.d. (X1, · · · , Xn), et si on suppose que les Xi

sont de densite commune fX , alors pour tout x ∈ Ij,

1

nHn(x) =

1

n

n∑i=1

1IIj(Xi(ω)) .

Par la loi des grands nombres, on a alors pour (presque) tout ω,

limn→+∞

1

n

n∑i=1

1IIj(Xi(ω)) = P [X1 ∈ Ij] =

∫Ij

fX(y) dy ≈ fX(x) |Ij| ,

ou la derniere approximation suppose que l’intervalle Ij soit de petite longueur, et quela densite fX soit reguliere. Ainsi pour une partition assez fine, la fonction hn : x ∈ Ij 7→1nHn(x)/ |Ij| = nj

n|Ij | est une bonne approximation de fX .

Estimation de densite. L’histogramme normalise presente precedemment a le defaut de dependredu choix de la partition, et ce choix affecte beaucoup la qualite de l’estimation de ladensite. Aussi, d’autres methodes d’estimation de la densite ont ete developpees. Unemethode courante est la methode du noyau qui propose d’estimer fX par

hn,λ(x) =1

n∑i=1

K

(x− xiλ

),

ou— la fonction K (le noyau) est une fonction positive, paire, d’integrale 1 (par exemple

la densite de la loi N(0, 1) : K(x) = 1√2π

exp(−x2

2

)) ;

— le parametre dit de lissage λ est a choisir (strictement positif..).En effet, la loi des grands nombres dit a nouveau que

limn→∞

1

n∑i=1

K

(x−Xi

λ

)=

1

λE[K

(x−X1

λ

)]=

1

λ

∫K

(x− yλ

)fX(y) dy

=

∫K(z)fX(x− λz) dz

Page 15: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 15

ou la derniere egalite vient du changement de variable z = (x−y)/λ. Si fX est reguliere,on voit que limλ→0

∫K(z)fX(x− λz) dz = fX(x)

∫K(z) dz = fX(x). Ainsi,

limλ→0

limn→∞

hn,λ(x) = fX(x) .

Des resultats plus sophistiques (et qui nous depassent ici) etudient les ”meilleures facons”de choisir λ en fonction de n et des donnees (λ = λn(x1, · · · , xn)) de telle sorte quelimn→∞ λn = 0 et que limn→∞ hn,λn(x) = fX(x) le ”plus vite” possible.

2.2.2 Caracteristiques numeriques.

Ce sont les memes que dans le cas discret :

Caracteristiques de position :— Moyenne empirique : xn = 1

n

∑ni=1 xi ;

— Quantiles empiriques : La fonction ”quantile empirique” est la fonction inverse dela fonction de repartition empirique. Selon que la fonction de repartition empiriqueest vue comme une fonction en escalier ou comme une fonction lineaire par morceaux,on aboutit a deux notions legerement differentes pour les quantiles. L’avantage de larepresentation ”lineaire par morceau” pour la fonction de repartition empirique, estde lever les ambiguites dues aux ”marches” de l’escalier. C’est cette solution qui esten general adoptee par les logiciels.

Caracteristiques de dispersion :— Variance empirique : σ2

n(x) = 1n

∑ni=1(xi − xn)2 ;

— Ecart interquartile : q3/4 − q1/4.

Diagramme-boıte : representation synthetique des caracteristiques de position et de disper-sion.

Exemple 2.1: Voici sur le jeu de donnees suivant une illustration des differentes notionsintroduites precedemment.

0.5799 3.4561 0.4609 3.908 4.3653 -0.6389 0.9086 4.8374 1.6108 -2.7677

La figure 2.4 donne les differentes representations graphiques. Les caracteristiques numeriquessont :

— Moyenne empirique : xn = 1.67207 ;— Mediane empirique : mn = 1.259778 ;— Variance empirique : σ2

n(x) = 5.97284 ;— Ecart inter-quartile empirique : dn = 3.304417.

2.3 Une seule variable qualitative.

Comme leur nom l’indique, les variables qualitatives decrivent une ”qualite” de l’individu(sexe, profession, marque d’un produit, ....etc). Si les ”qualites” regardees sont ordonnees (men-tion a un concours par exemple), on parle de variables ordinales. Sinon, on parle de variables

Page 16: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

16 ANALYSE DES DONNEES. FABIENNE CASTELL.

Histogramme normalisé

x

h n(x

)

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

−5 0 5

0.00

0.04

0.08

0.12

Estimateur à noyau

N = 10 Bandwidth = 1.388

h n(x

)

−2 0 2 4

0.2

0.4

0.6

0.8

1.0

Courbes cumulatives

x

Fn(

x)

−2

02

4

Diagramme boîte

Figure 2.4 – Les differentes representations graphiques sur les donnees de l’exemple 2.1.

nominales. Pour les variables qualitatives, les caracteristiques numeriques n’ont aucun sens.On se contente donc des representations graphiques (diagramme en colonnes, diagrammeen barre ou camembert) , qui donnent pour chaque modalite yj de la variable qualitativeregardee, son effectif nj, ou sa frequence fj =

njn

. Ces differentes representations sont donneesdans la figure 2.5 pour les donnees de l’exemple 2.3 du a Fisher sur un echantillon de n = 3883ecossais.Exemple 2.1:

Blond Roux Chatain Brun Noir de jaisnj 1136 216 1526 955 50

2.4 Vers la statistique inferentielle. Normalisation de don-

nees quantitatives.

Lorsque l’on veut aller plus loin qu’une simple description des donnees, i.e. lorsqu’ on veutfaire de la prediction ou des tests, le statisticien est amene a faire des hypotheses sur son jeude donnees, qui definissent un modele statistique. En particulier, beaucoup de methodes sta-tistiques (dites parametriques) suppose que les donnees (x1, · · · , xn) sont une realisation parti-culiere de n variables (X1, · · · , Xn) independantes (independance des individus dans l’echantillon),de meme loi (les individus proviennent d’une population ”homogene”). Pour des donnees quanti-tatives, cette loi est souvent supposee etre une loi normale N(µ, σ2) (on dit alors que (x1, · · · , xn)est une realisation d’un n-echantillon de la loi N(µ, σ2)). Cette hypothese de normalite peut

Page 17: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 17

Blond Roux Chât Brun Noir

Diagramme en colonnes

0.0

0.1

0.2

0.3

Diagramme baton

BlondRouxChât

BrunNoir Blond

Roux

Chât

Brun

Noir

Camembert

Figure 2.5 – Les differentes representations graphiques sur les donnees de l’exemple 2.3.

se justifier par le theoreme de la limite centrale lorsque la taille de l’echantillon est grand.Mais, dans la plupart des cas, elle n’est pas forcement justifiee. Cela pose evidemment problemepuisque toute l’analyse statistique qui suit, depend fortement de la validite du modele suppose.Quand on veut utiliser ces methodes, on doit donc faire face aux deux problemes suivants :

1. Peut-on raisonnablement supposer que (x1, · · · , xn) est la realisation d’un n-echantillonde la loi N(µ, σ2) ?

2. Si ce n’est pas le cas, que faire ?

2.4.1 Comment tester la normalite ?

Pour tester la normalite, on peut utiliser un des tests d’ajustement vus dans le cours de”Statistique 2” (test d’ajustement du χ2, de Kolmogorov, de Shapiro....). Pour avoir une ideeplus visuelle de l’ecart a la normalite, on peut aussi tracer sur un meme graphe la fonctionde repartition empirique des donnees prealablement centrees et reduites, et la fonction derepartition Φ de la N(0, 1). Bien plus visuel est le diagramme de type ”Q-Q-plot” (litteralementgraphe Quantile-Quantile) qui trace les quantiles empiriques en fonction des quantiles de la loia laquelle on fait l’ajustement. S’il s’agit de la loi normale, ce graphe est donc le graphe de(Φ−1(α), Qn(α)), α ∈ [0; 1], ou Qn est la fonction quantile empirique, i.e. l’inverse de la fonc-tion de repartition empirique Fn.

Si les donnees sont la realisation d’un n-echantillon de N(0, 1), alors Fn ∼ F = Φ, et doncQn ∼ Φ−1. Le ”Q-Q-plot” est donc proche de la droite y = x.

Si les donnees sont issus d’un n-echantillon de N(µ, σ2), alors Fn(x) ' F (x) = P(X1 ≤ x) =P(X1−µ

σ≤ x−µ

σ) = Φ

(x−µσ

), et on a donc en inversant cette relation Qn(α) ' µ + σΦ−1(α). Le

Page 18: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

18 ANALYSE DES DONNEES. FABIENNE CASTELL.

”Q-Q-plot” est donc ”proche” de la droite y = µ+σx ; l’ordonnee a l’origine donne le parametrede position µ, et la pente donne le parametre de dispersion σ.

2.4.2 Que faire si l’hypothese de normalite n’est pas satisfaite ?

On a dans ce cas essentiellement deux options : soit on s’affranchit de l’hypothese de norma-lite en utilisant une autre methode statistique qui n’en a pas besoin (souvent une methode dite”non parametrique” qui ne fait pas d’hypothese forte sur la loi dont sont issues les donnees),soit on essaie de transformer les donnees par une fonction G de telle sorte que les donneestransformees (y1, · · · , yn) = (G(x1), · · · , G(xn)) puissent etre considerees comme une realisationd’un n-echantillon de N(µ, σ2). Le probleme est alors de trouver une telle transformation G quel’on choisira de preference croissante pour conserver l’ordre des donnees.

Reponse theorique.

Si on suppose que (x1, · · · , xn) est une realisation d’un n-echantillon de la loi de fonction derepartition F connue, alors G = Φ−1 F . On a en effet la proposition :

Proposition 2.4.1 : Si X est une variable de fonction de repartition F continue, Y = Φ−1 F (X) est une variable de loi N(0, 1).

Preuve : On fait la preuve dans le cas ou F est continue et strictement croissante. Dans cecas, F est une bijection de R dans ]0, 1[. Notons F−1 sa fonction inverse. Calculons la fonctionde repartition de Y .

P(Y ≤ x) = P(Φ−1(F (X)) ≤ x) = P(F (X) ≤ Φ(x)) = P(X ≤ F−1(Φ(x))) = F (F−1(Φ(x))

= Φ(x) .

La fonction de repartition de Y etant la fonction de repartition de N(0, 1), Y ∼ N(0, 1).Cette demonstration se generalise au cas general ou F n’est pas supposee strictement crois-

sante. La seule difficulte est de donner un sens a la fonction F−1. On introduit alors la notiond’inverse generalisee (cf section 2.6). .

Cette proposition n’est pas tres utile en pratique, puisqu’on ne connaıt pas F en general,un des buts de l’etude statistique etant justement d’avoir des informations sur F .

En pratique.

On peut essayer de ”deviner” une fonction G. A ce titre, le Q-Q-plot peut s’averer utile. Eneffet, si on reconnaıt visuellement une ”forme” pour le Q-Q-plot du type y = H(x) pour unefonction H, alors on peut prendre G = H−1. En effet,

∀α ∈]0, 1[ , F−1(α) = H(Φ−1(α))

⇔ ∀α ∈]0, 1[ , Φ−1(α) = H−1(F−1(α))

⇔ ∀x ∈ R , Φ(x) = F (H(x)) = P(X ≤ H(x)) = P(H−1(X) ≤ x)

Page 19: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 19

−2 0 2 4 6 8 10

−4

−3

−2

−1

01

2

x

h λ, 0

(x)

λ = 0λ = 0.2λ = 0.5λ = 1λ = 2λ = 10

Figure 2.6 – Les transformations de Bickel & Doksum

Les transformations de Box-Cox.

Lorsqu’on n’a pas d’idee a priori de la fonction G, Box et Cox ont propose de la chercherdans la famille de transformations dependant de deux parametres λ > 0 et θ ∈ R :

gλ,θ(x) =

log(x+ θ) si λ = 0(x+θ)λ−1

λsi λ > 0

, x > −θ .

Pour λ > 0, la fonction gλ,θ est strictement croissante de ] − θ,+∞[ sur ] − 1λ,+∞[. Les

donnees transformees sont donc toujours strictement superieures a − 1λ, et ne peuvent donc pas

a proprement parler etre issues d’une loi normale (dont le support est R). Il ne peut donc s’agirque de ”s’approcher de la normalite”. Pour pallier a ce defaut, Bickel & Doksum on propose demodifier les transformations precedentes, en les etendant sur R :

hλ,θ(x) =

log(x+ θ) si λ = 0, x > −θsgn(x+θ)|x+θ|λ−1

λsi λ > 0

, . (2.3)

Les graphes des fonctions hλ,θ(x) pour θ = 0 et differentes valeurs de λ sont donnes dans lafigure 2.6. Des procedures automatiques pour choisir les parametres λ et θ ont fait l’objet dediverses etudes. Elles sont implementees sous R (fonction boxcox du package MASS pour lesfonctions de Box & Cox). Elles sont basees sur des estimations par maximum de vraisemblance.On suppose qu’il existe des parametres (λ, θ) tels que les donnees transformees (y1, · · · , yn) =(hλ,θ(x1), · · ·hλ,θ(xn)) sont une realisation d’un n-echantillon de N(µ, σ2) . Cette hypothesepermet d’identifier la loi de la variable X en fonction des quatre parametres (λ, θ, µ, σ2). En

Page 20: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

20 ANALYSE DES DONNEES. FABIENNE CASTELL.

effet pour tout x ∈ R, en utilisant la croissance de hλ,θ,

P [X ≤ x] = P [hλ,θ(X) ≤ hλ,θ(x)] =

∫ hλ,θ(x)

−∞fµ,σ2(y) dy ,

ou fµ,σ2 designe la densite de la loi N(µ, σ2). En derivant par rapport a x, on en deduit quela densite de la variable X est fµ,σ2(hλ,θ(x))h′λ,θ(x). Par consequent, la log vraisemblance dumodele est

Ln(λ, θ, µ, σ2) =n∑i=1

log(fµ,σ2(hλ,θ(xi))) +n∑i=1

log(h′λ,θ(xi))

= −n2

log(2π)− n

2log(σ2)− 1

2σ2

n∑i=1

(hλ,θ(xi)− µ)2 +n∑i=1

log(h′λ,θ(xi))

Les parametres (λ, θ, µ, σ2) sont alors identifies par maximum de vraisemblance. Lorsque (λ, θ)est fixe, la maximisation en (µ, σ2) donne, comme dans le cas des echantillons gaussiens :

µ(λ, θ) =1

n

n∑i=1

hλ,θ(xi) ;

σ2(λ, θ) =1

n

n∑i=1

(hλ,θ(xi)− µ(λ, θ))2 .

On a alors a maximiser en (λ, θ) la fonction

Ln(λ, θ, µ(λ, θ), σ2(λ, θ)) = −n2

log(2π)− n

2log(σ2(λ, θ))− n

2+

n∑i=1

log(h′λ,θ(xi))

En reprenant l’expression de hλ,θ(x), on peut voir que h′λ,θ(x) = |x+ θ|λ−1. On a donc amaximiser en (λ, θ) la fonction

−n2

log(σ2(λ, θ)) + (λ− 1)n∑i=1

|xi + θ| .

Exemple 2.1: On fait une normalisation des donnees qui se trouvent dans le fichierChap1BoxCox.csv. La figure 2.7 donne differentes representations des donnees brutes. Il ap-paraıt clairement sur ces diagrammes que la distribution des donnees est assez eloignee d’unenormale. Ceci est confirme par un test de normalite (ici, le test de Kolmogorov) qui donneune Pvaleur egale a 5 10−49. Apres mise en oeuvre de la fonction boxcox, les diagrammescorrespondant aux donnees transformees sont donnes dans la figure 2.8. Les choses se sontameliorees. Mais il reste tout de meme des ecarts a la loi normale, en particulier dans les pe-tites valeurs. La Pvaleur du test de normalite est maintenant de 6%, ce qui est nettement mieuxque precedemment, mais qui reste cependant suffisamment faible pour qu’on puisse rejeter lanormalite des donnees transformees. Pour les donnees de cet exemple, les transformations deBox-Cox ne permettent pas de normaliser les donnees.

Page 21: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 21

−2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Densités

N = 1000 Bandwidth = 0.06752

Den

sity

Estimateur à noyauN(µ, σ)

−2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Fonctions de répartition

EmpiriqueN(µ, σ)

−0.5 0.0 0.5 1.0 1.5 2.0

−2

−1

01

Graphe Quantile−Quantile

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

Figure 2.7 – Ecart a la normalite des donnees brutes

0 20 40 60 80

0.00

0.01

0.02

0.03

Densités

N = 1000 Bandwidth = 2.492

Den

sity

Estimateur à noyauN(µ, σ)

0 20 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Fonctions de répartition

EmpiriqueN(µ, σ)

0 20 40 60

010

2030

4050

6070

Graphe Quantile−Quantile

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

Figure 2.8 – Ecart a la normalite des donnees transformees

Page 22: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

22 ANALYSE DES DONNEES. FABIENNE CASTELL.

2.5 Exercices

2.5.1 Une seule variable quantitative discrete.

Exercice 1: : Adapter les definitions d’effectifs, effectifs cumules, frequences, frequences cu-mulees, moyenne... etc, au cas ou les individus sont affectes des poids (wi). Reprendre lesdonnees de l’exemple 2.1 en supposant que les individus ne sont plus des etudiants, mais despromotions entieres (le chiffre du nombre de mois separant la fin des etudes et le premier CDIetant alors une moyenne sur la promotion). Les effectifs des differentes promotions regardeesetaient : 5 6 6 8 10 7 6 11 9 9 7 6 5 8 8 12 9 10 10 12 11 10 10 9 8. Affecter les poids qu’ilconvient a chaque promotion. Dessiner alors la fonction de repartition empirique, la fonctionquantile empirique, et calculer moyenne empirique et mediane empirique.

Exercice 2: : Reproduire le diagramme de la figure 2.3 en utilisant R. Ecrire un programme Rprenant en entree une serie de donnees quantitatives discretes (x1, · · · , xn), une serie de poids(w1, · · · , wn) et rendant le diagramme-boıte correspondant. Le faire tourner sur les donnees del’exercice precedent.

2.5.2 Une seule variable quantitative continue.

Exercice 3: On a observe les 10 donnees suivantes :

0.8140209 -0.3069065 -0.1498516 0.4691868 -1.3875180 0.1511367 0.7778028 1.2516469-1.4545156 0.1996476

1. Tracer l’histogramme correspondant au decoupage

R =]−∞,−3]∪]− 3,−2]∪]− 2,−1]∪]− 1, 0]∪]0, 1]∪]1, 2]∪]2, 3]∪]3,+∞[ .

2. Tracer la fonction de repartition empirique ;

3. Calculer moyenne, mediane, ecart inter-quartile.

4. Memes questions lorsque les deux premiers individus ont un poids deux fois plus impor-tant que les autres.

Exercice 4: Approximation de la densite par un histogramme.Pour differentes valeurs de n,

1. generer un echantillon (x1, · · · , xn) d’une variable N(0, 1) ;

2. tracer l’histogramme normalise hn correspondant a un decoupage de [-4,4] en 100 partiesde meme longueur ;

3. en voyant hn comme une fonction continue a droite, calculer les quantites

dn = supx|hn(x)− φ(x)| ,

ou φ(x) designe la densite de la loi N(0, 1)

Page 23: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 23

4. Tracer le graphe n→ dn. Commenter.

Exercice 5: Approximation de la fonction de repartition par la fonction de repartition empi-rique.Pour differentes valeurs de n,

1. generer un echantillon (x1, · · · , xn) d’une variable N(0, 1) ;

2. tracer la courbe cumulative Fn ;

3. en voyant Fn comme une fonction continue a droite, calculer les quantites

dn = supx|Fn(x)− Φ(x)| ,

ou Φ(x) designe la fonction de repartition de la loi N(0, 1) ;

4. tracer le graphe n→ dn. Commenter.

Exercice 6: Sensibilite d’un histogramme au choix du decoupage.Generer un echantillon (x1, · · · , xn) de taille n = 10000 d’une variable N(0, 1). Pour differentschoix d’une partition P de R en 30 intervalles disjoints,

1. calculer l’histogramme HP de (x1, · · · , xn) correspondant a la partition P ;

2. en voyant HP comme une fonction continue a droite, calculer les quantites

dP = supx|HP(x)− φ(x)| ,

ou φ(x) designe la densite de la loi N(0, 1).

3. Tracer le nuage de points (P, dP). Commenter.

Exercice 7: Estimation de la densite par une methode a noyau.Pour differentes valeurs de n,

1. generer un echantillon (x1, · · · , xn) d’une variable N(0, 1) ;

2. tracer l’estimateur a noyau φn donne par la fonction density de R ;

3. calculer les quantites

dn = supx

∣∣∣φn(x)− φ(x)∣∣∣ ,

ou φ(x) designe la densite de la loi N(0, 1)

4. Tracer le graphe n→ dn. Commenter.

2.5.4 Normalisation de donnees quantitatives

Exercice 8:

1. Recuperer le jeu de donnees Chap1BoxCox.csv.

2. Quel test de normalite pouvez vous mettre en oeuvre sur ce jeu de donnees ? Rappelerle principe de ce test (hypotheses, statistique utilisee et loi de cette statistique sousl’hypothese nulle), avant de le mettre en oeuvre avec R.

Page 24: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

24 ANALYSE DES DONNEES. FABIENNE CASTELL.

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

Figure 2.9 – Un exemple de fonction de repartition non continue.

3. Tracer le graphe quantile-quantile adapte (fonctions qqplot, qqnorm). Commenter.

4. Au vu de ce graphe, proposer eventuellement une transformation des donnees permettantde les normaliser.

5. Mettre en oeuvre avec R la normalisation de Box-Cox (fonction boxcox du packageMASS).

2.6 Pour aller plus loin : fonctions de repartition, simu-

lation.

2.6.1 Fonction de repartition.

Soit X une variable aleatoire. On rappelle que sa fonction de repartition est la fonctionF : t ∈ R 7→ P(X ≤ t) ∈ [0, 1]. Une fonction de repartition est croissante et verifie

limt→−∞

F (t) = 0 , limt→+∞

F (t) = +∞ .

Une fonction de repartition n’est pas forcement continue. Par exemple, la fonction de repartitiond’une variable X qui prend trois valeurs 0, 2, 7, avec les probabilites

P(X = 0) = 1/4 , P(X = 2) = 1/4 , P(X = 7) = 1/2 .

est une fonction en escalier representee dans la figure 2.9. En revanche, une fonction de repartitionest toujours continue a droite (ce qui signifie que pour tout t0 ∈ R, limtt0 F (t) = F (t0)) et

Page 25: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 25

x

F(x)

1

u1

F−1(u1)

u2

F−1(u2)

u3

F−1(u3)

Figure 2.10 – Representation de F−1(u)

admet des limites a gauche (ce qui signifie que pour tout t0 ∈ R, limtt0 F (t) existe sans etrenecessairement egale a F (t0). On note cette limite F (t0)−). Dans l’exemple de la figure 2.9, ona F (2)− = 1/4 et F (2) = 1/2. Il est alors facile de voir que pour tout t0 ∈ R, on a

P(X = t0) = F (t0)− F (t0)− .

Ainsi, si la fonction de repartition F est continue en t0, alors P(X = t0) = 0 et F (t0) = P(X <t0). C’est en particulier le cas si X a une densite f , auquel cas

F (t) =

∫ t

−∞f(x) dx

est continue partout.A toute fonction de repartition, on peut associer son inverse generalise F−1 : [0; 1] 7→ R

defini par :

F−1(t) = inf x, F (x) ≥ t . (2.4)

Si F est continue et strictement croissante, F est une bijection de R dans (0, 1), et l’inversegeneralisee de F coıncide avec l’inverse au sens usuel de F . L’inverse generalisee est representeesur la figure 2.10, et verifie les proprietes suivantes :

Proposition 2.6.1 Pour tout u ∈ [0, 1], et tout t ∈ R1. F (F−1(u)) ≥ u.

2. u ≤ F (t)⇔ F−1(u) ≤ t.

Page 26: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

26 ANALYSE DES DONNEES. FABIENNE CASTELL.

3. Si F est continue, F (F−1(u)) = u.

Concernant le point 1., on peut verifier sur la figure 2.10 que F (F−1(u2)) > u2.Preuve :

1. Comme F−1(u) = inf x, F (x) ≥ u, on peut trouver une suite de points xn verifantF (xn) ≥ u, et decroissant vers F−1(u). Comme F est continue a droite, on a alorsu ≤ limn→∞ F (xn) = F (F−1(u)).

2. Comme F−1(u) = inf x, F (x) ≥ u, si F (x) ≥ u on a necessairement F−1(u) ≤ x.Reciproquement, supposons que F−1(u) ≤ x. Comme F est croissante, on a F (F−1(u)) ≤F (x). On deduit alors de 1. que F (x) ≥ u.

3. On sait deja que F (F−1(u)) ≥ u. Montrons que F (F−1(u)) ≤ u. Pour cela on considereune suite xn telle xn croıt vers F−1(u), et telle que pour tout n xn < F−1(u). Par 2., ona F (xn) < u. Comme F est continue, on a alors F (F−1(u)) = limn→+∞ F (xn) ≤ u.

Un resultat fondamental pour les tests de comparaison d’echantillons, mais aussi pour lasimulation numeriques de variables aleatoires est le resultat suivant, qui dit qu’on peut trans-former une variable aleatoire uniforme sur [0; 1] en une variable de loi fixee.

Proposition 2.6.2 Soit F la fonction de repartition d’une probabilite. Soit F−1 l’inversegeneralisee de F definie par (2.4).

1. Soit U une variable aleatoire de loi uniforme sur [0; 1]. Alors la variable aleatoire F−1(U)a pour fonction de repartition F .

2. Reciproquement, si X est une variable aleatoire de fonction de repartition F , et si F estcontinue, alors la variable F (X) est de loi uniforme sur [0; 1].

Preuve :

1. On utilise le point 2. de la proposition 2.6.1. Pour tout t ∈ R,

P[F−1(U) ≤ t

]= P [U ≤ F (t)] =

∫ F (t)

−∞1I[0;1](x) dx =

∫ F (t)

0

dx ;

car F (t) ∈ [0; 1]. Donc P [F−1(U) ≤ t] = F (t). La fonction de repartition de F−1(U) estdonc F .

2. Pour tout t ∈ R,

P [F (X) < t] =

0 si t ≤ 0 ;1 si t > 1 ,

car F prend ses valeurs dans [0; 1] .

Soit donc t ∈]0; 1].

P [F (X) < t] = P [X < F−1(t)] par 2. de la proposition (2.6.1) ;= P [X ≤ F−1(t)] car F est continue et P [X = F−1(t)] = 0;= F (F−1(t))= t en utilisant 3. de la proposiion (2.6.1).

Page 27: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 2. Statistique descriptive unidimensionnelle. 27

x

Fn(x)1

1

n

X(1) X(2) X(n−1) X(n)

Figure 2.11 – Representation de Fn(t). X(1), · · · , X(n) est le rearrangement par ordre croissantde X1, · · · , Xn

2.6.2 Fonction de repartition empirique.

Supposons que l’observation soit constituee d’un n-echantillon (X1, · · · , Xn) de loi de fonc-tion de repartition F inconnue. On peut estimer F par la fonction de repartition empiriquede l’echantillon

Fn(t) =1

n

n∑i=1

1IXi≤t .

La loi des grands nombres dit en effet que pout tout t ∈ R, limn→+∞ Fn(t) = P(X1 ≤ t) = F (t),et on peut montrer que la convergence est uniforme (theoreme de Glivenko-Cantelli). La fonctionde repartition empirique permet donc d’avoir une idee de la distribution dont sont issues lesdonnees.

Si on note X(1), · · · , X(n) la suite des X1, · · · , Xn ordonnee par ordre croissant, et si on posant

X(0) = −∞, X(n+1) = +∞, on a par definition de Fn(t),

Fn(t) =i

n, ∀t ∈ [X(i);X(i+1)[ (i = 0, . . . , n) .

Fn est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les sautssont situes sur les points de l’echantillon de donnees (cf figure 2.11).

Page 28: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

28 ANALYSE DES DONNEES. FABIENNE CASTELL.

Page 29: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Chapitre 3

Statistique descriptivebidimensionnelle.

Dans tout ce chapitre, on suppose qu’on a mesure deux variables X et Y sur un echantillonde n individus. La donnee de depart est donc un n-echantillon ((x1, y1), · · · , (xn, yn)) du couplede variables (X, Y ). On cherche ici a savoir s’il existe une relation entre ces deux variables,autrement dit si connaıtre la valeur de X nous donne des informations sur la valeur de Y .

3.1 Deux variables quantitatives.

On suppose ici que les deux variables X et Y sont des variables quantitatives. Cette partiedonne quelques outils pour juger de la liaison entre ces deux variables.

3.1.1 Representation graphique

Une premiere etape pour juger de la liaison entre deux variables est de representer le nuagede points : l’individu i est represente dans un repere orthonorme par le point (xi, yi). La figure3.1 donne le nuage de points des donnees du fichier ozone.txt correspondant aux variablesx :”maximum journalier de la concentration en ozone dans l’air” (max03) et y :”temperature”(T12). Le centre de gravite de ce nuage est (xn, yn) (note avec le symbole ♦ sur le graphe.)

Vu que les variables X et Y sont en general exprimees dans des unites qui n’ont rien avoir entre elles (par exemple, poids et taille), il est parfois preferable de centrer et reduire cesvariables, i.e. de tracer le nuage des points (xi, yi) ou xi = xi−xn

σn(x)(et de meme pour yi). Le

centre de gravite de ce nuage est (0, 0) et les donnees sont des nombres sans dimension.

3.1.2 Coefficient de correlation lineaire empirique.

Definition et proprietes.

Le coefficient de correlation lineaire empirique est la quantite

r =1n

∑ni=1(xi − xn)(yi − yn)

σn(x)σn(y). (3.1)

29

Page 30: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

30 ANALYSE DES DONNEES. FABIENNE CASTELL.

15 20 25 30

4060

8010

012

014

016

0

Données brutes

Température

Max

imum

de

la c

once

ntra

tion

en o

zone

−2 −1 0 1 2 3

−1

01

2

Données centrées et réduites

TempératureM

axim

um d

e la

con

cent

ratio

n en

ozo

ne

Figure 3.1 – Representation du nuage de points.

Il verifie les proprietes suivantes :

Proposition 3.1.1 :

1. r ∈ [−1; +1].

2. r = 1 (resp. −1) si et seulement si il existe un reel a > 0 (resp < 0), un reel b tel queyi = axi + b pour tout i ∈ 1, · · · , n.

3. r est une estimation consistante de ρ = cor(X, Y ) = cov(X,Y )√var(X)var(Y )

;

Preuve :Notons ~X et ~Y les vecteurs de Rn definis par :

~X =

x1 − xn...

xn − xn

, ~Y =

y1 − yn...

yn − yn

.

On a alors r =〈 ~X;~Y 〉‖ ~X‖‖~Y ‖ . Autrement dit, r n’est autre que le cosinus de l’angle forme par les

deux vecteurs ~X et ~Y .

1. L’inegalite de Cauchy-Schwartz∣∣∣⟨ ~X; ~Y

⟩∣∣∣ ≤ ∥∥∥ ~X∥∥∥∥∥∥~Y ∥∥∥ montre que r ∈ [−1, 1].

2. Si r ∈ −1; +1, il y a egalite dans l’inegalite de Cauchy-Schwartz. L’angle forme par ~X

et ~Y vaut 0 ou π. Autrement dit, ~X et ~Y sont deux vecteurs colineaires de meme sens

Page 31: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 31

si r = 1 et de sens oppose si r = −1 : il existe un reel a (> 0 si r = 1 ; < 0 si r = −1)tel que

~Y = a ~X ⇔ ∀i ∈ 1, · · · , n , yi − yn = a(xi − xn)

⇔ ∀i ∈ 1, · · · , n , yi = axi + (yn − axn) .

3. Notons R la variable aleatoire dont r est une realisation :

R =1n

∑ni=1(Xi − Xn)(Yi − Yn)

σn(X)σn(Y ), (3.2)

ou Xn = 1n

∑ni=1Xi , et σ2

n(X) = 1n

∑ni=1(Xi − Xn)2. Par la loi des grands nombres,

limn→∞ Xn = E(X). Un calcul simple montre que

σ2n(X) =

1

n

n∑i=1

X2i − X2

n ,1

n

n∑i=1

(Xi − Xn)(Yi − Yn) =1

n

n∑i=1

XiYi − XnYn .

La loi des grands nombres montre alors que limn→∞ σ2n(X) = E(X2)−E(X)2 = var(X),

limn→∞ σ2n(Y ) = var(Y ) et limn→∞

1n

∑ni=1(Xi − Xn)(Yi − Yn) = E(XY )−E(X)E(Y ) =

cov(X, Y ). On en deduit que limn→∞R = cor(X, Y ).

Comme le dit la proposition ci-dessus, le coefficient de correlation lineaire ne permet dedetecter qu’une dependance lineaire entre les donnees. Il est possible que deux variables ayantdes dependances non lineaires entre elles, aient un coefficient de correlation lineaire faible. Nousreproduisons dans la figure 3.2 des graphes tires du Saporta (page 133). Il s’agit d’illustrer lesdifferents ”defauts” du coefficient de correlation lineaire. En particulier, le dernier graphe donnequatre nuages de points tres differents, ayant memes moyennes empiriques, memes variancesempiriques et meme coefficient de correlation empirique. On n’utilisera donc le coefficientde correlation lineaire qu’a bon escient, i.e. quand le trace du nuage de points laissesupposer une dependance lineaire.

Test de correlation lineaire.

Supposons que l’on soit dans une situation ou l’emploi du coefficient de correlation lineaireest justifie, et que l’on observe une valeur ”elevee” de |r|. Quand peut-on dire que cette valeurest signification non-nulle ? La proposition suivante permet de repondre a cette question dansle cas ou le couple (X, Y ) est un couple gaussien. Notez que sous cette hypothese, tester lanon-correlation revient a tester l’independance.

Proposition 3.1.2 Soit (X, Y ) un couple gaussien de moyenne

(µXµY

)et de matrice de

covariance

(σ2X ρσXσY

ρσXσY σ2Y

). Soit (X1, Y1), · · · (Xn, Yn) des couples independants de meme

loi que (X, Y ) et notons R la variable ”correlation empirique” definie par (3.2).Si ρ = 0, la variable T = R√

1−R2

√n− 2 est une variable de Student a n−2 degres de liberte.

Page 32: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

32 ANALYSE DES DONNEES. FABIENNE CASTELL.

Figure 3.2 – Les dangers du coefficient de correlation lineaire, d’apres Saporta.

Page 33: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 33

Preuve : elle fait l’objet de l’exercice 3 (section 3.4.1).

Sous les hypotheses faites de normalite, cette proposition permet de tester (H0) : ”ρ = 0”contre (H1) : ”ρ 6= 0”. Notez en effet que la fonction r ∈] − 1,+1[7→ r√

1−r2 ∈ R est une

fonction impaire et croissante. Dire que |R| ≥ t (t > 0) revient donc a dire que |T | ≥ u (ouu = t√

1−t2√n− 2). On choisit donc une regle de decision du type :

— Si |T | > u, on decide de rejeter (H0) ;— Si |T | ≤ u, on decide de ne pas rejeter (H0) ;

Le seuil critique u est a choisir en fonction du niveau de test α qu’on s’est fixe. Par definition

α = P(H0) [ rejeter (H0)] = Pρ=0 [|T | > u] = P [|Stn−2| > u] .

u est donc le quantile d’ordre 1− α2

de la loi de Student a n − 2 degres de liberte. Dans R, letest de correlation lineaire peut etre fait grace a la fonction cor.test.

3.1.3 Coefficient de correlation des rangs de Spearman.

Un autre coefficient pour juger de la liaison entre deux variables quantitatives est le coef-ficient de correlation des rangs introduit par Spearman. Pour le definir, on associe a chaqueindividu i de l’echantillon son rang suivant chacune des variables. Notons ri le rang de l’individui suivant la variable x et si son rang suivant la variable y. Ainsi ri = k ∈ 1, · · · , n signifie quex(k) = xi ou x(1) < x(2) < · · · < x(n) est le rearrangement par ordre croissant de x1, · · · , xn (cfexemple). Notez que si on suppose que (x1, · · · , xn) est une realisation d’un n-echantillon d’unevariable X de densite fX , alors

P(X1 = X2) =

∫ ∫x1=x2

fX(x1)fX(x2) dx1 dx2 = 0 .

Ainsi, il ne peut pas en theorie se poser de problemes d’ex-aequo. Sous cette hypothese, sideux valeurs xi sont egales, cela est du a une troncature lors de la transcription des donnees.Dans ce cadre, r = (r1, · · · , rn) et s = (s1, · · · , sn) sont bien definis, et sont des permutationsde 1, · · · , n. Spearman a propose de mesurer la correlation entre les deux variables par lecoefficient de correlation lineaire entre r et s :

rS =cov(r, s)√

var(r) var(s).

Notez que puisque r est une permutation, r = 1n

∑ni=1 ri = 1

n

∑nj=1 j = n+1

2, et que var(r) =

1n

∑ni=1 r

2i − r2 = 1

n

∑nj=1 j

2 − (n+1)2

4= n(n+1)(2n+1)

6n− (n+1)2

4= n2−1

12. Il en est de meme pour s.

Ainsi,

rS =1n

∑ni=1 risi −

(n+1)2

4n2−1

12

=12

n(n2 − 1)

n∑i=1

risi − 3n+ 1

n− 1.

Par ailleurs, en utilisant l’identite 2xy = x2 + y2 − (x − y)2, on a 2∑n

i=1 risi =∑n

i=1 r2i +∑n

i=1 s2i −

∑ni=1(ri − si)2 = 2

∑nj=1 j

2 −∑n

i=1(ri − si)2 = 13n(n + 1)(2n + 1) −

∑ni=1(ri − si)2.

Page 34: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

34 ANALYSE DES DONNEES. FABIENNE CASTELL.

On obtient finalement :

rS = 1− 6

n(n2 − 1)

n∑i=1

(ri − si)2 . (3.3)

Le coefficient de correlation de Spearman verifie les proprietes suivantes :

Proposition 3.1.3 1. rs ∈ [−1; +1] ;

2. rS = +1 si et seulement si les deux classements sont identiques (x et y ”varient dans lememe sens”) ;

3. rS = −1 si et seulement si ri = n + 1 − si pour tout i ∈ 1, · · · , n. Autrement dit,rS = −1 ssi les deux classements sont inverses (x et y ”varient dans des sens opposes”).

4. Supposons que ((x1, y1), · · · , (xn, yn)) est une realisation de ((X1, Y1), · · · , (Xn, Yn)), n-echantillon d’un couple de variables (X, Y ) a densite. Supposons de plus que les variablesX et Y sont independantes. Alors, la loi de la variable aleatoire RS (definie a partirdes (Xi, Yi) de la meme facon que rS est definie a partir des (xi, yi)), ne depend que den, est independante de la loi de (X, Y ), et est symetrique.

La loi de la variable RS est tabulee. Cette proposition permet de tester (H0) : ”X et Y sontindependantes” contre (H1) : ”X et Y sont liees”. La region de rejet du test est du type :

1. Si |RS| > t, on rejette (H0) : X et Y sont liees ;

2. Si |RS| ≤ t, on ne rejette pas (H0) : rien de significatif ne permet d’affirmer que X et Ysont liees ;

Le seuil critique t est a choisir en fonction du niveau α de test qu’on s’est fixe :

α = P(H0) [ rejeter (H0)] = PX⊥Y [|RS| > t] ,

et t est le quantile d’ordre 1− α2

de la loi de Spearman correspondant a n.Par rapport au test de correlation lineaire, l’avantage du test de Spearman est de ne faire

aucune hypothese sur la loi du couple (X, Y ) (pas d’hypothese de normalite).Dans R, le coefficient de correlation de Spearman est obtenu par l’option method="spearman"

de la fonction cor. Le test correspondant s’obtient a partir de la fonction cor.test en utilisantla meme option.

Exemple 3.1: On a releve sur 5 individus deux variables (x, y). La tableau ci-dessousdonne pour chaque individu i les valeurs (xi, ri, yi, si) :

xi 0.59 0.11 0.08 0.3 0.4ri 5 2 1 3 4yi 0.71 0.43 0.47 0.57 0.61si 5 1 2 3 4

|ri − si| 0 1 1 0 0

On obtient rS = 9/10. La Pvaleur du test de correlation des rangs de Spearman est P [|RS| > 0.9] =0.0833. On peut donc conclure que les deux variables sont liees (avec 8,33 % de chances d’avoirtort).

Preuve de la proposition 3.1.3 :

Page 35: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 35

1. rS ∈ [−1; +1] car rs est un coefficient de correlation lineaire.

2. En utilisant la formule (3.3), rS = +1 equivaut a∑n

i=1(ri − si)2 = 0, i.e. pour tout

i ∈ 1, · · · , n, ri = si.

3. rS etant un coefficient de correlation lineaire, rS = −1 signifie qu’il existe une relationlineaire entre ri et si. Il existe a < 0 et b tels que pour tout i ∈ 1, · · · , n, ri = asi + b.On en deduit que r = as + b. Comme r = s = (n + 1)/2, on a donc b = (1 − a)r, etri − r = a(si − s) pour tout i ∈ 1, · · · , n. En multipliant cette egalite par si − s, et en

sommant de i = 1 a n, on obtient la valeur de a = cov(r, s)/var(s) = rS

√var(r)var(s)

. Comme

var(r) = var(s), a = −1, et donc b = 2r = n + 1. Par consequent, ri = n + 1 − si pourtout i ∈ 1, · · · , n.

4. Soit Ri le rang de Xi dans le rearrangement par ordre croissant de X1, · · · , Xn :

Ri = k ⇔ X(k) = Xi .

Comme les variables X1, · · · , Xn sont independantes et a densite, la probabilite quedeux de ces variables soient egales est nulle, et il n’y a pas d’ambiguite dans la definitionde R = (R1, · · · , Rn). R est une variable aleatoire dont les valeurs possibles sont lespermutations d’ordre n. Notons Σn le groupe des permutations d’ordre n et σ un elementde Σn. Dire que Xσ(1) < · · · < Xσ(n), est equivalent a R = σ−1. Ainsi, pour tout σ ∈ Σn,

P [R = σ] = P[Xσ−1(1) < · · · < Xσ−1(n)

]=

∫· · ·∫yσ−1(1)<···<yσ−1(n)

fX(y1) · · · fX(yn) dy1 · · · dyn

=

∫· · ·∫z1<···<zn

fX(z1) · · · fX(zn) dz1 · · · dzn ,

par le changement de variables zi = yσ−1(i). Ainsi P [R = σ] ne depend pas de σ. On endeduit que pour tout σ ∈ Σn, P [R = σ] = 1

card(Σn)= 1

n!.

Notons Si le rang de Yi dans le rearrangement par ordre croissant de Y1, · · · , Yn. De lameme facon, S est une variable uniforme sur Σn.

Par ailleurs, si on suppose que X et Y sont independantes, il en est de meme de R (quine depend que de X1, · · · , Xn), et de S (qui ne depend que de Y1, · · · , Yn).

RS = 1− 6

n(n2 − 1)

n∑i=1

(Ri − Si)2 = 1− 6

n(n2 − 1)

n∑j=1

(R S−1(j)− j)2 .

Notez que la loi de la variable R S−1 est egalement la loi uniforme sur Σn. En effet,

P[R S−1 = σ

]=

∑τ∈Σn

P[R S−1 = σ;S = τ

]=∑τ∈Σn

P [R = σ τ ;S = τ ]

=∑τ∈Σn

P [R = σ τ ]P [S = τ ] =∑τ∈Σn

1

n!

1

n!=

1

n!

Page 36: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

36 ANALYSE DES DONNEES. FABIENNE CASTELL.

Ainsi RS a meme loi que 1− 6n(n2−1)

∑nj=1(Uj−j)2 ou U est une variable uniforme sur Σn.

Cela prouve que la loi de RS ne depend pas de la loi du couple (X, Y ) dans l’hypotheseou X et Y sont independantes.

Concernant la symetrie de la loi de RS, il s’agit de voir que RS et −RS ont meme loisous l’hypothese d’independance de X et Y . On vient de voir que sous cette hypothese,la loi de RS est la meme que celle de la variable 1− 6

n(n2−1)

∑nj=1(Uj − j)2. Notons U la

permutation definie par Uj = n + 1 − Uj. Si U est uniforme sur Σn, il en est de memepour U . Par consequent, RS a meme loi que la variable

1− 6

n(n2 − 1)

n∑j=1

(Uj − j)2

= 1− 6

n(n2 − 1)

n∑j=1

(n+ 1− Uj − j)2

= 1− 6

n(n2 − 1)

[n∑j=1

(n+ 1− j)2 +n∑j=1

U2j − 2

n∑j=1

Uj(n+ 1− j)

]

= 1− 6

n(n2 − 1)

[2

n∑j=1

j2 − 2(n+ 1)n∑j=1

j + 2n∑j=1

Ujj

]

= 1− 6

n(n2 − 1)

[2

n∑j=1

j2 − 2(n+ 1)n∑j=1

j

]+

6

n(n2 − 1)

n∑j=1

(−2Ujj)

= 1− 6

n(n2 − 1)

[2

n∑j=1

j2 − 2(n+ 1)n∑j=1

j

]+

6

n(n2 − 1)

n∑j=1

(Uj − j)2 − j2 − U2j

=6

n(n2 − 1)

n∑j=1

(Uj − j)2 + 1− 24

n(n2 − 1)

n∑j=1

j2 +12(n+ 1)

n(n2 − 1)

n∑j=1

j

=6

n(n2 − 1)

n∑j=1

(Uj − j)2 − 1

en utilisant les identites∑n

j=1 j = n(n + 1)/2 et∑n

j=1 j2 = n(n + 1)(2n + 1)/12. Par

consequent RS a meme loi que −RS sous l’hypothese d’independance de X et Y .

3.2 Une variable quantitative et une variable qualitative.

On suppose ici que le couple (X, Y ) est constitue de la variable qualitative X, et de lavariable quantitative Y . Cette partie donne quelques outils pour juger de la liaison entre cesdeux variables. On notera C = c1, · · · cr les issues possibles pour la variable X.

3.2.1 Distribution theorique

Dans ce cadre, plusieurs quantites caracterisent la loi du couple (X, Y ) :

Page 37: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 37

1. - la fonction (t, c) ∈ R× C 7→ P(Y ≤ t;X = c) ;

2. - les fonctions c ∈ C 7→ P(X = c) et t ∈ R 7→ P(Y ≤ t|X = c) (fonction de repartitionconditionnelle) ;

3. - les fonctions c ∈ C 7→ P(X = c) et t ∈ R 7→ fc(t) = ddtP(Y ≤ t|X = c) (densite

conditionnelle) quand cette derivee existe ;

4. ...

Chacune de ces possibilites de description de la loi du couple se deduit des autres. Par exemple,si l’on connaıt la fonction P(Y ≤ t;X = c), on obtient P(X = c) = limt→+∞ P(Y ≤ t;X = c),

et P(Y ≤ t|X = c) = P(Y≤t;X=c)P(X=c)

.

Dans le cas ou X et Y sont independantes, P(Y ≤ t;X = c) = P(Y ≤ t)P(X = c), et lesfonctions t ∈ R 7→ P(Y ≤ t|X = c) et fc(t) sont independantes de la valeur de c.

3.2.2 Quantites empiriques.

Chaque modalite de la variable X definit un sous echantillon de l’echantillon initial. Onnote

1. n1, · · · , nr les effectifs de chaque sous-echantillon : nj =∑n

i=1 1Icj(xi) ;

2. Ω1, · · · ,Ωr les sous-echantillons : Ωj = i ∈ 1, · · · , n tel que xi = cj ;

3. y1, · · · , yr les moyennes empiriques de la variable Y sur chaque sous-echantillon : yj =1nj

∑i∈Ωj

yi ;

4. σ21(y), · · · , σ2

r(y) les variances empiriques de la variable Y sur chaque sous-echantillon :σ2j (y) = 1

nj

∑i∈Ωj

(yi − yj)2.

Les liens entre les quantites empiriques sur les sous-echantillons et sur l’echantillon initialsont donnes par les relations :

Proposition 3.2.1 Decomposition.

1. y = 1n

∑rj=1 nj yj ;

2. σ2(y) = 1n

∑rj=1 nj(yj − y)2 + 1

n

∑rj=1 njσ

2j (y).

La deuxieme identite est une decomposition de la variance en deux termes. Le premier1n

∑rj=1 nj(yj − y)2 est appele variance intercategories : il s’agit de mesurer la variabilite

entre sous population. Chacune des sous-populations est identifiee a la moyenne sur la sous-population, et affectee d’un poids proportionnel a son effectif. Le deuxieme terme 1

n

∑rj=1 njσ

2j (y)

est appele variance intracategories. Il s’agit d’une moyenne de la variabilite de la variableY a l’interieur de chacune des sous-populations.

Preuve de la proposition 3.2.1 :

1. y = 1n

∑ni=1 yi = 1

n

∑rj=1

∑i∈Ωj

yi = 1n

∑rj=1 nj yj.

Page 38: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

38 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. σ2(y) = 1n

∑ni=1(yi − y)2 = 1

n

∑rj=1

∑i∈Ωj

(yi − yj + yj − y)2

= 1n

∑rj=1

∑i∈Ωj

(yi − yj)2 + 1n

∑rj=1

∑i∈Ωj

(yj − y)2 + 2n

∑rj=1

∑i∈Ωj

(yi − yj)(yj − y)

= 1n

∑rj=1 njσ

2j (y) + 1

n

∑rj=1(yj − y)2(

∑i∈Ωj

1) + 2n

∑rj=1(yj − y)

∑i∈Ωj

(yi − yj)= 1

n

∑rj=1 njσ

2j (y) + 1

n

∑rj=1 nj(yj − y)2 + 2

n

∑rj=1(yj − y)(nj yj − nj yj)

= 1n

∑rj=1 njσ

2j (y) + 1

n

∑rj=1 nj(yj − y)2 .

Les liens entre les quantites empiriques et la distribution theorique sont donnes par laproposition suivante :

Proposition 3.2.2 Supposons que ((x1, y1) · · · (xn, yn)) est une realisation d’un n-echantillon((X1, Y1) · · · (Xn, Yn)) du couple de variables (X, Y ). Notons Nj, Yj et σ2

j (Y ) les variablesaleatoires correspondantes a nj, yj, et σ2

j (y). On a pour tout j ∈ 1, · · · , r,1. limn→∞

Njn

= P [X = cj] ;

2. limn→∞ Yj = E [Y |X = cj] ;

3. limn→∞ σ2j (Y ) = var [Y |X = cj].

Preuve de la proposition 3.2.2 :

1.Njn

= 1n

∑ni=1 1Icj(Xi). Par la loi des grands nombres, on a limn→∞

Njn

= P [X = cj].

2. Yj = 1Nj

∑ni=1 1Icj(Xi)Yi = n

Nj

1n

∑ni=1 1Icj(Xi)Yi. Par la loi des grands nombres, on a

limn→∞Njn

= P [X = cj] et limn→∞1n

∑ni=1 1Icj(Xi)Yi = E

[1Icj(X)Y

]. Par consequent,

limn→∞ Yj =E[ 1Icj (X)Y ]P[X=cj ]

= E [Y |X = cj].

3. Commencons par recrire la variable σ2j (Y ) en developpant le carre.

σ2j (Y ) =

1

Nj

n∑i=1

1Icj(Xi)(Yi−Yj)2 =1

Nj

n∑i=1

1Icj(Xi)Y2i −Y 2

j =n

Nj

1

n

n∑i=1

1Icj(Xi)Y2i −Y 2

j .

Par la loi des grands nombres, limn→∞Njn

= P [X = cj], limn→∞∑n

i=1 1Icj(Xi)Y2i =

E[

1Icj(X)Y 2]

et limn→∞ Yj = E [Y |X = cj]. Par consequent,

limn→∞

σ2j (Y ) =

E[

1Icj(X)Y 2]

P [X = cj]− E [Y |X = cj]

2 = E[Y 2|X = cj

]− E [Y |X = cj]

2

= var(Y |X = cj) .

3.2.3 Comment juger de la liaison entre X et Y ?

Notez que dans le cas ou les variables X et Y sont independantes, les quantites P(Y ≤t|X = c), d

dtP(Y ≤ t|X = c), E(Y |X = c), var(Y |X = c) sont independantes de c et valent res-

pectivement P(Y ≤ t), ddtP(Y ≤ t), E(Y ), var(Y ). Ainsi les fonctions de repartition empiriques

de y sur chaque sous-echantillon ”se ressemblent” et sont proches de la fonction de repartitionempirique de y sur l’echantillon global. De meme, toutes les moyennes empiriques yj (respective-ment les variances empiriques σ2

j (y)) ”se ressemblent” et sont proches de la moyenne empiriquey (respectivement la variance empirique σ2(y)).

Page 39: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 39

Representation graphique.

Pour avoir une idee des distributions conditionnelles, on peut faire le graphe des boıtes amoustaches de la variable y sur chaque sous-population. On peut alors dessiner sur un memegraphe (i.e. en utilisant les memes echelles), les r boıtes a moustaches de la variable y pourchaque modalite de la variables x. Dans l’hypothese ou X et Y sont independantes, toutes cesboıtes a moustaches se ressemblent. Les differences visibles entre ces boıtes permettent de sefaire une idee de l’influence de la variable X sur la variable Y .

Rapport de correlation.

Une autre quantite qui permet de juger de la liaison entre X et Y est le rapport dit decorrelation empirique entre la variance intercategories et la variance empirique totale :

e2 =1n

∑rj=1 nj(yj − y)2

σ2n(y)

.

Si les variables X et Y sont independantes, pour tout j ∈ 1, · · · , r, yj ' y, et e2 ' 0. Enutilisant la decomposition de la variance de la proposition 3.2.1, on voit aussi que e2 ∈ [0, 1],et que e2 = 1 signifie que la variance intracategorie est nulle. Dans ce cas, dans chacun dessous-echantillons, la variable y est constante ; la valeur de la variable X fixe donc la valeur deY .

Pour savoir si e2 est significativement non nul, on peut utiliser la proposition suivante, quisuppose que les lois conditionnelles de Y pour chaque modalite de X sont des loisgaussiennes de meme variance. Plus precisement, on suppose que

(ANOVA) ((x1, y1), · · · , (xn, yn)) est une realisation d’un n-echantillon (X1, Y1), · · · , (Xn, Yn)d’un couple de variables (X, Y ) tel que Y =

∑rj=1 µj 1IX=cj + ε ou ε ∼ N(0, σ2) est

independante de X.

Proposition 3.2.3 1. Sous l’hypothese (ANOVA), la loi de Y sachant que X = cj est laloi N(µj, σ

2). En consequence, Y et X sont independantes ssi µ1 = · · · = µr.

2. Notons E2 la variable aleatoire correspondant au rapport de correlation empirique. Sousl’hypothese (ANOVA), et si on suppose de plus que µ1 = · · · = µr, alors

E2

r−1

1−E2

n−r

∼ F(r − 1, n− r) .

Notez que sous l’hypothese (ANOVA), on est dans un modele d’analyse de variance a unfacteur (cf cours de Stats 2). En reordonnant l’echantillon en fonction des modalites de lavariable x, on a le modele

Yij = µi + εij , i ∈ 1, · · · , r , j ∈ 1, · · · , ni

Page 40: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

40 ANALYSE DES DONNEES. FABIENNE CASTELL.

ou les εij sont i.i.d N(0, σ2). Ce modele se recrit sous la forme matricielle

~Y =

Y11...

Y1n1

...Yr1...

Yrnr

=

1 0 · · · 0...

......

...1 0 · · · 00 1 · · · 0...

......

...0 1 · · · 0...

......

...0 0 · · · 1...

......

...0 0 · · · 1

µ1...µr

+ ε = X~µ+ ε , ε ∼ Nn(0, σ2Id) . (3.4)

Sous l’hypothese (ANOVA), la proposition 3.2.3 permet de tester l’independance entre X etY . Plus precisement, on teste (H0) : ”µ1 = · · · = µr” (X et Y sont independantes) contre(H1) : ∃i 6= j tels que µi 6= µj” (X et Y sont liees). La region de rejet est du type :

— SiE2

r−1

1−E2

n−r> t, on rejette (H0) et on decide que X et Y sont liees.

— SiE2

r−1

1−E2

n−r≤ t, on ne rejette pas (H0). Rien de significatif ne permet d’assurer que X et Y

sont liees.La valeur critique t est fixee en fonction du niveau de test α qu’on s’est fixe :

α = P(H0) [ Rejeter (H0)] = Pµ1=···=µr

[E2

r−1

1−E2

n−r

> t

]= P [F(r − 1, n− r) > t] ;

t est donc le quantile d’ordre 1− α de la loi de Fisher a r − 1 et n− r degres de liberte.Ce test n’a de sens que sous l’hypothese (ANOV A) de normalite des lois conditionnelles, et

d’egalite des variances. Avant de le mettre en oeuvre, il faudra donc tester la normalite de chacundes sous-echantillons. Dans l’hypothese ou cette normalite n’est pas rejetee, il faudra ensuitetester l’egalite des variances de chaque sous-echantillon (test de Fisher d’egalite des variances).Si la normalite des sous echantillons est rejetee, on peut essayer d’appliquer une transformationde Box-Cox a la variable y. La fonction boxcox de R permet de trouver ”la meilleure” fonctionhλ,θ telle que les donnees transformees yi = hλ,θ(yi) puissent etre considerees comme issues dumodele X~µ+ ε.

Preuve de la proposition 3.2.3

1. On calcule la fonction de repartition de Y conditionnelle a X = cj.

P [Y ≤ t|X = cj] =P [Y ≤ t;X = cj]

P [X = cj].

Comme Y =∑r

k=1 µk 1Ick(X) + ε, on a Y = µj + ε sur l’ensemble X = cj. D’ou,

P [Y ≤ t|X = cj] =P [µj + ε ≤ t;X = cj]

P [X = cj]=P [µj + ε ≤ t]P [X = cj]

P [X = cj],

Page 41: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 41

puisque ε et X sont independantes. Donc P [Y ≤ t|X = cj] = P [µj + ε ≤ t] est la fonctionde repartition de µj + ε ∼ N(µj, σ

2).

2. Pour i ∈ 1, · · · , r, notons 1Ii le vecteur de Rn correspondant a la i-eme colonne de la

matrice X dans l’equation (3.4). Sous l’hypothese (ANOVA), le vecteur aleatoire ~Y estun vecteur de Rn gaussien de vecteur moyenne ~m = X~µ =

∑rj=1 µj 1Ij, et de matrice de

covariance σ2Id. Notons V le s.e.v de Rn engendre par les vecteurs ( 1Ij, j ∈ 1, · · · , r).Sous l’hypothese (ANOVA), tester l’egalite des µi revient a se demander si le vecteur ~mappartient au s.e.v. W de V ou W est la droite engendree par

∑rj=1 1Ij = 1I (vecteur

dont toutes les coordonnees sont egales a 1).

Notons πV et πW les projecteurs orthogonaux de Rn sur V et W . Comme les vecteurs1Ij sont orthogonaux dans Rn, on a

πV (~Y ) =r∑j=1

⟨~Y ;

1Ij‖ 1Ij‖

⟩1Ij‖ 1Ij‖

=r∑j=1

Yj 1Ij .

De la meme facon, πW (~Y ) =

⟨~Y ; 1I‖ 1I‖

⟩1I‖ 1I‖ = Y 1I. Par consequent,

πV (~Y )− πW (~Y ) =r∑j=1

(Yj − Y ) 1Ij , et∥∥∥πV (~Y )− πW (~Y )

∥∥∥2

=r∑j=1

nj(Yj − Y )2

est la variable aleatoire correspondant a la variance empirique intercategories.

On a aussi σ2n(~Y ) = 1

n

∥∥∥~Y − πW (Y )∥∥∥2

. On en deduit que

1−E2 = 1−

∥∥∥πV (~Y )− πW (~Y )∥∥∥2

∥∥∥~Y − πW (~Y )∥∥∥2 =

∥∥∥~Y − πW (~Y )∥∥∥2

−∥∥∥πV (~Y )− πW (~Y )

∥∥∥2

∥∥∥~Y − πW (~Y )∥∥∥2 =

∥∥∥~Y − πV (~Y )∥∥∥2

∥∥∥~Y − πW (~Y )∥∥∥2 .

Finalement,

E2

r − 11− E2

n− r

=

∥∥∥πV (~Y )− πW (~Y )∥∥∥2

∥∥∥~Y − πW (~Y )∥∥∥2

1

dim(V )− dim(W )∥∥∥~Y − πV (~Y )∥∥∥2

∥∥∥~Y − πW (~Y )∥∥∥2

1

n− dim(V )

=

∥∥∥πV (~Y )− πW (~Y )∥∥∥2

dim(V )− dim(W )∥∥∥~Y − πV (~Y )∥∥∥2

n− dim(V )

.

Le theoreme de Cochran (cf cours de Stats 2), assure que sous l’hypothese (ANOVA) et

sous l’hypothese d’egalite des moyennes,‖πV (~Y )−πW (~Y )‖2

σ2 est une variable du χ2dim(V )−dim(W )

independante de la variable‖~Y−πV (~Y )‖2

σ2 qui suit une loi du χ2n−dim(V ). On en deduit que

E2

r−1

1−E2

n−rsuit sous une loi de Fisher F(r − 1, n− r).

Page 42: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

42 ANALYSE DES DONNEES. FABIENNE CASTELL.

Est Nord Ouest Sud

4060

8010

012

014

016

0

vent

Con

cent

ratio

n en

ozo

ne

Figure 3.3 – Boites a moutaches de la concentration en ozone en fonction de la direction duvent.

3.2.4 Exemple

On considere les donnees du fichier ozone.txt dont on a extrait la variable y : max03

(concentration en ozone maximale pendant la journee), et la variable x : Vent (Direction duvent, prenant 4 modalites, E,O,N,S). La figure 3.3 donne les quatre boıtes a moustaches dessous-echantillons correspondant aux quatre modalites.

Au vu de ce graphe, il semble bien qu’il y ait une liaison entre la concentration en ozone etla direction du vent.

Pour tester cette liaison, nous souhaitons calculer le rapport de correlation empirique etutiliser le test de la proposition 3.2.3. Pour cela, nous commencons par verifier que faire l’hy-pothese (ANOVA) sur nos donnees n’est pas aberrant. La figure 3.4 donne les graphes ”quantilesempiriques-quantiles de la normale” pour les quatre sous-echantillons. Les P-valeurs d’un testde Kolmogorov d’ajustement a la loi normale pour les quatre sous-echantillons sont

Direction du vent Est Nord Ouest SudP-valeur 0.27 0.012 0.00000077 0.52

Le graphe ”QQplot” correspondant a la modalite ”Ouest” ressemble assez peu a une droite,ce qui est confirme par la tres faible valeur de la Pvaleur, qui nous amene a rejeter l’hypothese denormalite au moins pour ce sous-echantillon. On essaie donc de transformer les donnees par laprocedure de Box et Cox. La figure 3.5 donne les graphes ”quantiles empiriques-quantiles de lanormale” pour les quatre sous-echantillons apres transformation des donnees. Les P-valeurs dutest de Kolmogorov d’ajustement a la loi normale pour les quatre sous-echantillons sont mainte-

Page 43: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 43

80 100 120 140

6080

100

120

140

Est

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

40 60 80 100 120 140

4060

8010

014

0

Nord

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

20 40 60 80 100 120 140

6080

100

140

Ouest

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

40 60 80 100 120 140 16060

8010

014

0

Sud

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

Figure 3.4 – Graphes ”Quantiles Empiriques-Quantiles de la loi Normale” pour la concentra-tion en ozone en fonction de la direction du vent.

1.84 1.86 1.88 1.90 1.92 1.94 1.96

1.80

1.85

1.90

Est

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

1.80 1.85 1.90 1.95

1.80

1.85

1.90

1.95

Nord

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

1.80 1.85 1.90 1.95

1.82

1.86

1.90

1.94

Ouest

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96

1.82

1.86

1.90

1.94

Sud

Quantile de N(µ, σ)

Qua

ntile

Em

piriq

ue

Figure 3.5 – Graphes ”Quantiles Empiriques-Quantiles de la loi Normale” pour la concentra-tion en ozone en fonction de la direction du vent, apres transformation des donnees.

Page 44: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

44 ANALYSE DES DONNEES. FABIENNE CASTELL.

nant :Direction du vent Est Nord Ouest Sud

P-valeur 0.005 0.29 0.004 0.59Meme apres transformation, l’hypothese de normalite est rejetee pour les modalites ”Ouest” et”Est”.

3.2.5 Que faire lorsque l’hypothese de normalite n’est pas satisfaite ?

Lorsque l’hypothese (ANOVA) n’est pas verifiee , on ne peut pas utiliser le rapport decorrelation empirique pour juger de la liaison entre X et Y . Dans ce cas, on utilise des testsnon parametriques de comparaison d’echantillons independants. Si la variable X a deux mo-dalites, chacun des sous-echantillons correspondant a une modalite est independant de l’autre,et on veut savoir si ces deux sous-echantillons sont de meme loi. On peut alors utiliser un testde comparaison de Kolmogorov-Smirnov, ou un test de la somme des rangs (Mann-Whitney-Wilcoxon). Lorsque X a r modalites, on est en presence de r sous-echantillons dont on veutsavoir s’ils ont meme loi ou pas. On peut dans ce cas utiliser le test de Kruskal-Wallis, qui estune generalisation du test de la somme des rangs. Nous rappelons les principes de ces differentstests dans ce qui suit.

Test de Kolmogorov-Smirnov :

Il est utilise lorsque on a observe (x1, · · · , xn) et (y1, · · · , ym) realisations de deux echantillons(X1, · · · , Xn) et (Y1, · · · , Ym) independants. On suppose que les fonctions de repartitionde X et Y (notees F et G) sont continues. On veut tester (H0) : ”F = G” contre(H1) : ”F 6= G”.

Le test de Kolmogorov-Smirnov consiste a estimer F et G par les fonctions de repartitionempiriques

Fn(x) =1

n

n∑i=1

1IXi≤x ,

Gm(x) =1

m

m∑j=1

1IYj≤x ,

et a mesurer l’ecart entre F et G au moyen de la statistique

Dn,m = supx

(∣∣∣Fn(x)− Gm(x)∣∣∣) .

Proposition 3.2.4 Si on suppose que F et G sont continues, la loi de Dn,m sous (H0) nedepend que de n et m, i.e. ne depend pas de F (= G).

Cette loi est tabulee pour de petites valeurs de n et m. Pour de plus grandes valeurs de n etm, on a le resultat asymptotique :

P[√

mn

n+mDn,m ≥ t

]→ P [D ≥ t] = 2

∞∑k=1

(−1)k+1 exp(−2k2t2) .

Pour tester (H0) : ”F = G” contre (H1) : ”F 6= G”, on prend alors la regle de decision suivante :

Page 45: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 45

— Si Dn,m > t, on rejette (H0) : ”F = G” et on decide que les deux echantillons ne sontpas de meme loi.

— Si Dn,m ≤ t, on ne rejette pas (H0) : rien de significatif ne permet de dire que les deuxechantillons ne sont pas de meme loi.

t est choisi en fonction du niveau α desire.

Preuve de la proposition 3.2.4 : On fait la demonstration dans le cas ou F est continue etstrictement croissante. Dans ce cas, F est une bijection de R dans ]0; 1[ et son inverse F−1 estune bijection de ]0; 1[ dans R. On a donc

supx∈R

(∣∣∣Fn(x)− Gm(x)∣∣∣) = sup

u∈]0;1[

(∣∣∣Fn(F−1(u))− Gm(F−1(u))∣∣∣) ,

Pour tout u ∈]0; 1[, Fn(F−1(u)) = 1n

∑ni=1 1IF (Xi)≤u et Gm(F−1(u)) = 1

m

∑mj=1 1IF (Yj)≤u. Po-

sons Ui = F (Xi) et Vj = F (Yj). Sous l’hypothese (H0), (X1, · · · , Xn, Y1, · · · , Ym) est un(n + m)-echantillon de loi de fonction de repartition F continue. (U1, · · · , Un, V1, · · · , Vm) estpar la proposition 2.6.2, un (n + m)-echantillon de loi uniforme sur [0; 1]. Ainsi, sous (H0),

supx∈R

(∣∣∣Fn(x)− Gm(x)∣∣∣) a meme loi que sup

u∈[0,1]

(∣∣∣Un(u)− Vm(u)∣∣∣), ou Un(x) et Vm(x) sont les

fonctions de repartition empiriques de deux echantillons independants de loi uniforme sur [0; 1].La loi de Dn,m ne depend donc pas de F .

Dans le cas ou F est continue et croissante, la demonstration precedente s’adapte en prenantpour F−1 l’inverse generalisee de F (cf expression (2.4), chapitre 2).

Test de la somme des rangs, ou de Mann-Whitney-Wilcoxon.

Ce test s’utilise dans le meme cadre que le test de Kolmogorov-Smirnov. Il se construit de lafacon suivante. Posons (Z1, · · · , Zn+m) = (X1, · · · , Xn, Y1, · · · , Ym). Sous (H0), (Z1, · · · , Zn+m)est un (n+m)-echantillon de loi de fonction de repartition F .

Definition 3.2.5 La statistique de rang de (Z1, · · · , Zn+m) est la permutation aleatoire R :Ω→ Σn+m definie par ∀i ∈ 1, · · · , n+m,

R(i) =n+m∑j=1

1IZj<Zi + 1

= rang (numero de place) occupe par Zi dans le rearrangementpar ordre croissant de Z1, · · · , Zn+m

Exemple. Supposons que pour un echantillon ω particulier, on ait

(Z1(ω), Z2(ω), Z3(ω), Z4(ω), Z5(ω)) = (2, 1.5, 6, 3.3, 1) ,

on a R1(ω) = 3, R2(ω) = 2, R3(ω) = 5, R4(ω) = 4, R5(ω) = 1.Remarque Si F est continue,R est bien (sous (H0)) une permutation de l’ensemble 1, · · · , n+m,car il n’y a pas de problemes d’ex-aequo.

Page 46: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

46 ANALYSE DES DONNEES. FABIENNE CASTELL.

Le test de la somme des rangs est basee sur la statistique

W =n∑i=1

R(i)

= somme des rangs des Xi dans le rearrangementpar ordre croissant de X1, · · · , Xn, Y1, · · · , Ym .

Dans l’exemple precedent, si on suppose que n = 2, et m = 3, on obtient W (ω) = 5.Supposons en effet que l’on veuille tester (H0) : ”F = G” contre (H1) : ”F > G”. Sous

(H1), X a tendance a etre plus petite que Y (par exemple, si X ≤ Y , on a pour tout t,G(t) = P (Y ≤ t) ≤ P (X ≤ t) = F (t)). Par consequent, W devrait etre faible. On prendradonc une region de rejet du type R = W ≤ t. Pour determiner t, on a besoin de connaıtre laloi de W sous (H0). Le test de la somme des rangs s’appuie alors sur le resultat suivant, dejautilise dans la demonstration de la proposition 3.1.3 :

Proposition 3.2.6 Soit Z1, · · · , Zn un n-echantillon de loi de fonction de repartition F conti-nue. La loi de sa statistique de rang R est la loi uniforme sur l’ensemble des permutationsΣn.

Preuve : Soit σ ∈ Σn.

P (R = σ) = P (Zσ−1(1) < · · · < Zσ−1(n))=∫zσ(1)<···<zσ(n)

dF (z1) · · · dF (zn)

=∫z1<···<zn dF (z1) · · · dF (zn)

|

Par consequent, P (R = σ) est independant de σ, et P (R = σ) = 1/(n!).

En particulier, la loi de R ne depend pas de F . On en deduit que sous (H0), la loi de West independante de F (=G). Pour de petites valeurs de n et m, la loi de W sous (H0) esttabulee, et t se lit dans la table des que le niveau du test a ete fixe. Sinon, on pourra utiliser laproposition

Proposition 3.2.7 Sous l’hypothese (H0),

E(W ) =n(n+m+ 1)

2,

σ2(W ) =nm(n+m+ 1)

12,

W − E(W )

σ(W )

(loi)−→

n,m→∞a≤n/m≤b

N(0, 1) .

Preuve : Nous nous contenterons de demontrer les deux premieres assertions. Dans toute lademonstration, nous noterons N = n+m.

Page 47: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 47

R(i) =N∑j=1

1IZj<Zi + 1. Par consequent

W =n∑i=1

R(i) = n+n∑i=1

N∑j=1

1IZj<Xi

= n+n∑i=1

n∑j=1

1IXj<Xi +n∑i=1

m∑j=1

1IYj<Xi = n+n(n− 1)

2+ U

ou on a note U =n∑i=1

m∑j=1

1IYj<Xi . Sous (H0), Yj et Xi sont independantes et de meme loi. Par

consequent P (Yj < Xi) = P (Xi < Yj) = 1/2. On en deduit que E(U) =nm

2, ce qui donne la

premiere assertion de la proposition.En ce qui concerne la seconde, on a Var(W ) = Var(U) = E(U2)− E(U)2. Il s’agit donc de

calculer E(U2).

E(U2) =∑i,j

P (Yj < Xi) +∑i,j,k,l

(i,j)6=(k,l)

P (Yj < Xi;Yl < Xk)

Il est facile de verifier que sous (H0),

P (Yj < Xi;Yl < Xk) =

1/4 si j 6= l et i 6= k ,1/3 si j = l ou i = k , et(i, j) 6= (k, l) .

On obtient donc

E(U2) =nm

2+

1

3(mn(n− 1) + nm(m− 1)) +

1

4m(m− 1)n(n− 1)

=nm

12(3nm+ n+m+ 1) ,

soit Var(U) =nm(n+m+ 1)

12.

Test de Kruskal-Wallis.

Lorsque la variable X a r > 2 modalites, on est en presence de r sous-echantillons dont onveut savoir s’ils sont issus d’une meme distribution. Notons (y11, · · · , y1n1), (y21, · · · , y2n2), · · ·(yr1, · · · , yrnr), ces r sous-echantillons. On suppose qu’ils sont la realisation de r echantillonsindependants (Y11, · · · , Y1n1), (Y21, · · · , Y2n2), · · · (Yr1, · · · , Yrnr), de lois de fonction de repartitionF1, · · · , Fr supposees continues. On souhaite tester (H0) : ”F1 = · · · = Fr” contre (H1) : ”∃i, jtels que Fi 6= Fj”.

Pour construire le test de Kruskal-Wallis, on commence par calculer— le rang Rij de Yij parmi les n = n1 + · · ·+ nr valeurs ;

Page 48: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

48 ANALYSE DES DONNEES. FABIENNE CASTELL.

— la moyenne des rangs associee a chaque echantillon : Ri• = 1ni

∑nij=1Rij ;

— l’ecart entre la moyenne des rangs de chaque echantillon et la moyenne de tous les rangs(= 1

n

∑i,j Rij = 1

n

∑nk=1 k = n+1

2) :

KWn =12

n(n+ 1)

r∑i=1

ni

(Ri• −

n+ 1

2

)2

.

Proposition 3.2.8 Sous (H0), la loi de KWn ne depend que de (n1, · · · , nr) (i.e. ne dependpas de F = F1 = · · · = Fr)

Preuve : Sous (H0), (Y11, · · · , Y1n1 , · · · , Yr1, · · · , Yrnr) est un n-echantillon de la loi de fonctionde repartition F continue. Par consequent, sa statistique de rang (R11, · · · , R1n1 , · · · , Rr1, · · · , Rrnr)est une variable de loi uniforme sur les permutations de n elements (proposition 3.2.6).

La statistique KWn permet de tester (H0) : ”F1 = · · · = Fr” contre (H1) : ”∃i, j tels queFi 6= Fj”. Sous (H0), les moyennes des rangs Ri• devraient etre proches (et donc proches dela moyenne des rangs sur l’echantillon total =(n + 1)/2). KWn devrait donc etre ”petit” sous(H0). La regle de decision est alors la suivante :

— Si KWn > t, on rejette (H0), et on conclut que les differents echantillons n’ont pas lameme loi ;

— Si KWn ≤ t, on ne rejette pas (H0). Rien de significatif ne permet de dire que lesechantillons ont des lois differentes.

La valeur critique t est fixe en fonction du niveau α de test : α = P(H0) [KWn > t], et t est lequantile d’ordre 1− α de la loi de la statistique de Kruskal-Wallis de parametres (n1, · · · , nr)

En developpant le carre dans l’expression de KWn, on obtient

KWn =12

n(n+ 1)

r∑i=1

niR2i• − 3(n+ 1) .

On peut aussi remarquer que Wi = niRi• est la somme des rangs du i-eme echantillon dans lerearrangement de l’ensemble des echantillons. C’est donc la statistique du test de Wilcoxon decomparaison du ieme echantillon a l’ensemble des r−1 autres echantillons. En particulier, sous(H0), on a

E(Wi) =ni(n+ 1)

2, et var(Wi) =

ni(n− ni)(n+ 1)

12

On a donc sous (H0)

KWn =12

n(n+ 1)

r∑i=1

ni

(Wi

ni− n+ 1

2

)2

=12

n(n+ 1)

r∑i=1

1

ni(Wi − E(Wi))

2

=1

n

r∑i=1

(n− ni)(Wi − E(Wi))

2

var(Wi)

Page 49: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 49

On deduit immediatement de cette expression que sous (H0)

E(KWn) = r − 1 .

Cette expression suggere aussi que lorsque les ni sont grands, KWn tend sous (H0) vers unevariable du χ2 a r − 1 degres de liberte (cf l’expression de la moyenne). Le nombre de degresde liberte vient de la liaison entre les variables Wi :

∑ri=1 Wi = n(n+ 1)/2.

Lorsque r = 2, n1 + n2 = n et W1 + W2 = n(n + 1)/2. Donc var(W1) = var(W2) et

W1−E(W1) = −(W2−E(W2)). On a donc KWn = (W1−E(W1))2

var(W1)et le test de Kruskal-Wallis est

le meme que le test de Wilcoxon.

Exemple 3.1: On reprend les donnees du fichier ozone.txt dont on a extrait la variable y :max03 (concentration en ozone maximale pendant la journee), et la variable x : Vent (Directiondu vent, prenant 4 modalites, E,O,N,S). Pour savoir s’il y a un lien entre la direction du ventet la concentration en ozone, on effectue un test de Kruskal-Wallis de comparaison des 4 sous-echantillons correspondant aux quatre directions de vent. La fonction R permettant de fairece test est la fonction kruskal.test. La Pvaleur du test est 0.003431. On peut donc conclure(avec 0.34 % de chances d’avoir tort) qu’il y a une liaison entre la direction du vent et laconcentration en ozone.

3.3 Deux variables qualitatives.

On suppose ici que le couple (X, Y ) est constitue de deux variables qualitatives X et Y . Onnotera C = c1, · · · cr les modalites de la variable X, et D = d1, · · · dl les modalites de lavariable Y .

3.3.1 Distribution theorique

Dans ce cadre, on peut caracteriser la loi du couple (X, Y ) par :

1. - la fonction (c, d) ∈ C×D 7→ P(X = c;Y = d) ;

2. - les fonctions c ∈ C 7→ P(X = c) (loi marginale en X), et d ∈ D 7→ P(Y = d|X = c)(loi conditionnelle) ;

3. ...

On a

P(X = c) =∑d∈D

P(X = c;Y = d) et P(Y = d|X = c) =P(X = c;Y = d)

P(X = c).

Dans le cas ou X et Y sont independantes, P(X = c;Y = d) = P(X = c)P(Y = d), et la loiconditionnelle d ∈ D 7→ P(Y = d|X = c) est independante de la valeur de c.

Page 50: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

50 ANALYSE DES DONNEES. FABIENNE CASTELL.

3.3.2 Quantites empiriques.

Les donnees sont presentees dans une table de contingence qui donne les effectifsconjoints de chaque couple de modalites : pour tout (i, j) ∈ 1, · · · , r × 1, · · · , l,

nij =n∑k=1

1I(ci,dj)(xk, yk) .

On note

ni• =l∑

j=1

nij =n∑k=1

1Ici(xk) ;

n•j =r∑i=1

nij =n∑k=1

1Idj(yk) .

Ces quantites sont appeles effectifs marginaux.Les liens entre les quantites empiriques et la distribution theorique sont donnes par la

proposition suivante :

Proposition 3.3.1 Supposons que ((x1, y1) · · · (xn, yn)) est une realisation d’un n-echantillon((X1, Y1) · · · (Xn, Yn)) du couple de variables (X, Y ). Notons Nij, Ni• et N•j les variables aleatoirescorrespondantes a nij, ni•, et n•j. On a pour tout i ∈ 1, · · · , r, et tout j ∈ 1, · · · , l,

1. limn→∞Nijn

= P [X = ci;Y = dj] ;

2. limn→∞Ni•n

= P [X = ci] ;

3. limn→∞N•jn

= P [Y = dj] ;

4. limn→∞NijNi•

= P [Y = dj|X = ci] ;

5. limn→∞NijN•j

= P [X = ci|Y = dj] ;

Preuve de la proposition 3.3.1 :

1.Nijn

= 1n

∑nk=1 1I(ci,dj)(Xk, Yk). Par la loi des grands nombres, on a

limn→∞

Nij

n= P [X = ci;Y = dj] .

2. Ni•n

= 1n

∑nk=1 1Ici(Xk). Par la loi des grands nombres, on a limn→∞

Ni•n

= P [X = ci].

3. idem.

4. limn→∞NijNi•

= limn→∞Nijn

nNi•

. Par la loi des grands nombres, limn→∞NijNi•

=P[X=ci;Y=dj ]

P[X=ci]=

P [Y = dj|X = ci].

Le vecteur(ni1ni•, · · · , nil

ni•

)est appele i-eme profil-ligne. Il est une estimation de la loi

conditionnelle de Y sachant que X = ci. De facon analogue, le vecteur(n1j

n•j, · · · , nrj

n•j

)est appele

j-eme profil-colonne. Il est une estimation de la loi conditionnelle de X sachant que Y = dj.

Page 51: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 51

3.3.3 Comment juger de la liaison entre X et Y ?

Representation graphique.

Dans le cas ou X et Y sont independantes, la loi conditionnelle d ∈ D 7→ P [Y = d|X = c]est independante de la valeur c. Ainsi tous les profils-lignes ont tendance a se ressembler. De lameme facon, la loi conditionnelle c ∈ C 7→ P [X = c|Y = d] est independante de la valeur d, ettous les profils-colonnes ont aussi tendance a se ressembler.

On peut alors representer graphiquement les profils-lignes (ou les profils-colonnes) sousforme de diagrammes en barres paralleles (mosaıc plot, cf figure 3.6). Les differences visiblesentre ces barres permettent de se faire une idee de la liaison des variables X et Y .

Test du χ2 d’independance.

Pour juger de la liaison entre X et Y , on peut aussi faire un test du χ2 d’independance (cfcours de Stat 2), base sur la statistique

Tn =r∑i=1

l∑j=1

(Nij − Ni•N•jn

)2

Ni•N•jn

.

Si X et Y sont independantes,Nijn' P(X = ci, Y = dj) = P(X = ci)P(Y = dj) ' Ni•

n

N•jn

, etTn a tendance a etre petit. Pour savoir si Tn est significativement non nul ou pas, on s’appuiesur le resultat suivant :

Proposition 3.3.2 Soit ((X1, Y1), · · · , (Xn, Yn)) un n-echantillon du couple de variables qua-litatives (X, Y ). Si on suppose que X et Y sont independantes, alors pour tous reels a, b,

limn→+∞

P [Tn ∈ [a; b]] = P(Z ∈ [a; b]) , Z ∼ χ2(r−1)(l−1) .

Cette proposition permet de tester (H0) : ”X et Y sont independantes” contre (H1) : ”X et Ysont liees” lorsque la taille de l’echantillon est assez grande (en pratique n ≥ 30, et pour touti, j,

ni•n•jn≥ 5). La regle de decision du test est donnee par :

— si Tn > t, on rejette (H0), et on conclut que X et Y sont liees ;— si Tn ≤ t, on ne rejette pas (H0) ; rien de significatif ne permet d’assurer que X et Y

sont liees.

t est choisi en fonction du niveau α de test :

α = P(H0) [ Rejeter (H0)] = P(Z > t) avec Z ∼ χ2(r−1)(l−1) .

3.3.4 Exemple

On reprend les donnees du fichier ozone.txt dont on a extrait la variable y : Pluie (quiprend deux modalites Pluie , Sec, et la variable x : Vent (Direction du vent, prenant 4modalites, E,O,N,S). On obtient la table de contingence :

Page 52: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

52 ANALYSE DES DONNEES. FABIENNE CASTELL.

Profils−lignes

pluie

vent

Pluie Sec

Est

Nor

dO

uest

Sud

0.0

0.2

0.4

0.6

0.8

1.0

Profils−colonnes

ventpl

uie

Est Nord Ouest Sud

Plu

ieS

ec

0.0

0.2

0.4

0.6

0.8

1.0

Figure 3.6 – Profils-lignes et Profils-colonnes sur les donnees du fichier ozone.txt

vent \pluie Pluie Sec TotalEst 2 8 10

Nord 10 21 31Ouest 26 24 50Sud 5 16 21

Total 43 69 112

La representation des profils-lignes et des profils-colonnes sous forme de diagrammes enbarres paralleles est donnee dans la Figure 3.6.

Au vu de ces graphiques, les deux variables ”Direction du vent” et ”Pluie” semblent liees.Pour en etre sur, on effectue un test du χ2 d’independance. On verifie tout d’abord qu’on estbien dans les conditions d’application du test. On a n = 112 ≥ 30 et pour tout i, j

ni•n•jn≥

10(43)/112 = 3.83 ≤ 5. On n’est pas dans les conditions d’application du test. On a alors deuxpossibilites :

— soit regrouper des classes de facon a ce que tous les ”effectifs theoriques” soient superieursa 5

— soit demander le calcul de la loi de Tn par simulation Monte-Carlo.

On choisit la seconde solution. On obtient une P-valeur du test d’independance de 0.05597. Onpeut donc conclure (avec 5.6 % de chances d’avoir tort) qu’il y a une liaison entre la directiondu vent et la presence ou absence de pluie.

Page 53: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 53

−20 −10 0 10 20

−2

−1

01

2

x

y

−20 −10 0 10 20

−40

−20

020

40

x

y

−20 −10 0 10 20

−40

−20

020

40

x

y

−20 −10 0 10 20

−10

010

030

050

0x

y

Figure 3.7 – Exemple de nuages de points.

3.4 Exercices

3.4.1 Deux variables quantitatives

Exercice 1: Commenter les nuages de la figure 3.7. Les variables vous semblent-elles liees ?Sous quelle forme ?

Exercice 2:

1. Recuperer le fichier ozone.txt.

2. En extraire les variables quantitatives.

3. Pour chaque couple de variables quantitatives, tracer le nuage de points correspon-dant (fonction plot) et reperer les couples de variables semblant avoir une dependancelineaire.

4. Pour les couples precedents, calculer les coefficients de correlation lineaire empirique.

5. Tester la normalite de chacune des variables selectionnees. Est-ce-que cela suffit a testerla normalite des couples de variables ?

6. Dans les cas ou la normalite des couples s’avere plausible, les coefficients de correlationlineaires empiriques sont-ils significativement non nuls ?

Exercice 3: Preuve de la proposition 3.1.2.Dans tout l’exercice, on se place dans l’hypothese ou (X, Y ) est un couple gaussien de coefficientde correlation ρ = 0. Soit (X1, Y1), · · · (Xn, Yn) des couples independants de meme loi que (X, Y )et notons R la variable correlation empirique definie par (3.2).

Page 54: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

54 ANALYSE DES DONNEES. FABIENNE CASTELL.

1. Montrer que les vecteurs ~X et ~Y sont deux vecteurs gaussiens de Rn independants, avec

~X ∼ N (µX 1I;σ2XId), ~Y ∼ N (µY 1I;σ2

Y Id), et 1I :=

1...1

.

2. Dans Rn, soit e1 = 1√n

1I, e2, · · · , en n vecteurs orthornormes formant une bon de Rn.

Soit X1, · · · , Xn les coordonnees de ~X dans cette base : ~X =∑n

i=1 Xiei.

(a) Montrer que X1 =√nXn.

(b) Montrer que ~X :=

X1...

Xn

=

e′1...e′n

~X. En deduire que ~X est un vecteur gaussien

de moyenne

√nµX0...0

et de matrice de covariance σ2XId.

(c) En deduire que Xn et X2, · · · , Xn sont des variables independantes, que Xn ∼N(µX , σ

2X/n) et que Xi ∼ N(0, σ2

X) pour i ≥ 2.

3. En definissant les variables Yi en fonction de ~Y de la meme facon que les Xi en fonction

de ~X, montrer que R =∑ni=2 XiYi√∑n

i=2 X2i

√∑ni=2 Y

2i

, et que R a meme loi que∑n−1i=1 ZiTi√∑n−1

i=1 Z2i

√∑n−1i=1 T

2i

,

ou les variables Z1, · · · , Zn−1, T1, · · · , Tn−1 sont i .i.d de loi N(0, 1).

4. Soit t = (t1, · · · , td)′ un vecteur de Rd tel que ‖t‖ = 1. Soit Z1, · · · , Zd i.i.d de loi N(0, 1).

On considere la variable S =〈~Z;t〉‖~Z‖ , ou ~Z = (Z1, · · · , Zd)′. Soit f2, · · · , fd des vecteurs

normes de Rd tels que f1 := t, f2, · · · , fd soit une bon de Rd. On pose Zi =⟨~Z; fi

⟩(a) Quelle est la loi de (Z1, · · · , Zd) ?

(b) Montrer que S√1−S2 = Z1√∑d

i=2 Z2i

.

(c) En deduire que S√1−S2

√d− 1 est une variable de Student a d− 1 degres de liberte.

5. Conclure que R√1−R2

√n− 2 est une variable de Student a n− 2 degres de liberte.

Exercice 4: test de correlation de Spearman.

1. On suppose que n = 5.

(a) Quelles sont les valeurs prises par la variable RS ?

(b) Quelle est la loi de la variable RS sous l’hypothese d’independance de X et Y ?

(c) En deduire la Pvaleur du test de correlation de Spearman de l’exemple 3.1.3.

2. En utilisant la fonction cor.test, refaire les tests de correlation sur les donnees dufichier ozone.txt.

Page 55: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 3. Statistique descriptive bidimensionnelle. 55

3.4.2 Une variable qualitative et une variable quantitative

Exercice 5: On a observe sur n = 10 individus une variable quantitative y et une variablequalitative x prenant 3 modalites A,B,C. Les resultats sont les suivants :

y -0.97 -0.52 0.19 -0.03 0.55 1.08 0.39 0.38 2.63 0.82x A A B A B C B B C B

1. Calculer les effectifs, les moyennes et variances empiriques pour chaque modalite.

2. Calculer la variance inter-categories, la variance intra-categories et le rapport de correlationempirique.

3. Faire un test de normalite de chaque sous-echantillon.

4. Selon le resultat du test precedent, choisir un test d’independance entre x et y. Conclure.

Exercice 6:

1. A partir des donnees du fichier ozone.txt, obtenir les resultats concernant la liaison entredirection du vent et concentration en ozone presentes en exemple dans le cours

2. Etudier la liaison entre la concentration en ozone, et le fait qu’il pleuve ou pas.

3.4.3 Deux variables qualitatives .

Exercice 7: On a observe sur n = 10 individus deux variables quantitatives : x prenant 2modalites H,F, et y prenant trois modalites 0,B,A. Les resultats sont les suivants :

x H H F F H H F F H Hy O O B B O A B O O O

1. Calculer la table de contingence.

2. Faire une representation graphique des profils-lignes et des profils-colonnes.

3. Tester l’independance entre x et y. Conclure.

Exercice 8: A partir des donnees du fichier ozone.txt, etudier la liaison entre la concentrationen ozone, et le fait qu’il pleuve ou pas.

Page 56: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

56 ANALYSE DES DONNEES. FABIENNE CASTELL.

Page 57: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Chapitre 4

Analyse en Composantes Principales.

L’ACP est une des plus anciennes methodes factorielles. Elle a ete concue par Karl Peason(1901) et integree a la statistique par Harold Hotelling (1933). Elle est utilisee lorsqu’on observesur n individus, p variables quantitatives X1, X2, . . ., Xp presentant des liaisons multiples quel’on veut analyser. Ces observations sont regroupees dans un tableau (matrice) rectangulaire Xayant n lignes (individus) et p colonnes (variables) :

X =

x1

1 x21 . . . xp1

x12 x2

2 . . . xp2...

......

...x1n x2

n . . . xpn

ou xji est la valeur observee de la j-ieme variable Xj sur le i-eme individu de l’echantillon.

Exemple 4.1: Cet exemple est tire du livre ”Statistique avec R”, et le fichier de donneesdecathlon.csv peut-etre telecharge sur le site d’agrocampus Rennes. Il concerne les resultatsd’athletes (les individus) aux 10 epreuves du decathlon (les variables). Il s’agit d’analyser lesliaisons entre les performances aux differentes epreuves, de savoir si certaines epreuves se res-semblent (une bonne performance a telle epreuve augurant alors d’une bonne performance atelle autre), de determiner des profils d’athletes (endurant, rapide, ... etc). Ainsi, sur les 10epreuves, on se doute bien que les performances au 100m, 110 m haies, et saut en longueur vontetre correlees. Est-il vraiment utile de garder dans le tableau de donnees ces trois epreuves ? Nepeut-on pas se contenter d’en garder une seule ? Ou d’en ”fabriquer” une qui serait un ”resume”de ces trois epreuves ? De facon generale, ne peut-on pas reduire la dimension du tableau dedonnees, en ne conservant qu’un petit nombre de variables qui apportent autant d’informationque l’ensemble des variables mesurees ?

Le but de l’ACP est de repondre a ce genre de questions. Il s’agit d’une methode de des-cription et de resume d’un tableau de donnees (n, p). Son objectif principal est de remplacerce tableau de donnees par un tableau de dimension reduite (n, q) (q < p). Un des avantagesde cette reduction de dimension est par exemple, de pouvoir obtenir des representations gra-phiques des donnees. En effet, lorsque p = 2, chaque individu peut-etre represente par un point

57

Page 58: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

58 ANALYSE DES DONNEES. FABIENNE CASTELL.

dans un plan, et le tableau de donnees initial peut etre visualise graphiquement par un nuagede points dans un plan. Des que p ≥ 4, une representation graphique du nuage de points estdifficile, et l’un des buts de l’ACP est de trouver ”la meilleure” representation plane du nuagede points, ce qui revient a chercher un tableau (n, q = 2) qui approche ”au mieux” le tableaude donnees initial. On cherche en particulier une representation plane :

— qui minimise les deformations du nuage initial ;— qui fait apparaıtre les liaisons entre les variables initiales ;— qui permet de resumer l’information contenue dans le tableau initial (n, p) dans un

tableau de plus faible dimension (n, q), q < p, (en fait q = 2, 3), en la detruisant le moinspossible.

Cette reduction va etre obtenue en remplacant les variables initiales xj, j = 1, . . . , p par unpetit nombre de nouvelles variables cj, j = 1, . . . , q, appelees composantes principales, quisont non correlees, et combinaisons lineaires des xj. Ces nouvelles variables vont etre obtenuesen analysant la structure des covariances, ou des correlations, entre les variables initiales.

Avant de decrire plus precisement la methode, il faut en souligner quelques limites :

1. l’ACP ne permet pas le traitement de variables qualitatives ;

2. l’ACP ne detecte que d’eventuelles liaisons lineaires entre variables.

L’ACP presente de nombreuses variantes selon les transformations apportees au tableau dedonnees. Parmi ces variantes, l’ACP sur un tableau ou les colonnes sont centrees et reduites,appelee ACP normee est la plus frequemment utilisee.

4.1 Definitions

4.1.1 Espace des individus.

Espace vectoriel des individus

On associe a chaque individu i, un vecteur xi contenant les valeurs de chaque variable pourl’individu considere :

x′i = (x1i , x

2i , · · · , x

pi ) (i-eme ligne de la matrice X) .

Chaque individu peut alors etre represente par un point dans Rp, appele espace des individus.

Matrice des poids.

On affecte a chaque individu un poids pi refletant son importance par rapport aux autresindividus avec pi > 0 et

∑ni=1 pi = 1. On appelle matrice des poids la matrice diagonale

(n, n) dont les elements diagonaux sont les poids pi. Elle sera notee

D = diag(p1, p2, · · · , pn) =

p1 0 · · · 00 p2 · · · 0...

......

...0 · · · 0 pn

.

Page 59: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 59

Le cas le plus frequent est de considerer que tous les individus ont la meme importance :pi = 1/n, pour tout i = 1, · · · , n. Si les individus sont par exemple des pays, on peut etre amenea prendre

pi =Population du pays i

Population totale.

On appelle nuage des individus, l’ensemble des points xi munis de leurs poids : M =(xi, pi) ; i = 1, . . . , n.

Centrage des donnees.

Le point g de Rp dont les coordonnees sont les moyennes empiriques des variables ( g′ =(x1, x2, · · · , xp)) est le centre de gravite (le barycentre) du nuage de points M. En utilisantles notations matricielles, on peut ecrire

g = X ′D 1I , (4.1)

ou 1I designe le vecteur de Rn dont toutes les coordonees sont egales a 1. On a en effet pourtout j ∈ 1, · · · , p,

gj =n∑k=1

(X ′)jk(D 1I)k =n∑k=1

n∑i=1

XkjDki 1Ii =n∑k=1

xjkpk = xj .

Pour ramener l’origine du repere au barycentre des individus (i.e centrer le nuage autour deson barycentre), on centre les variables. A chaque variable observee xj, on associe sa variablecentree yj :

yj = xj −

xj

xj

...xj

= xj − xj 1I .

A partir du tableau X, on obtient un tableau de donnees Y :

Y =[y1, y2, · · · , yp

]=

y1

1 · · · yj1 · · · yp1y1

2 · · · yj2 · · · yp2...

......

......

y1n · · · yjn · · · ypn

,

avec yji = xji − xj. En utilisant les notations matricielles, on a

Y = X − 1Ig′ = X − 1I 1I′DX = (Id− 1I 1I′D)X .

Matrice de covariance empirique.

La matrice de covariance empirique des variables x1, · · · , xp peut s’ecrire sous la forme

V = X ′DX − gg′ = Y ′DY . (4.2)

Page 60: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

60 ANALYSE DES DONNEES. FABIENNE CASTELL.

En effet, pour tout i, j ∈ 1, · · · , p

cov(xi, xj) =n∑k=1

pk(xik − xi)(x

jk − x

j) =n∑k=1

pkyiky

jk =

n∑k=1

DkkYkiYkj = (Y ′DY )ij ,

ce qui montre la seconde identite. La premiere est une consequence de l’expression

cov(xi, xj) =n∑k=1

pkxikx

jk − xixj .

V est une matrice carree p× p symetrique semi-definie positive : pour tout u ∈ Rp ,

u′V u = u′Y ′DY u = (Y u)′D(Y u) =n∑k=1

Dkk(Y u)2k =

n∑k=1

pk(Y u)2k ≥ 0 .

Elle admet donc p valeurs propres reelles positives ou nulles.

Centrage et reduction des donnees.

Notons si l’ecart type empirique de la variable X i :

si =√

cov(xi, xi) =

√√√√ n∑k=1

pk(xik − xi)2 =

√√√√ n∑k=1

pk(yik)2 .

Les donnees centrees et reduites sont notees

zji =xji − xj

sj.

Ce sont des donnees sans dimension. Elles sont regroupees dans un tableau

Z =[z1, z2, · · · , zp

]=

z1

1 · · · zj1 · · · zp1z1

2 · · · zj2 · · · zp2...

......

......

z1n · · · zjn · · · zpn

.

Si on note D1/S la matrice diagonale des inverses des ecarts-types :

D1/S = diag(1/s1, · · · , 1/sp) =

1

s1

0 · · · 0

01

s2

· · · 0

......

......

0 · · · 01

sn

,

le tableau Z peut etre recrit sous la forme Z = Y D1/S.

Page 61: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 61

Matrice de correlation empirique.

Notons rij la correlation empirique des variables X i et Xj : rij =cov(xi, xj)

sisj. La matrice R

de correlation empirique

R =

1 r12 · · · r1p

r21 1 · · · r2p...

......

...rp1 rp2 · · · 1

peut se recrire

R = D1/SV D1/S = D1/SY′DYD1/S = Z ′DZ .

La matrice R est la matrice de variance-covariance des donnees centrees reduites et resumela structure des dependances lineaires entre les p variables.

Espace metrique des individus.

Si l’on veut faire des ”groupes d’individus qui se ressemblent” au vu des variables considerees,il faut introduire une mesure de ”proximite” entre individus, i.e. definir une notion de distancesur l’espace vectoriel des individus. Quelle distance choisir ? La question est primordiale car lesresultats de l’etude statistique vont en dependre dans une large mesure.

On pourrait choisir la distance euclidienne usuelle

d(x1, x2) =√

(x11 − x1

2)2 + (x21 − x2

2)2 + · · ·+ (xp1 − xp2)2 ,

mais ce n’est pas forcement la plus adaptee. Par exemple, on peut vouloir donner des impor-tances differentes a chaque variable, auquel cas on choisira plutot de prendre pour distance

d(x1, x2) =√m1(x1

1 − x12)2 +m2(x2

1 − x22)2 + · · ·+mp(x

p1 − x

p2)2 .

Cela revient a multiplier par√mj chaque variableXj. Cependant, cette formule sous-entend que

les axes sont orthogonaux (formule de Pythagore), mais en statistique c’est par pure conventionque l’on represente les variables sur des axes orthogonaux, on aurait pu prendre des axesobliques. Ainsi, la distance entre deux individus x1 et x2 peut etre definie de maniere generalepar :

dM(x1, x2) =√

(x1 − x2)′M(x1 − x2) = ||x1 − x2||M ,

ou M est une matrice symetrique definie positive : pour tout u ∈ Rp, u′Mu ≥ 0 et si u′Mu = 0alors u = 0Rp . Une telle matrice admet p valeurs propres reelles strictement positives.

En pratique, on utilise le plus souvent l’une des metriques suivantes :

— M = Id. La distance est la distance euclidienne usuelle, et on parle d’ACP canoniqueou simple. Elle s’utilise lorsque les variable sont homogenes (meme dimension) et dememe ordre de grandeur.

Page 62: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

62 ANALYSE DES DONNEES. FABIENNE CASTELL.

— M = D1/S2 , ou D1/S2 est la matrice diagonale des inverses des variances definie parD1/S2 = D1/SD1/S. Le choix de cette metrique revient a diviser chaque variable (colonne)par son ecart-type. On parle alors d’ACP normee. Ici la distance ne depend plus desunites de mesure puisque xji/sj est une grandeur sans dimension. Cette metrique donne achaque caractere la meme importance quelle que soit sa dispersion. Elle s’utilise lorsqueles variable ne sont pas homogenes, ou ne sont pas de meme ordre de grandeur.

4.1.2 Inertie d’un nuage de points.

Soit M = (xi, pi) le nuage de points. On note N = (yi, pi) le nuage centre, ou on aramene le centre de gravite a l’origine du repere.

Inertie totale du nuage de points.

Definition 4.1.1 On appelle inertie totale du nuage des individus , I, la moyenneponderee des carres des distances des points au centre de gravite :

I =n∑i=1

pid2M(xi, g) =

n∑i=1

pi||xi − g||2M =n∑i=1

pi||yi||2M .

L’inertie mesure la dispersion des points individus autour du centre de gravite g, elle est parfoisappelee variance du nuage. L’inertie du nuage M est evidemment egale a l’inertie du nuagecentre N. Dans la suite du chapitre, on supposera que le nuage est centre.

Proposition 4.1.2

I =1

2

n∑i=1

n∑j=1

pipj||xi − xj||2M ,

c’est a dire l’inertie correspond a la moyenne des carres de toutes les distances entre les indi-vidus.

Preuve : Notons 〈x, y〉M le produit scalaire associe a M : 〈x, y〉M = x′My.

1

2

n∑i=1

n∑j=1

pipj||xi − xj||2M

=1

2

n∑i=1

n∑j=1

pipj||xi − g + g − xj||2M

=1

2

(n∑i=1

n∑j=1

pipj||xi − g||2M +n∑i=1

n∑j=1

pipj||xj − g||2M + 2n∑i=1

n∑j=1

pipj 〈xi − g, xj − g〉M

)

=1

2

n∑i=1

pi||xi − g||2M +n∑j=1

pj||xj − g||2M + 2

⟨n∑i=1

pi(xi − g);n∑j=1

pj(xj − g)

⟩M

=

n∑i=1

pi||xi − g||2M ,

Page 63: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 63

puisque∑n

i=1 pi(xi − g) = 0 par definition de g.

Inertie expliquee par un sous espace F .

Definition 4.1.3 On appelle inertie du nuage des individus N expliquee (portee) parle sous-espace vectoriel F de Rp, l’inertie du nuage projete sur F , c’est-a-dire :

IF (N) =n∑i=1

pid2M(yFi , O) =

n∑i=1

pi||yFi ||2M ,

ou yFi designe la projection orthogonale de yi sur F . Autrement dit,

IF (N) = I(NF ) ,

ou NF =

(yFi , pi)

est le projete du nuage centre.

Par exemple, si u est un vecteur M-norme (i.e ||u||M = 1), et ∆u est la droite vectorielleengendree par u , la projection orthogonale de yi sur ∆u est yui = 〈yi;u〉M u = (y′iMu)u, etl’inertie expliquee par ∆u est donnee par

I∆u = I(Nu) =n∑i=1

pi||yui ||2M =n∑i=1

pi(y′iMu)2 =

n∑i=1

piu′Myiy

′iMu = u′M

(n∑i=1

piyiy′i

)Mu

= u′MVMu .

Proposition 4.1.4 Decomposition de l’inertie.

1. Si F est un s.e.v. de Rp et si F⊥ designe son supplementaire orthogonal (au sens duproduit scalaire defini par M) on a la decomposition suivante :

I = IF + IF⊥ .

2. De facon plus generale, si F = F1 ⊕ F2 et F1 ⊥ F2 (au sens du produit scalaire definipar M), alors

IF = IF1 + IF2 .

La quantite IF⊥ peut donc etre consideree comme une mesure de la deformation du nuagelors de la projection sur F :

IF⊥ =n∑i=1

pi||yi − yFi ||2M .

L’inertie totale se decompose pour tout F s.e.v. de Rp comme la somme de— l’inertie totale du nuage projete sur F I(NF ),— la deformation du nuage N par projection orthogonale sur F .

Preuve de la proposition 4.1.4.

Page 64: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

64 ANALYSE DES DONNEES. FABIENNE CASTELL.

1. Tout element de Rp se decompose de maniere unique sous la forme

x = xF + xF⊥, xF ∈ F , xF⊥ ∈ F⊥ ,

⟨xF ; xF

⊥⟩M

= 0 .

Par consequent,

I =n∑i=1

pi ‖yi‖2M =

n∑i=1

pi

∥∥∥yFi + yF⊥

i

∥∥∥2

M

=n∑i=1

pi∥∥yFi ∥∥2

M+

n∑i=1

pi

∥∥∥yF⊥i ∥∥∥2

M+ 2

n∑i=1

pi

⟨yFi ; yF

i

⟩M

= IF + IF⊥ .

2. De la meme facon, tout element de F se decompose de maniere unique sous la forme

x = xF1 + xF2 , xF1 ∈ F1 , xF2 ∈ F2 ,

⟨xF1 ; xF2

⟩M

= 0 .

On a donc yF = (yF )F1

+(yF )F2

. Comme F1 ⊂ F , (yF )F1

= yF1 . De meme, (yF )F2

= yF2 .Par consequent,

IF =n∑i=1

pi∥∥yFi ∥∥2

M=

n∑i=1

pi∥∥yF1

i + yF2i

∥∥2

M

=n∑i=1

pi∥∥yF1

i

∥∥2

M+

n∑i=1

pi∥∥yF2

i

∥∥2

M+ 2

n∑i=1

pi⟨yF1i ; yF2

i

⟩M

= IF1 + IF2 .

Expression matricielle de l’inertie.

Proposition 4.1.5

I = Trace(MV ) = Trace(VM) .

Par consequent,

1. Si M = Id, alors I =∑n

i=1 s2j est la somme des variances empiriques des p va-

riables.

2. Si M = D1/S2, alors I = p. Dans ce cas, l’inertie est egale au nombre de variables et nedepend pas de leurs valeurs.

Preuve : On a ‖yi‖2M = y′iMyi = Trace(y′iMyi) puisqu’il s’agit d’une quantite scalaire. En

utilisant :— Trace(AB) = Trace(BA) pour toute matrice A de taille (n, p) et toute matrice B de

taille (p, n),

Page 65: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 65

— Trace(A+B) = Trace(A) + Trace(B),— Trace(αA) = αTrace(A), pour toute matrice A et tout reel α,

on obtient

I =n∑i=1

pi ‖yi‖2M =

n∑i=1

piTrace(y′iMyi) =n∑i=1

piTrace(yiy′iM)

= Trace

((n∑i=1

piyiy′i

)M

)= Trace(VM) = Trace(MV ) .

Les points 1. et 2. se deduisent facilement de cette identite.

4.1.3 Espace metrique des variables.

De la meme facon que ce qui a ete fait pour un individu, on peut associer a chaque variableXj le vecteur xj contenant les valeurs prises par cette variable sur l’ensemble des n individus :

xj =

xj1xj2...xjn

= j-ieme colonne de X.

Chaque variable Xj peut alors alors etre representee par un vecteur de Rn appele espacevectoriel des variables.

Si on veut juger de la ”proximite” entre deux variables, il faut encore une fois munir Rn d’unedistance qui rende compte de cette proximite, i.e. choisir une matrice M (n, n) symetrique etdefinie positive. Ici, un choix naturel consiste a prendre M = D, la matrice diagonaledes poids (dite metrique des poids). En effet, si y1, y2, . . ., yp sont les variables centreesassociees a x1, x2, . . ., xp, on a

— < yj, yk >D=∑n

i=1 piyji yki = cov(xj, xk) ;

— ||yj||2D = s2j .

De plus l’angle θjk entre les vecteurs yj et yk est donne par

cos(θjk) =< yj, yk >D

||yj||D||yk||D=

cov(xk, xj)

sjsk= rjk .

En resume, lorsque les variables sont centrees et representees par des vecteurs de Rn muni dela metrique des poids :

— la longueur du vecteur correspond a l’ecart-type de la variable associee ,— le cosinus de l’angle de deux vecteurs represente la correlation lineaire des deux variables

associees.

Page 66: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

66 ANALYSE DES DONNEES. FABIENNE CASTELL.

4.2 Principes de l’ACP.

4.2.1 Le probleme.

Rappelons que l’objectif principal est d’obtenir une representation fidele du nuage des indi-vidus de Rp en le projetant sur un espace de faible dimension. Le choix de l’espace de projections’effectue selon le critere de l’inertie, i.e. on cherche le sous-espace de dimension k por-tant l’inertie maximale du nuage. Cela revient a deformer le moins possible les distancesen projection. Il s’agit donc de resoudre le probleme suivant :

(Pk) : Trouver un (le) s.e.v Ek de dimension k (k < p), tel queIEk = max IE; dim(E) = k.

Definition 4.2.1 On appelle sous-espace principal de dimension k, tout sev de dimensionk solution de (Pk).

4.2.2 Espaces et axes principaux.

Theoreme 4.2.2 Soit Ek un sous espace vectoriel de dimension k < p portant l’inertie maxi-male du nuage, alors un sous-espace de dimension k + 1 portant l’inertie maximale est

Ek ⊕∆uk+1

ou uk+1 est un vecteur M-orthogonal a Ek et ∆uk+1est une droite vectorielle M-orthogonale a

Ek portant l’inertie maximale parmi toutes les droites vectorielles M-orthogonales a Ek.

Preuve : Soit F un sous-espace de dimension k + 1. Comme dim(E⊥k ) + dim(F ) = (p − k) +(k + 1) = p + 1, E⊥k et F ont au moins une direction commune. Soit u ∈ E⊥k ∩ F (u 6= 0). Onpeut alors ecrire F = F ⊕∆u, ou F est le supplementaire M -orthogonal de ∆u dans F . F estde dimension k, et par definition de Ek on a donc IF ≤ IEk . Par ailleurs, par definition de uk+1,on a aussi Iu ≤ Iuk+1

. Ainsi,

IF = IF + Iu ≤ IEk + Iuk+1= IEk+1

ou Ek+1 = Ek ⊕∆uk+1.

Definition 4.2.3 Les axes ∆u1 , · · · ,∆up sont appeles axes principaux d’inertie de l’ACP.

Le theoreme 4.2.2 dit que les sous-espaces principaux Ek (les solutions de (Pk)) sont emboıteset peuvent se calculer de facon iterative selon la procedure :

— Rechercher un axe ∆u1 maximisant l’inertie expliquee I∆u1. On note E1 = ∆u1 .

— Rechercher un axe ∆u2 orthogonal a E1, maximisant l’inertie expliquee I∆u2. On note

E2 = E1 ⊕∆u2 .— . . .— Rechercher un axe ∆uk orthogonal a Ek−1 maximisant l’inertie expliquee I∆uk

. On noteEk = Ek−1 ⊕∆uk .

Page 67: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 67

Calcul des axes principaux :

Commencons par trouver l’axe principal ∆u1 . Si u1 est M-norme, on a vu que I∆u1=

u′1MVMu1. Si ‖u1‖M 6= 1, en notant v1 = u1/ ‖u1‖M , on a ∆u1 = ∆v1 et donc

I∆u1= I∆v1

= v′1MVMv1 =u′1MVMu1

‖u1‖2M

=u′1MVMu1

u′1Mu1

.

On veut maximiser cette quantite en u1 ∈ Rp. Pour cela, on commence par chercher les pointscritiques de la fonction consideree, i.e. les points ou le gradient est nul :

∇u1

(u′1MVMu1

u′1Mu1

)=

2MVMu1

u′1Mu1

− (u′1MVMu1)(2Mu1)

(u′1Mu1)2.

u1 est donc solution de

MVMu1 =u′1MVMu1

u′1Mu1

Mu1 = I∆u1Mu1 ⇔ VMu1 = I∆u1

u1 ,

puisque M est inversible. Autrement dit, u1 est vecteur propre de la matrice VM associe a lavaleur propre I∆u1

. Pour maximiser I∆u1, il faut donc choisir pour u1 le vecteur propre

de VM associe a la plus grande valeur propre λ1 de la matrice VM . On a alorsI∆u1

= λ1.Ce resultat se generalise aux autres axes principaux, et on a le theoreme :

Theoreme 4.2.4 Calcul des axes principaux.

1. Il existe une base M-orthonormee (u1, u2, · · · , up) de vecteurs propres de la matrice VMassocies aux valeurs propres (reelles positives) rangees par ordre decroissant λ1 ≥ λ2 ≥· · · ≥ λp ≥ 0.

2. Les vecteurs u1, u2, . . ., up engendrent respectivement les axes principaux d’inertie del’ACP et on a pour tout j ∈ 1, · · · , p,

I∆uj= λj .

3. Pour tout k < p, le s.e.v Ek engendre par les k premiers vecteurs u1,. . ., uk, est un s.e.v.principal de dimension k, et l’inertie expliquee par Ek est donnee par

IEk = λ1 + · · ·+ λk .

Definition 4.2.5 Les vecteurs uj sont appeles vecteurs principaux de l’ACP.

Preuve :

1. Notez que la matrice VM est M -symetrique puisque

〈x;VMy〉M = x′M(VMy) = x′MVMy = y′M ′V ′M ′x = y′MVMx ,

puisque M et V sont symetriques. Ainsi 〈x;VMy〉M = 〈VMx; y〉M . Par consequent, lesvaleurs propres de VM sont reelles et positives, et VM admet une base M -orthonormeede vecteurs propres.

Page 68: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

68 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. On a deja vu que le premier axe principal d’inertie est engendre par le vecteur propreu1 associe a la plus grande valeur propre λ1 de VM . Pour les autres axes principaux, onutilise le fait que la k-ieme valeur propre λk verifie :

λk = max〈u, V Mu〉M ; ‖u‖M = 1; 〈u;uj〉M = 0, j = 1, · · · k − 1

.

Comme ‖uk‖M = 1, on a I∆uk = u′kMVMuk = u′kM(λkuk) = λku′kMuk = λk.

3. Par le theoreme 4.2.2, Ek = ∆u1 ⊕ · · · ⊕∆uk , et IEk =∑k

j=1 I∆uj=∑k

j=1 λj.

Remarques :

1. En prenant k = p, on retrouve I = Trace(VM) =∑p

j=1 λj.

2. Notez que VM = Y ′DYM . Si r = Rang(Y ) (≤ min(p, n)), on a

λ1 > 0 , λ2 > 0, · · · , λr > 0 et λr+1 = · · · = λp = 0 ,

et par suite IEr = I.Dans ce cas le nuage est entierement contenu dans le sev Er.

3. Une ACP avec M = Id dite canonique ou simple revient a diagonaliser la matrice decovariance empirique des p variables de depart.

4. Une ACP avec M = D1/S2 dite normee, revient a diagonaliser la matrice de correlationempirique.

4.2.3 Composantes Principales (CP)

Definition

Rappelons que le point de depart etait d’obtenir une representation du nuage N dans desespaces de dimension reduite. On connait maintenant les axes definissant ces espaces. Pourpouvoir obtenir les differentes representations, il suffit de determiner les coordonnees des pointsdu nuage projete sur chaque axe principal.Soit cj1, cj2, . . ., cjn, ces coordonnees sur l’axe ∆uj , ou cji est la coordonnee de yi sur l’axe ∆uj .

cji =< yi, uj >M= y′iMuj .

Definition 4.2.6 Le vecteur de Rn

cj =

cj1cj2...cjn

= YMuj .

est appele j-ieme composante principale.

Page 69: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 69

Si on note C = [c1, c2, · · · , cp] la matrice obtenue en rangeant en colonne les cj, on a doncC = YMU ou U est une matrice (p, p) definie par U = [u1, u2, · · · , up].

La projection du nuage N dans le plan principal (∆uj ,∆uk) est donc donnee par les points

de coordonnees

(cji , cki ); i = 1, · · · , n

dans le repere donne par les droites ∆uj et ∆uk . Par

exemple (c1i , c

2i ) ; i = 1, · · · , n est le nuage projete sur le 1er plan principal (∆u1 ,∆u2).

La decomposition du vecteur yi sur la base des vecteurs principaux (u1, u2, · · · , up) s’ecrit

yi =

p∑j=1

cjiuj =r∑j=1

cjiuj ,

Remarque : Pour j > r, les CP cj sont egales au vecteur nul de Rn car l’inertie expliqueepar ces axes est nulle.

Les composantes principales vues comme de nouvelles variables.

Une CP associe a chaque individu i un nombre reel. On peut donc la considerer comme unenouvelle variable. Comme les variables initiales yj, cette variable est representee par un vecteurde Rn.

Proposition 4.2.7 Proprietes des composantes principales.

1. Les CP sont des combinaisons lineaires des variables de depart yj.

2. Les CP cj sont centrees, de variance λj et non correlees deux a deux.

3. Les CP c1, · · · , cp sont vecteurs propres de la matrice YMY ′D, de valeurs propres λ1, · · · , λp.

Dans l’espace des variables Rn, muni de la metrique des poids D, on a vu que le produit scalairede deux variables n’est autre que leur covariance. On rappelle que pour j > r, cj = 0. Pourj ≤ r, λj > 0 et on definit

dj =cj√λj.

Le point 2. de la proposition 4.2.7 signifie que (d1, · · · , dr) est un systeme D-orthonorme del’espace des variables Rn. Il n’en constitue pas necessairement une base (puisque r ≤ min(n, p)),sauf dans le cas ou r = n ≤ p. dj s’appelle le j-ieme facteur principal.

Nous reviendrons plus loin sur une interpretation du point 3.

Preuve de la proposition 4.2.7 :

1.

cj = YMuj =[y1 · · · yp

]Muj =

[y1 · · · yp

] (Muj)1...

(Muj)p

=

p∑k=1

(Muj)kyk .

Page 70: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

70 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. On a vu (cf (4.1)) que le barycentre des donnees (cji ) est donne par l’expression matri-cielle :

c = C ′D 1I = U ′MY ′D 1I = U ′My = 0 ,

puisque les donnees (yji ) sont centrees. Par ailleurs, en utilisant l’expression matriciellede la covariance empirique donnee dans (4.2), on obtient(

cov(ci, cj))ij

= C ′DC = U ′MY ′DYMU = U ′MVMU .

Notez que

VMU = VM[u1 · · ·up

]=[VMu1 · · ·VMup

]=[λ1u

1 · · ·λpup]

=[u1 · · ·up

] λ1

0 0λp

.

On en deduit que (cov(xi, xj))ij = U ′MUdiag(λ1, · · · , λp). Pour terminer, il suffit deremarquer que

U ′MU =

(u1)′

...(up)′

M [u1 · · ·up

]=

(u1)′Mu1 · · · (u1)′Mup

......

up′Mu1 · · · up

′Mup

=

〈u1;u1〉M · · · 〈u1;up〉M

......

〈up;u1〉M · · · 〈up, up〉M

= Idp ,

puisque (u1, · · · , up) est une base M -orthonormee.

3. Par definition de (uj, λj), VMuj = Y ′DYMuj = λjuj. En multipliant cette identite parYM , et en utilisant l’identite cj = YMuj, on obtient YMY ′Dcj = λjc

j.

4.2.4 Resume d’une analyse en composantes principales.

En resume, une ACP prend pour entrees :— un nuage centre N de n individus y1, · · · , yn dans un espace de dimension p, Rp. Ces

individus sont ranges dans un tableau de donnees (n, p) note Y ;— D, une matrice (n, n) de poids qui definit une metrique sur Rn ;— et M , une matrice (p, p) qui definit une metrique sur l’espace des individus Rp.

On note ACP(Y,D,M) pour faire reference au tableau de donnees, a la matrice des poids et ala metrique.

Les sorties de l’ACP sont— les valeurs propres λ1, · · · , λp de la matrice VM = Y ′DYM (λ1 ≥ · · ·λr > 0 = λr+1 =· · · = λp, ou r est le rang de la matrice Y ) ;

— les axes principaux u1, · · · , up vecteurs de Rp qui sont les vecteurs propres associes, etqui forment une base M -orthonormee de l’espace des individus Rp ;

Y ′DYMuj = λjuj , 〈ui;uj〉M = δij .

Page 71: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 71

— les composantes principales c1, · · · , cp, elements de Rn definis par cj = Y ′Muj (cj = 0pour j > r), ou de facon equivalente les facteurs principaux d1, · · · , dr definis par dj =cj/√λj.

4.3 ACP dans l’espace des variables.

On s’interesse dans cette section au nuage V des variables centrees y1, · · · , yp qui sont deselements de l’espace Rn. Pour obtenir de bonnes representations planes de ce nuage de points,on peut adopter la meme demarche que pour le nuage des individus, et faire une ACP dansl’espace des variables. L’objectif est de trouver les sous-espaces principaux F1, F2,. . .etc de Rnqui conservent au mieux l’information liee a l’inertie contenue dans le nuage des variables V.Pour construire cette ACP, on a besoin de definir :

— Le tableau de donnees : Il s’agit du tableau (p, n) obtenu en mettant les vecteurs y1, · · · , ypsous forme de vecteurs lignes, et en mettant ces lignes l’une en dessous de l’autre. Il estclair que le tableau obtenu est Y ′.

— Une metrique sur l’espace des variables Rn : on a deja vu qu’un choix naturel est deprendre D = diag(p1, · · · , pn).

— Un matrice (p, p) de poids : on va ici choisir la matrice M .On est donc en train de faire une ACP(Y ′,M,D).

Avec ce choix de metrique et de matrice de poids, on a le resultat :

Proposition 4.3.1 ACP dans l’espace des variables.

1. Les valeurs propres non nulles de l’ACP(Y ′,M,D) du nuage des variables V sont lesvaleurs propres non nulles (λ1, · · · , λr) de l’ACP(Y,D,M) du nuage N des individus .

2. Les axes principaux de l’ACP(Y ′,M,D) correspondant aux valeurs propres non nulles(λ1, · · · , λr), sont les facteurs principaux (d1, · · · , dr) de l’ACP(Y,D,M) du nuage desindividus.

3. Les composantes principales non nulles de l’ACP(Y ′,M,D) du nuage V des variablessont (

√λ1u1, · · · ,

√λrur). Autrement dit, les facteurs principaux de l’ACP(Y ′,M,D) du

nuage V des variables, sont les axes principaux (u1, · · · , ur) de l’ACP(Y,D,M) du nuagedes individus, correspondant aux valeurs propres non nulles.

Preuve : Pour faire l’ACP(Y ′,M,D) du nuage des variables, il faut diagonaliser la matrice(n, n) (Y ′)′MY ′D = YMY ′D.

1. On rappelle les resultats d’algebre lineaire :— Soit A une matrice (n, p) et B une matrice (p, p) inversible. rang(AB) = rang(A).— Soit A une matrice (n, p). rang(AA′) = rang(A′A) = rang(A).En appliquant le premier resultat, il vient rang(YMY ′D) = rang(YMY ′). En appliquantle second a Y

√M , on obtient rang(YMY ′) = rang(Y

√M). M etant inversible,

√M l’est

aussi, et donc rang(YMY ′D) = rang(Y ) = r. Par consequent, YMY ′D admet n − rvaleurs propres nulles. On a par ailleurs vu dans le point 3. de la proposition 4.2.7 quec1, · · · , cr sont vecteurs propres de YMY ′D associes aux valeurs propres λ1 ≥ λ2 ≥· · · ≥ λr > 0. On a donc montre que les n valeurs propres de la matrice YMY ′D sontλ1, · · · , λr et n− r fois la valeur 0.

Page 72: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

72 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. Les vecteurs principaux de l’ACP dans l’espace des variables sont les vecteurs propresnormes de la matrice YMY ′D. Ceux correspondant aux valeurs propres non nulles sontdonc c1, · · · , cr normes a 1, a savoir les facteurs principaux d1, · · · , dr de l’ACP(Y,D,M)des individus.

3. Les composantes principales c1, · · · , cr non nulles de l’ACP(Y ′,M,D) dans l’espace desvariables, sont les coordonnees des yi sur les r premiers axes principaux d1, · · · , dr :

cj = Y ′Ddj =1√λjY ′Dcj =

1√λjY ′DYMuj =

λj√λjuj =

√λjuj .

Les facteurs principaux d1, · · · , dr non nuls de l’ACP(Y ′,M,D) dans l’espace des va-riables sont donc :

dj =cj‖cj‖M

= uj .

4.4 Les representations graphiques.

4.4.1 Representation des individus.

La carte des individus.

Rappelons que le but principel de l’ACP est de fournir une representation graphique dunuage des individus sur un espace de dimension q < p (typiquement q = 2, 3). On sait main-tenant que la ”meilleure” representation graphique (au sens de l’inertie) est donnee par laprojection du nuage sur l’espace principal Eq engendre par les q premiers axes principauxu1, · · ·uq, et que la coordonnee de l’individu i sur l’axe uk est cki .

Definition 4.4.1 Pour tout k, l ≤ p (k 6= l), la projection du nuage N sur le plan principal(∆uk ,∆ul) est appele carte des individus.

Qualite de la representation du nuage des individus.

Rappelons que l’inertie totale du nuage N des individus vaut

I =n∑i=1

pi ‖yi‖2M =

p∑j=1

λj = Trace(VM) .

Definition 4.4.2 La qualite globale de la representation du nuage N sur le s.e principal Ekengendre par (u1, · · · , uk) est mesuree par le pourcentage d’inertie expliquee par Ek

IEkI

=λ1 + λ2 + · · ·+ λk∑p

j=1 λj.

Plus cette qualite est proche de 1, plus le nuage de points initial est ”concentre” autour deEk, et plus fidele est son image projetee sur Ek.

Page 73: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 73

Qualite de la representation d’un individu.

Parallelement a cet indice de qualite globale, on peut definir, pour chaque individu, la qualitede sa representation.

Definition 4.4.3 La qualite de representation de l’individu i sur l’espace principal Ekest mesuree par le cosinus carre de l’angle que fait yi avec sa projection yEki sur Ek :

cos2(yi, yEki ) =

||yEki ||2M||yi||2M

=

∑kj=1(cji )

2∑pj=1(cji )

2.

— Si cos2(yi, yEki ) est proche de 1, l’individu i appartient ”presque” a Ek, et il est donc bien

represente sur Ek.— Si cos2(yi, y

Eki ) est proche de 0, l’individu i est mal represente sur Ek.

Ainsi, la qualite de representation de l’individu i sur le premier plan principal E2 est mesureepar

cos2(yi, yE2i ) =

||yE2i ||2M||yi||2M

=(c1i )

2 + (c2i )

2∑pj=1(cji )

2.

Remarque : Dans une carte des individus, on ne peut tirer de conclusions sur les individus(regrougements, individus exceptionnels, etc. . .) que si ces individus sont bien representes dansle plan principal considere.

Contribution d’un individu a un axe :

Il s’agit ici de detecter les individus ”influents”, ou ”aberrants”, qui peuvent determinera eux seuls l’orientation des axes, et plus globalement l’ensemble des resultats de l’ACP. Cesindividus sont source d’instabilite dans l’analyse, dans le sens ou les resultats de l’ACP sonttotalement differents lorsque l’ACP est faite sur l’echantillon dont on a retire ces individus. Unefois detectes, ces individus seront verifies (pour voir s’il ne s’agit tout betement pas d’une erreurde transcription), et eventuellement ecartes de l’ACP pour etre reintegres ensuite comme indivi-dus supplementaires (cf plus loin). Pour les detecter, on definit une mesure de la contributionde l’individu i a l’inertie du nuage des individus comme le rapport

pi ‖yi‖2M

I=pi∑p

k=1(cki )2

I.

On peut aussi mesurer la contribution d’un individu a chacun des axes principaux. Rappelonsque l’inertie globale portee par l’axe ∆uk vaut λk. Cette inertie se decompose de la manieresuivante :

λk = var(ck) =n∑i=1

pi(cki )

2 .

pi(cki )

2 est la part d’inertie portee par ∆uk , provenant de l’individu i. On definit alors la contri-

bution de l’individu i au k-ieme axe principal comme le rapportpi(c

ki )

2

λk= pi(d

ki )

2.

Page 74: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

74 ANALYSE DES DONNEES. FABIENNE CASTELL.

Si tous les individus ont le meme poids 1/n dans l’analyse, alors les contributions n’ap-portent pas plus d’information que les coordonnees, et les individus ayant de fortes contribu-tions peuvent etre detectes sur les boıtes a moustaches des composantes principales c1, · · · , cr,ou des facteurs principaux d1, · · · , dr.

Generalement, on considere que la contribution d’un individu a un axe est importante, sielle excede son poids pi.

Individus supplementaires :

Il s’agit d’individus qui ne font pas partie de l’echantillon ayant servi pour l’ACP, et qu’onrepresente sur les axes principaux. Soit s un tel individu, represente par un vecteur de Rp. Sescoordonnees dans le repere d’origine g et d’axes ∆u1 , · · · ,∆up sont donnees par 〈s− g, uk〉M .

4.4.2 Representation des variables.

La carte des variables.

Dans l’espace des variables, les axes principaux (correspondant aux valeurs propres nonnulles) sont d1, d2, · · · , dr. Une variable yi est donc representee par sa projection sur l’espaceprincipal Fq (q = 2 ou 3) engendre par d1, · · · , dq. Ses coordonnees sont

⟨yi; dk

⟩D

= cov(yj, dk) =√λku

jk (cf point 3. de la proposition 4.2.7).

Definition 4.4.4 Pour tout k et l ≤ r, la projection du nuage V sur le plan principal engendrepar (dk, dl) est appelee carte des variables.

Qualite de la representation du nuage des variables :

L’inertie totale du nuage vaut

I(V) = Trace(YMY ′D) =r∑j=1

λj = I(N) = I .

La qualite globale de la representation du nuage V sur le s.e principal Fk est mesuree parλ1 + · · ·+ λk∑p

j=1 λj.

Qualite de la representation d’une variable :

La qualite de la representation de la variable yj sur l’axe principal engendre par dk estmesuree par :

cos2(yj, yj,dk

) =||yj,dk ||2D||yj||2D

=< yj; dk >2

D

s2j

= r2(yj, dk) ,

ou r(yj, dk) est le coefficient de correlation lineaire entre yj et dk. Comme dk = ck/√λk, la

qualite de la representation de la variable yj sur l’axe principal engendre par dk est aussi egalea r2(dj, ck).

Page 75: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 75

De la meme facon, la qualite de la representation de la variable yj sur le premier planprincipal F2 engendre par d1 et d2 est mesuree par :

cos2(yj, yj,F2) =||yj,F2||2D||yj||2D

= r2(yj, c1) + r2(yj, c2) .

— Si cos2(yj, yj,F2) est proche de 1, alors la variable yj est bien representee dans F2 .— Si cos2(yj, yj,F2) est proche de 0, alors la variable yj est mal representee sur F2 .

Cas particulier d’une ACP normee. Cercle des correlations.

On se place ici dans le cadre d’une ACP normee ou M = D1/S2 = diag(1/s21, · · · , 1/s2

p).Rappelons que ceci revient a centrer et reduire les donnees au prealable de l’analyse, et aprendre pour metrique M = Ip dans l’espace des individus. Considerons Z le tableau centrereduit :

Z = [z1, z2, . . . , zp] , ou pour tout j = 1, . . . , p, zj =xj − xj

sj.

On a Z = Y D1/S et l’ACP(Y,D,D1/S2) n’est autre que l’ACP(Z,D, Id).

Dans ce cas, ‖zj‖2D = var(zj) = 1 et toutes les variables sont situees sur la sphere unite Sn

de l’espace des variables Rn. L’intersection de cette sphere avec le premier plan factoriel estdonc un cercle unite appele cercle des correlations. La projection de zj sur F2 est un pointa l’interieur du cercle des correlations, et la representation de la j-ieme variable zj est d’autantmeilleure que sa projection est proche du cercle des correlations. Par ailleurs, la coordonnee dela variable zj sur le k-ieme axe principal est donnee par

⟨zj, dk

⟩D

= cov(zj, dk) = cor(zj, dk)

puisque var(zj) = var(dk) = 1. Donc en ACP normee, les composantes des variablessur le k-ieme facteur correspondent aux coefficients de correlation lineaire entreces variables et la j-ieme CP cj.

Remarques :

1. L’etude des correlations des variables zj avec la CP ck permet d’interpreter ck en fonc-tion des zj. Cette etude des correlations peut se faire par l’etude des proximites desprojections zj avec le point (1, 0) du plan (vk, vl).

2. Les cartes des variables facilitent l’interpretation de la matrice des correlations des va-riables. Si deux variables zj et zj

′sont bien representees par leurs projections zj

′et zj

sur le plan (vk, vl) alors :

— la proximite des projections zj et zj′

indique une forte correlation linaire entre zj etzj′,

— des points zj et zj′diametralement opposes indiquent une correlation negative proche

de −1,— des directions de zj et de zj

′presque orthogonales indiquent une faible correlation

entre zj et zj′.

Page 76: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

76 ANALYSE DES DONNEES. FABIENNE CASTELL.

4.5 Reconstitution des donnees de depart.

A partir de la decomposition des vecteurs yi de Rp sur la base de vecteurs propres u1, · · · , up

yi =

p∑j=1

cjiuj =r∑j=1

√λjd

jiuj ,

on peut facilement deduire l’egalite matricielle

Y =√λ1 d

1 u′1 +√λ2 d

2 u′2 + · · ·+√λr d

r u′r ,

qui represente la matrice Y comme une somme de matrices de rang 1. Cette relationmontre que l’on peut “reconstituer” le tableau centre initial a partir des valeurs propres λj,des vecteurs principaux uj ∈ Rp et des facteurs principaux dj ∈ Rn associes, obtenus dansl’analyse des individus et des variables respectivement. Cette relation est appelee formule dereconstitution.

Si on se limite aux k (k < r) premiers termes, on obtient une approximation du tableauinitial :

Y ≈ Y =k∑j=1

√λj d

j u′j .

La matrice Y est de taille (n, p), et de rang k. En effet, pour tout j0 ∈ 1, · · · , p,

Y Muj0 =k∑j=1

√λj d

j u′jMuj0 =k∑j=1

δj,j0√λj d

j =

√λj0d

j0 si j0 ≤ k ,0 si j0 > k .

On en deduit que rang(Y M) = k, et comme M est inversible, il resulte que rang(Y ) = k. Letheoreme d’Eckart-Young etablit que cette somme des k premiers termes de rang 1 fournit lameilleure approximation de Y par une matrice de rang k au sens des ”moindres carres” :∥∥∥Y − Y ∥∥∥2

M,D= inf

‖Y − T‖2

M,D ; T matrice (n, p) de rang k,

ou on a note ‖T‖M,D = supv∈Rp

‖Tv‖D‖v‖M

.

4.6 Pratique de l’ACP.

4.6.1 Nombre d’axes a retenir.

Le principal objectif d’une ACP etant la reduction du nombre de variables initiales, ladetermination du nombre q d’axes a retenir est donc tres importante.

De nombreux criteres de choix pour q ont ete proposes dans la litterature. Voici les pluscourants.

Page 77: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 77

— La part d’inertie : Souvent la qualite globale de la representation est utilisee pourchoisir q de sorte que la part d’inertie expliquee par Eq (ou Fq) soit superieure a unevaleur seuil fixee a priori par l’utilisateur.

— La regle de Kaiser : Elle preconise de ne conserver que les valeurs propres superieuresa leur moyenne (= 1

p

∑pi=1 λi = I/p), seules jugees plus “informatives” que les variables

initiales. Dans le cas d’une ACP normee, ne sont donc retenues que les valeurs propressuperieures a 1. Ce critere a tendance a surestimer le nombre d’axes pertinents.

— L’eboulis des valeurs propres : C’est un graphique presentant la decroissance desvaleurs propres. Il est obtenu en tracant les valeurs propres λj en fonction de leur indicej. Le principe consiste a chercher un “coude” dans le graphe. Les axes a retenir sontalors ceux dont les valeurs propres se situent avant le “coude”.

4.6.2 Interpretation de l’ACP.

Les axes factoriels sont interpretes par rapport aux variables bien representees en utilisantles contributions, ou le cercle des correlations.

Les graphiques des individus sont interpretes en tenant compte des qualites de representation,en termes de regroupement ou dispersion par rapport aux axes principaux.

Les contributions des individus permettent d’identifier ceux qui ont une grande influencesur l’ACP. Ces individus sont a verifier, et eventuellement a considerer comme supplementairesdans une autre analyse.

Pour decrire une carte des variables ou des individus, on adoptera le plan sui-vant :

1. Donner le pourcentage d’inertie expliquee par le plan considere et chacun des axes ;

2. Indiquer les variables (resp.les individus) mal represente(e)s dans ce plan pour les exclurede la description ;

3. Utiliser les contributions

— des variables pour interpreter les axes en termes de variables de depart— des individus pour identifier ceux qui sont influents pour l’orientation d’un axe et

ceux qui ont une contribution excessive. Ces individus sont source d’instabilite (le faitd’enlever un tel individu de l’analyse modifiant de maniere importante les resultats).Il est important de verifier qu’il ne s’agit pas de donnees erronees et de faire unenouvelle analyse en les considerant en supplementaires.

4. Pour une carte des variables : etudier les angles entre les projections des variablesen termes de covariance ou de correlation dans le cas d’une ACP normee pour degagereventuellement des groupes de variables. Verifier les tendances visualisees sur la cartepar un examen de la matrice de correlation.

5. Pour une carte d’individus : etudier les proximites ou les oppositions entre les pointsen termes de ”comportement” et degager eventuellement des groupes d’individus et descomportements singuliers de certains. Verifier les caracteristiques degagees par un exa-men des donnees de depart.

Page 78: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

78 ANALYSE DES DONNEES. FABIENNE CASTELL.

6. Faire une synthese des informations et hypotheses principales degagees de la cartedecrite.

4.7 Tableau recapitulatif

Individus VariablesEspace vectoriel Rp Rn

Tableau des donnees Y (n, p) Y ′ (p, n)Matrice des poids D = diag(p1, · · · , pn) M

Metrique M DMatrice a diagonaliser VM = Y ′DYM YMY ′D

Valeurs propres non nulles λ1 ≥ · · ·λr > 0 λ1 ≥ · · ·λr > 0Axes principaux u1, · · · , up d1, · · · , dr, ?, · · · , ?

Y ′DYMuj = λjuj〈uj, uk〉M = δjk

YMY ′Ddj = λjd

j⟨dj, dk

⟩D

= δjkComposantes principales cj = YMuj ck = Y ′Ddk

‖cj‖2D = var(cj) = λj

Facteurs principaux d1, · · · , dr , dj =cj√λj

u1, · · · , ur

Representations sur le k-ieme axe factoriel(cki )

2∑pj=1(cji )

2cor2(yi, ck)

Contributions sur le k-ieme axe pi(dki )

2 = pi(cki )

2

λk

4.8 Exemple.

On reprend ici les donnees du fichier decathlon.csv (package FactoMineR), qui decriventles performances d’athletes aux epreuves du decathlon.

4.8.1 Description du jeu de donnees.

Il s’agit d’un tableau a 41 lignes (qui correspondent a 41 athletes) et 13 colonnes. Les 10premieres colonnes donnent les performances aux 10 epreuves du decathlon ; la onzieme (Rank)donne le rang de l’athlete dans la competition consideree (Jeux Olympiques d’Athenes d’Aout2004, ou Decastar de Sept 2004) ; la douzieme (Points) donne le nombre de points obtenus lorsde la competition ; la treizieme (Competition) donne le nom de la competition. Nous sommesdonc en presence de 10 variables quantitatives, une variable ordinale, une variable discrete, etune variable qualitative.

4.8.2 Objectif. Choix des variables et des individus actifs.

Le but est ici d’etablir

Page 79: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 79

valeur propre % d’inertie % d’inertie cumuleecomp 1 3.5446573 35.446573 35.44657comp 2 1.9699560 19.699560 55.14613comp 3 1.4217248 14.217248 69.36338comp 4 0.9034912 9.034912 78.39829comp 5 0.5636320 5.636320 84.03461comp 6 0.5282270 5.282270 89.31688comp 7 0.4328613 4.328613 93.64550comp 8 0.3658102 3.658102 97.30360comp 9 0.1634956 1.634956 98.93855comp 10 0.1061447 1.061447 100.00000

Table 4.1 – Valeurs propres et part d’inertie associee.

— des ”profils” d’athletes (rapides, endurants, etc...) en fonction des performances auxdifferentes epreuves ;

— des ressemblances entre epreuves.L’ACP va donc porter sur les 10 premieres variables. En ce qui concerne les individus, on vaconstruire l’ACP sur les athletes qui ont participe aux JO d’Athenes. On va donc faire uneACP sur un tableau de taille (28,10). Comme les variables sont dans des unites differentes, onfait une ACP normee.

Pour cela, on utilise la fonction PCA de R qui fait partie du package FactoMineR.

4.8.3 Choix du nombre d’axes a retenir.

Le tableau 4.1 donne la valeur propre λk, le pourcentage d’inertie correspondant a l’axeprincipal ∆uk , et le pourcentage d’inertie correspondant a l’espace principal Ek. La figure 4.1donne l’eboulis des valeurs propres.

— Si on veut garder le nombre de composantes necessaires pour prendre en compte 80%de l’inertie du nuage, on est amene a conserver q = 5 composantes. Mais on a deja 78%de l’inertie avec q = 4 composantes.

— Si on applique la regle de Kaiser, on ne conserve que les valeurs propres superieures a 1.On conserve donc uniquement q = 3 composantes.

— Si on applique la regle de l’eboulis, on est amene a conserver q = 4 composantes.On poursuit l’analyse en conservant seulement les quatre premieres composantes (qui expliquent78% de l’inertie du nuage).

4.8.4 Carte des variables.

Les tableaux des contributions et des representations de chaque variable sur les quatre pre-miers facteurs principaux sont donnes dans la table 4.2. Le cercle des correlations correspondantau premier plan factoriel est donne dans la figure 4.2, celui correspondant aux axes factoriels 3et 4 est donne dans la figure 4.3.

Page 80: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

80 ANALYSE DES DONNEES. FABIENNE CASTELL.

Eboulis des valeurs propres

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Figure 4.1 – Eboulis des valeurs propres

Representations ContributionsDim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4

100m 0.633 0.064 0.063 0.005 17.86 3.26 4.49 0.56Long.jump 0.629 0.105 0.024 3.4 e-05 17.76 5.36 1.69 0.003Shot.put 0.395 0.387 0.0005 1.78 e-02 11.16 19.68 0.035 1.97

High.jump 0.391 0.222 0.0001 1.11 e-02 11.05 11.30 0.011 1.23400m 0.539 0.244 0.052 1.23 e-02 15.20 12.42 3.71 1.36

110m.hurdle 0.502 0.054 0.001 1.2 e-02 14.17 2.74 0.13 1.33Discus 0.293 0.445 0.0003 3.84 e-02 8.29 22.60 0.022 4.25

Pole.vault 0.032 0.106 0.389 3.73 e-01 0.90 5.4 27.42 41.36Javeline 0.082 0.114 0.271 4.29 e-01 2.31 5.83 19.09 47.581500m 0.044 0.224 0.616 2.9 e-03 1.25 11.37 43.36 0.32

Table 4.2 – Representations et Contributions des differentes variables aux quatre premierescomposantes principales.

Page 81: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 81

-1.0 -0.5 0.0 0.5 1.0

-1.0

-0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (35.45%)

Dim

2 (1

9.7%

) 100m

Long.jump

Shot.put

High.jump400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

Figure 4.2 – Cercle des correlations dans le premier plan factoriel.

Le premier axe factoriel explique 35% de l’inertie. Les variables qui ont le plus contribue acet axe sont les variables , 100m, Long.jump, 400m, 110m.Hurdle, qui sont aussi tres bienrepresentees sur cet axe. Cet axe correspond donc a une ”epreuve fictive” qui mesure desperformances en vitesse. On voit sur le cercle des correlations que le saut en longueur estnegativement correle au 100m, 110m haies, et 400m. Cela est evident : plus l’athlete court vite,plus son temps aux epreuves de course est faible, mais plus il saute loin.

Le deuxieme axe factoriel explique 19% de l’inertie. Les variables qui contribuent le plusa cet axe sont le lancer de poids Shot.put et le lancer de disque Discus. Cet axe corresponddonc a une variable fictive qui mesure des performances en lancer. Toutefois, le lancer de javelotcontribue tres peu a cet axe, et y est mal represente. Il semble donc que le lancer de javelotfasse appel a d’autres qualites que le lancer de poids et du disque. On peut noter que le 400met le saut en hauteur sont bien representes sur le premier plan factoriel, et contribue de facona peu pres equivalente aux deux axes. Toutefois, ces deux epreuves sont en opposition selon lefacteur 1.

Le troisieme axe explique 14 % de l’inertie. Les variables qui contribuent le plus a cet axesont le 1500m, et dans une moindre mesure le saut a la perche et le lancer de javelot. Cetroisieme axe oppose le saut a la perche et le javelot.

Le quatrieme axe explique 9 % de l’inertie. Les variables qui contribuent le plus a cet axe sontla saut a la perche et le lancer de javelot. Notez que ces deux variables contribuent egalementde facon significative au troisieme axe.

Page 82: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

82 ANALYSE DES DONNEES. FABIENNE CASTELL.

-1.0 -0.5 0.0 0.5 1.0

-1.0

-0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 3 (14.22%)

Dim

4 (9

.03%

)

100mLong.jump

Shot.put

High.jump

400m110m.hurdle

Discus

Pole.vaultJaveline

1500m

Figure 4.3 – Cercle des correlations dans le plan factoriel correspondant aux axes 3 et 4.

4.8.5 Carte des individus.

Les tableaux des contributions et des representations de chaque individu sur les quatrepremiers axes principaux sont donnes dans la table 4.3. Le nuage de points individus projete surle premier plan principal est donne dans la figure 4.4, celui correspondant aux axes principaux3 et 4 est donne dans la figure 4.5. Il semble que le premier axe principal oppose des athletes”bons partout” (Sebrle, Clay, Karpov) a des athletes ”faibles partout” (Uldal, Casarsa). Leclassement des athletes suivant le premier axe principal se confond presque avec le classementaux JO. Cela pourrait se verifier en mettant les variables ordinales Points et Rank en variablessupplementaires, et en regardant leur correlation avec le premier facteur principal.

Le deuxieme axe est plus difficilement interpretable. Neanmoins, le nuage des individus aune variabilite plus importante sur le deuxieme axe, pour les individus dont la coordonnee surle premier axe est faible (individus ”faibles partout”). Parmi les athletes ”faibles”, le deuxiemeaxe oppose Lorenzo et Korzizoglu, et semble donc opposer les athletes endurants des autres (cfles resultats au 1500m).

4.9 Exercices

Exercice 1: Soit M le nuage des cinqs points suivants de R2 :

A(1, 1) B(−1, 0) C(0, 0), D(−1, 1), E(0, 1) ,

Page 83: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 83

Representations ContributionsDim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4

Sebrle 0.66 0.11 0.002 0.15 13.89 4.25 0.12 12.47Clay 0.68 0.038 0.005 0.07 13.56 1.37 0.26 5.55

Karpov 0.80 0.007 0.005 0.133 18.43 0.32 0.32 11.91Macey 0.36 0.18 0.154 0.12 3.79 3.37 3.99 4.91

Warners 0.46 0.37 0.102 0.03 3.76 5.41 2.05 1.007Zsivoczky 0.08 0.27 0.18 0.05 0.50 2.92 2.72 1.17

Hernu 0.16 0.08 0.18 0.01 0.49 0.48 1.39 0.12Nool 0.003 0.33 0.10 0.43 0.03 5.70 2.53 15.96

Bernard 0.36 0.002 0.001 0.39 2.58 0.033 0.033 10.96Schwarzl 0.002 0.52 0.128 0.059 0.008 3.958 1.35 0.98Pogorelov 0.011 0.065 0.55 0.009 0.068 0.68 7.96 0.21

Schoenbeck 0.005 0.03 0.11 0.36 0.015 0.15 0.79 4.1Barras 0.01 0.03 0.61 0.084 0.085 0.27 7.11 1.52Smith 0.021 0.11 0.23 0.11 0.23 2.31 6.22 4.91

Averyanov 0.008 0.49 0.04 0.013 0.049 5.50 0.66 0.34Ojaniemi 0.002 0.127 0.007 0.002 0.014 1.14 0.09 0.04Smirnov 0.10 0.29 0.39 0.026 0.41 2.06 3.88 0.40

Qi 0.159 0.010 0.30 0.035 0.550 0.064 2.62 0.482Drews 0.014 0.809 0.063 0.025 0.18 17.81 1.943 1.22

Parkhomenko 0.15 0.306 0.047 0.255 1.79 6.26 1.34 11.38Terek 0.071 0.005 0.49 0.005 0.83 0.12 14.3 0.24

Gomez 0.066 0.18 0.36 0.004 0.43 2.17 5.91 0.11Turi 0.33 0.003 0.069 0.014 3.39 0.069 1.72 0.55

Lorenzo 0.503 0.17 0.19 0.0005 6.94 4.42 6.78 0.029Karlivans 0.57 0.003 0.001 0.14 5.60 0.065 0.04 5.61

Korkizoglou 0.12 0.19 0.51 0.04 2.22 6.02 22.65 3.21Uldal 0.85 0.001 0.027 0.0001 8.68 0.03 0.70 0.006

Casarsa 0.45 0.504 0.006 0.005 11.38 22.94 0.38 0.49

Table 4.3 – Representations et Contributions des differents athletes aux quatre premieres axesprincipaux.

Page 84: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

84 ANALYSE DES DONNEES. FABIENNE CASTELL.

-4 -2 0 2 4 6

-4-2

02

4

Individuals factor map (PCA)

Dim 1 (35.45%)

Dim

2 (1

9.7%

)

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

OjaniemiSmirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

Figure 4.4 – Nuage des individus projete sur le premier plan principal.

Page 85: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 4. Analyse en Composantes Principales. 85

-2 -1 0 1 2 3

-2-1

01

2

Individuals factor map (PCA)

Dim 3 (14.22%)

Dim

4 (9

.03%

)

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

OjaniemiSmirnov

QiDrews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

Figure 4.5 – Nuage des individus projete sur le plan principal correspondant aux axes princi-paux 3 et 4.

Page 86: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

86 ANALYSE DES DONNEES. FABIENNE CASTELL.

a qui on attribue le meme poids.

1. On considere la distance euclidienne usuelle sur M. Faire un graphique representant cespoints dans un repere orthonorme et calculer l’inertie du nuage.

2. Changement de metrique : determiner l’expression analytique de la distance dM sur R2

associe a la matrice M = D1/S2 . Calculer l’inertie dans ce cas.

3. ACP canonique.

(a) Soit u = (1, 1). Calculez l’inertie portee par ∆u, et la deformation du nuage lors dela projection.Faites un dessin.

(b) Calculez les axes principaux, ainsi que l’inertie associee a ces axes lorsque M = Id.

(c) Calculez les composantes principales et les facteurs principaux.

(d) Dessinez le nuage de points projete sur le premier axe. Calculez la representationglobale sur le premier axe, et la contribution de chaque individu sur le premier axe.

4. Comparaison avec la droite de regression. La droite de regression d’un nuage depoints de R2 donnees par (x1

i , x2i ); i = 1 · · ·n est la droite x2 = ax1 + b qui minimise∑n

i=1(x2i − ax1

i − b)2. Donnez l’expression de a et b dans le cas general. Les calculez dansle cas particulier du nuage donne par A,B,C,D,E. Commentez.

Exercice 2: Faire une ACP sur les donnees wine du package FactoMineR.

Page 87: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Chapitre 5

Analyse Factorielle desCorrespondances (AFC).

L’analyse factorielle des correspondances a ete proposee dans les annees soixante par J.P.Benzecri afin d’etudier la liaison (dite encore correspondance) entre deux variables qualitatives.Cette methode permet d’analyser des tables de contingence obtenues en observant deux va-riables qualitatives X et Y sur un ensemble de n individus, et certains tableaux binaires(tableaux dits de ”presence-absence”). C’est une methode tres utilisee en analyse des donneestextuelles.

Exemple 5.1: (cf livre de G. Saporta) On observe sur 10.000 etudiants les deux variablesqualitatives X=”CSP du pere” et Y=”Type d’etudes superieures poursuivies”.

Exemple 5.2: On analyse les reponses de 2000 personnes a une question ouverte et ons’interesse au tableau croisant les 21 mots les plus utilises avec 5 niveaux de diplomes despersonnes interrogees. Ici A correspond aux formes (variable qualitative avec 21 modalites) etB aux diplomes (5 modalites).Un individu= une occurence d’une forme.

L’Analyse Factorielle des Correspondances (AFC) peut etre presentee comme une analyseen composantes principales avec une metrique speciale, la metrique du khi-deux.

5.1 Rappels

5.1.1 Table de contingence et profils.

Supposons que la variable X a r modalites (notees l1, · · · , lr), et que la variable Y a cmodalites (notees d1, · · · , dc). Nous avons vu au chapitre 3.3 que les donnees peuvent etreresumees dans une table de contingence N , dont les entrees sont les effectifs de chaque couple(li, dj) :

nij = nbre d’individus sur lesquels on a observe les modalites li de X et dj de Y

=n∑k=1

1Ixk=li 1Iyk=dj .

87

Page 88: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

88 ANALYSE DES DONNEES. FABIENNE CASTELL.

X\Y d1 · · · dj · · · dc totall1 n11 · · · n1j · · · n1s n1.

......

......

......

...li ni1 · · · nij · · · nis ni....

......

......

......

lr nr1 · · · nrj · · · nrs nr.total n.1 · · · n.j · · · n.s n

L’operation consistant a etablir un tel tableau est appelee un ”tri croise” dans le domaine del’enquete. Les effectifs marginaux sont :

ni. =c∑j=1

nij = ieme marge en ligne,

n.j =r∑i=1

nij = jeme marge en colonne.

On rappelle aussi la definition des profils-lignes :

Li = ieme profil-ligne =

(ni1ni., · · · , nic

ni.

)∈ Rc .

Le ieme profil-ligne donne les frequences empiriques des modalites d1, d2, . . . , dc de la variableY , dans le sous-echantillon des individus pour lesquels la variable X vaut li.

De la meme facon, les profils-colonnes donnent les frequences des modalites l1, l2, . . . , lr dela variable X dans le sous-echantillon des individus pour lesquels la variable Y vaut dj.

Cj = jeme profil-colonne =

(n1j

n.j, · · · , nrj

n.j

)∈ Rr .

5.1.2 Ecart a l’independance

Lorsque les variables X et Y sont independantes, nous avons vu au chapitre 3.3 que :

∀i, j, nijn' ni.

n

n.jn⇔ ∀i, j, nij

ni.=n.jn⇔ ∀i, j, nij

n.j=ni.n. (5.1)

Ainsi, les profils-lignes ont tendance a etre tous egaux dans le cas ou X et Y sont independantes.Il en est de meme pour les profils-colonnes.

Pour mesurer l’ecart a l’independance, on a introduit la quantite :

tn =r∑i=1

c∑j=1

(nij − ni.n.jn

)2

ni.n.jn

Pour chaque case (i, j) du tableau, il est important d’etudier sa contribution a tn :(nij − ni.n.j

n

)2

ni.n.jn

Page 89: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 89

On peut egalement calculer le pourcentage par rapport a tn. Ceci met en evidence les asso-ciations significatives entre modalites des deux variables. Le signe de la difference nij − ni.n.j

n

indique s’il s’agit d’une association sur-representee (positive) ou sous-representee (negative).Nous rappelons que la quantite tn est la statistique du test du χ2 d’independance qui permet

de tester (H0) : ”Les variables X et Y sont independantes” contre (H1) :”X et Y sont liees”. Eneffet, sous (H0), tn est une realisation d’une variable aleatoire Tn suivant une loi du χ2

(r−1)(c−1)

dans la limite des grands echantillons.

Remarque : D’autres indices ont ete abondamment proposes pour mesurer la dependanceentre deux variables. On pourra voir par exemple l’ ouvrage de Goodman et Kruskal : Measuresof association for cross-classifications, Springer-verlag, New-York (1979).

5.2 Principes de l’AFC

Rappelons que notre tableau de donnees est un tableau de contingence N a r lignes et ccolonnes. Si on note Dr et Dc les matrices diagonales des effectifs marginaux des variables Xet Y :

Dr = diag(n1., · · · , nr.) , Dc = diag(n.1, · · · , n.c) ,

les tableaux des profils lignes et des profils-colonnes s’ecrivent :

Tr = D−1r N et Tc = ND−1

c .

5.2.1 Nuage des profils-lignes

Chaque profil-ligne Li est un point dans l’espace Rc. On est donc en presence d’un nuage der points dans Rc, qui dans le cas ou X et Y sont independantes, a tendance a se concentrer surun seul point. Pour juger de la dependance entre X et Y , on peut donc etudier la forme de cenuage de points, au moyen d’une ACP, et considerer le tableau Tr des profils-lignes comme untableau individus-variables particulier. Les ”individus” de cette ACP sont alors les modalitesde la variable X et il est assez logique d’affecter a la modalite ci de X un poids refletant safrequence dans la population. Le i-eme profil-ligne est alors muni du poids fi. = ni.

n.

Definition 5.2.1 On appelle nuage des profils-lignes Mr, l’ensemble des r points Li de Rcmunis de leurs poids fi. : Mr = (Li, fi.) ; i = 1, . . . , r .

Proprietes :

1. Le centre de gravite gr du nuage Mr (profil-moyen des lignes) a pour coordonnees :

gr =

n.1n...n.cn

=

f.1...f.c

∈ Rc .

Page 90: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

90 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. Les points Li de Mr, ainsi que leur centre de gravite gr, appartiennent a un sous-espaceaffine de Rc, a savoir l’hyperplan Hc−1 de dimension c− 1 defini par :

Hc−1 =

(x1, · · · , xc) ∈ Rc ;

c∑i=1

xi = 1

.

Preuve :

1. gr =∑r

i=1 fi.Li. Ainsi pour tout j ∈ 1, · · · , c,

gr(j) =r∑i=1

ni.nLi(j) =

r∑i=1

ni.n

nijni.

=r∑i=1

nijn

=n.jn.

2. Pour tout i ∈ 1, · · · , r,

c∑j=1

Li(j) =c∑j=1

nijni.

=ni.ni.

= 1 .

Ainsi chaque profil ligne Li est dans Hc−1. Comme gr est une combinaison lineaire desLi, gr est aussi dans Hc−1.

Par analogie avec les notations du chapitre sur l’ACP, on a donc

— Tableau des donnees : X = Tr = D−1r N de taille (r, c) ;

— Tableau des donnees centrees : Y = X − 1Icg′r ;

— Matrice des poids D = diag(n1.

n, · · · , nr.

n

)= 1

nDr de taille (r, r) ;

— Espace des profils-lignes (”individus”) : Rc, plus precisement Hc−1.

5.2.2 Nuage des profils-colonnes

Les deux variables X et Y jouant des roles symetriques, ce qui vient d’etre fait pour lesprofils-lignes peut aussi etre fait pour les profils-colonnes. Chaque profil-colonne Cj est un pointdans l’espace Rr. L’ensemble des profils-colonnes forme donc un nuage de c points dans Rr, quidans le cas ou X et Y sont independantes, a tendance a se concentrer sur un seul point. Lastructure de la dependance entre X et Y peut donc aussi etre etudiee en faisant une ACP desprofils-colonnes. Les ”individus” de cette ACP sont alors les modalites de la variable Y et lej-eme profil-colonne Cj est muni du poids f.j =

n.jn

.

Definition 5.2.2 On appelle nuage des profils-colonnes Mc, l’ensemble des c points Cj deRr munis de leurs poids f.j : Mc = (Cj, f.j) ; j = 1, . . . , c .

Page 91: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 91

Proprietes :

1. Le centre de gravite gc du nuage Mc (profil-moyen des colonnes) a pour coordonnees :

gc =

n1.

n...nr.n

=

f1....fr.

∈ Rr .2. Les points Cj de Mc, ainsi que leur centre de gravite gc, appartiennent a un sous-espace

affine de Rr, a savoir l’hyperplan Hr−1 de dimension r − 1 defini par :

Hr−1 =

(x1, · · · , xr) ∈ Rr ;

r∑i=1

xi = 1

.

Par analogie avec les notations du chapitre sur l’ACP, on a donc pour l’ACP des profils-colonnes

— Tableau des donnees : X = Tc = D−1c N ′ de taille (c, r) ;

— Tableau des donnees centrees : Y = X − 1Irg′c ;

— Matrice des poids D = diag(n.1n, · · · , n.c

n

)= 1

nDc de taille (c, c) ;

— Espace des profils-colonnes : Rr, plus precisement Hr−1.Dans le cas de l’independance ”empirique” ou nij =

ni.n.jn

, les nuages Mr et Mc sont doncreduits a un seul point, leur centre de gravite. Pour continuer l’ACP des profils-lignes et desprofils-colonnes, il faut maintenant definir une metrique dans l’espace des profils-lignes, et unemetrique dans l’espace des profils-colonnes.

5.2.3 Metrique du khi2

Distance entre deux profils-lignes :

La distance choisie entre deux profils-lignes Li et Li′ est la metrique du chi2 definie par :

d2χ2(Li, Li′) =

c∑j=1

n

n.j

(nijni.− ni′jni′.

)2

= (Li − Li′)′M (Li − Li′) = 〈Li − Li′ , Li − Li′〉Mou la matrice M est la matrice diagonale definie par M = nD−1

c .Intuitivement, la ponderation par n

n.jde chaque carre de difference revient a donner des

importances comparables aux diverses modalites dj de la variable Y . Sans cette ponderation,la distance reflete surtout la difference entre les modalites de plus grands effectifs.

De facon plus fondamentale, cette distance a la propriete d’equivalence distribution-nelle, qui dit qu’on peut regrouper des modalites de Y ayant les memes profils-colonnes, sanschanger la distance entre profils-lignes. Cette propriete n’est pas vraie pour la distance eucli-dienne usuelle. Elle garantit une certaine stabilite par rapport a la nomenclature choisie pour laconstruction des modalites d’une variable (par exemple lorsqu’on transforme une variable quan-titative en variable qualitative, en la decoupant en classes). L’analyse est la meme lorsqu’onagrege les modalites de memes profils. Plus precisement, on a le resultat suivant :

Page 92: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

92 ANALYSE DES DONNEES. FABIENNE CASTELL.

Theoreme 5.2.3 Supposons que deux colonnes de N , Cj et Cj′ ont meme profil, cad

nijn.j

=nij′

n.j′pour tout i = 1, · · · , r . (5.2)

Regroupons-les en une seule colonne, notee j ⊕ j′, d’effectifs nij + nij′, et d’effectif marginaln.j + n.j′. On obtient une nouvelle table de contingence notee N , de taille (r, c− 1), a laquelleest associee une nouvelle metrique du chi2, notee dχ2, sur les profils-lignes Li de N (qui sontdes elements de Rc−1). Cette operation ne modifie pas les distances entre profils-lignes, i.e.,pour tout i, i′ ∈ 1, · · · , r,

dχ2(Li, Li′) = dχ2(Li, Li′) .

Preuve : Les seuls termes qui different entre dχ2(Li, Li′) et dχ2(Li, Li′) sont les termes quiconcernent les colonnes j et j′. On a donc

dχ2(Li, Li′)− dχ2(Li, Li′)

=n

n.j

(nijni.− ni′jni′.

)2

+n

n.j′

(nij′

ni.− ni′j′

ni′.

)2

− n

n.j + n.j′

(nij + nij′

ni.− ni′j + ni′j′

ni′.

)2

.

=n

n.ja2 +

n

n.j′b2 − n

n.j + n.j′(a+ b)2 ,

ou on a note a =nijni.− ni′j

ni′.et b =

nij′

ni.− ni′j′

ni′.. En developpant le carre, et en regroupant les

termes en a2 et b2, il vient

dχ2(Li, Li′)− dχ2(Li, Li′) =

(n

n.j− n

n.j + n.j′

)a2 +

(n

n.j′− n

n.j + n.j′

)b2 − 2

n

n.j + n.j′ab

= nn.j′

n.j(n.j + n.j′)a2 + n

n.jn.j′(n.j + n.j′)

b2 − 2n

n.j + n.j′ab

=n

n.jn.j′(n.j + n.j′)

(n2.j′a

2 + n2.jb

2 − 2n.j′n.jab)

=n

n.jn.j′(n.j + n.j′)(n.j′a− n.jb)2

=n

n.jn.j′(n.j + n.j′)

(n.j′

nijni.− n.j′

ni′jni′.− n.j

nij′

ni.+ n.j

ni′j′

ni′.

)2

=n

n.jn.j′(n.j + n.j′)

[1

ni.(n.j′nij − n.jnij′) +

1

ni′.(n.jni′j′ − n.j′ni′j)

]2

= 0 ,

puisque d’apres (5.2), nijn.j′ = nij′n.j et ni′jn.j′ = ni′j′n.j.

Distance entre profils-colonnes :

De facon symetrique, on definit la distance entre deux profils-colonnes Cj et Cj′ par

d2χ2(Cj, Cj′) =

r∑i=1

n

ni.

(nijn.j− nijn.j′

)2

= (Cj − Cj′)′M(Cj − Cj′) =< Cj − Cj′ , Cj − Cj′ >M .

Page 93: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 93

avec M = nD−1r , metrique diagonale sur Rr.

5.2.4 Inertie

Inertie associee au nuage des profils-lignes :

I(Mr) =r∑i=1

fi.d2χ2(Li, gr)

=r∑i=1

ni.n

c∑j=1

n

n.j

(nijni.− n.j

n

)2

=r∑i=1

c∑j=1

ni.n

n

n.j

(nijni.− n.j

n

)2

=1

ntn .

Inertie associee au nuage des profils-colonne :

De la meme facon, on montre que I(Mc) = 1ntn.

5.3 ACP des deux nuages profils

Deux ACP sont possibles :

1. ACP du nuage des profils-lignes avec— Tableau de donnees (r, c) : X = D−1

r N = Tr— Espace des individus : Rc— Metrique : M = nD−1

c

— Poids : D = 1nDr

2. ACP du nuage des profils-colonnes avec— Tableau de donnees (c, r) : X = D−1

c N ′ = T ′c— Espace des individus : Rr— Metrique : M = nD−1

r

— Poids : D = 1nDc

5.3.1 ACP des profils-lignes.

Matrice a diagonaliser.

En reprenant les notations du chapitre sur l’ACP, la matrice de variance covariance estdonnee par

V = X ′DX − gg′ = Y ′DY =1

nN ′D−1

r N − grg′r ,

et la matrice a diagonaliser est :

VM = N ′D−1r ND−1

c − ngrg′rD−1c .

Page 94: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

94 ANALYSE DES DONNEES. FABIENNE CASTELL.

On a deja vu que le nuage des profils-lignes etait situe sur le sous-espace Hr−1. Par consequent,l’inertie portee par l’axe orthogonal a ce sous-espace est nulle, et le vecteur directeur de cet axeest donc un vecteur propre de VM associe a la valeur propre 0. On peut voir que cet axe n’estautre que la droite (Ogr). En effet, si x ∈ Hr−1,

< Ogr, grx >χ2 = (x− gr)′Mgr = n(x− gr)′D−1c gr =

c∑j=1

n

n.jgr(j)(x(j)− gr(j))

=c∑j=1

n

n.j

n.jn

(xj −n.jn

) =c∑j=1

xj −c∑j=1

n.jn

= 1− 1 = 0 .

Donc, gr est vecteur propre de VM associee a la valeur propre 0. On peut aussi noter que grest vecteur propre de la matrice ngrg

′rD−1c , associee a la valeur propre 1. En effet,

ngrg′rD−1c gr = n 〈gr, gr〉D−1

cgr = gr ,

puisque n 〈gr, gr〉D−1c

=∑c

j=1nn.jgr(j)

2 =∑c

j=1nn.j

(n.jn

)2=∑c

j=1n.jn

= 1. La matrice ngrg′rD−1c

est en fait la matrice de projection orthogonale sur (Ogr). En effet, si un vecteur x est orthogonal(au sens du chi2) a gr, ngrg

′rD−1c x = 〈gr, x〉χ2 gr = 0. On a donc montre le resultat suivant :

Proposition 5.3.1 Soit L la matrice

L = N ′D−1r ND−1

c = T ′rTc .

1. L et VM se diagonalise dans la meme base orthonormee (pour la metrique du chi2).

2. gr est vecteur propre de VM associee a la valeur propre 0, et vecteur propre de L associea la valeur propre 1.

3. Les autres vecteurs propres sont orthogonaux a gr, et sont associes aux memes valeurspropres pour L et VM .

D’apres cette proposition, il est donc inutile de centrer le tableau des profils-lignes. Demaniere pratique, on effectuera donc une ACP non centree. Puis a la valeur propre 1 associee al’axe (Ogr), on fera correspondre la valeur propre 0 pour se ramener a une etude centree en gr.

Composantes principales.

Notons (uk, k ∈ 1, · · · , r − 1) les vecteurs principaux autres que gr (definis par Luk =λkuk, λk 6= 1). Les composantes principales donnent les coordonnees des profils-lignes surchaque axe : pour tout i ∈ 1, · · · , r,

ck(i) = 〈Li, uk〉χ2 = nL′iD−1c uk

= n

c∑j=1

nijn.jni.

uk(j) .

Ceci se recritck = Tr(nD

−1c )uk = nD−1

r ND−1c uk .

Nous rappelons que les composantes principales sont centrees, et de variance λk.

Page 95: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 95

5.3.2 ACP des profils-colonnes.

Matrice a diagonaliser.

Cette fois, la matrice a diagonaliser est VM = ND−1c N ′D−1

r − ngcg′cD−1r . Comme pour les

profils-lignes, on montre que gc est vecteur propre de VM associee a la valeur propre 0, et quediagonaliser VM revient a diagonaliser la matrice C = ND−1

c N ′D−1r = TcT

′r.

Si ck est une composante principale de l’ACP des profils-lignes, on a Drck = nND−1

c uk, etdonc

C(Drck) = nND−1

c N ′D−1r ND−1

c uk = nND−1c Luk = nλkND

−1c uk = λkDrc

k .

Ainsi Drck est vecteur propre de C associe a la valeur propre λk. Si on note vk les vecteurs

principaux de l’ACP des profils-colonnes correspondant aux valeurs propres non nulles, on adonc vk = Drck

‖Drck‖χ2

, avec

∥∥Drck∥∥2

χ2 = (Drck)′(nD−1

r )(Drck) = n(ck)′Drc

k = nr∑i=1

ni.ck(i)2 = n2var(ck) = n2λk .

Par consequent, vk = 1n√λkDrc

k, i.e. pour tout i ∈ 1, · · · r,

vk(i) =1√λk

ni.nck(i) .

Composantes principales.

Notons (ck) les composantes principales de l’ACP des profils-colonnes. (ck) donne les coor-donnees des profils-colonnes sur l’axe de vecteur directeur vk :

ck(j) = 〈vk, Cj〉χ2 = nC ′jD−1r vk = n

r∑i=1

nijni.n.j

vk(i) ,

ce qui se recrit :

ck = nT ′cD−1r vk = nD−1

c N ′D−1r vk .

Nous rappelons que les composantes principales ck sont centrees, et de variance λk.

5.3.3 Relations de transition

Les composantes principales des profils-lignes et celles des profils-colonnes sont reliees pardes formules simples dont un des interets principaux est d’eviter deux diagonalisations. Ondiagonalisera la matrice de plus petite dimension.

On peut montrer que les matrices L et C ont memes valeurs propres non nulles λk. Leursvecteurs propres sont relies par les relations suivantes :

Page 96: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

96 ANALYSE DES DONNEES. FABIENNE CASTELL.

Theoreme 5.3.2 Soit p = rang(L) = rang(C). Pour tout k ≤ p, il existe une relation dite detransition, entre les vecteurs propres uk et vk :

vk =1√λkTcuk ,

uk =1√λk

T ′rvk

Preuve : Rappelons que Drck = n

√λkvk. Par ailleurs, on a ck = nD−1

r ND−1c uk, et donc

Drck = nND−1

c uk. On en deduit que

vk =1√λkND−1

c uk =1√λkTcuk .

En multipliant cette identite par T ′r, on obtient T ′rvk = 1√λkLuk =

√λkuk.

Le resultat precedent conduit aux relations fondamentales de l’AFC reliant les composantesprincipales entre elles, dites les relations quasi-barycentriques :

Theoreme 5.3.3 Soit p = rang(L) = rang(C). Pour tout k ≤ p,

ck(i) =1√λk

c∑j=1

nijni.ck(j) ,

ck(j) =1√λk

r∑i=1

nijn.jck(i) .

Preuve :

ck = nD−1r ND−1

c uk =1√λknD−1

r ND−1c T ′rvk =

1√λknD−1

r ND−1c N ′D−1

r vk =1√λkD−1r Nck .

En ecrivant cette relation coordonnees par coordonnees, on obtient pour tout i ∈ 1, · · · , r,

ck(i) =1√λk

c∑j=1

nijni.ck(j) .

La deuxieme identite se demontre de la meme facon.

Interpretation : A un coefficient de dilatation pres de 1√λk

, la projection du profil-ligne isur l’axe k est le barycentre des projections des profils-colonnes ponderes par les frequencesconditionnelles du profil i (part de la modalite j sachant i). Si nij/ni. est proche de 1 (ce quisignifie que lorsque X = i, alors on est pratiquement sur que Y vaut j), alors le barycentre∑c

l=1

nilni.ck(l) est proche de ck(l), et il en est de meme de ck(i). Et on a une interpretation

analogue pour la projection du profil-colonne j.

Page 97: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 97

La parfaite symetrie entre ACP profil-ligne et ACP profil-colonne (relations quasi-bary-centriques) conduisent a superposer les plans principaux des deux ACP afin d’obtenir unerepresentation simultanee des deux nuages. Mais attention ! Les distances entre les projectionsdes profils-lignes et des profils-colonnes n’ont pas de sens, puisque ces points sont dans desespaces differents. On ne peut les interpreter qu’en termes de quasi-barycentres.

Exercice : En utilisant les relations quasi-barycentriques, montrer que les valeurs propres λkde l’AFC sont inferieures ou egales a 1.

5.4 Formules de reconstitution

Comme en ACP on dispose de formules dites de reconstitution permettant de recuperer letableau N a partir des composantes principales c et c. Pour tout i ≤ r et tout j ≤ c, on a :

nij =ni.n.jn

(1 +

p∑k=1

1√λkck(i)ck(j)

). (5.3)

Les composants prinipales et les valeurs propres expliquent donc en quoi les nij s’ecartent desni.n.jn

.

Preuve : On decompose le vecteur ~grLi dans la base orthonormee donnee par les uk. On apar definition des composantes principales ck(i) :

Li − gr =

p∑k=1

ck(i)uk =

p∑k=1

1√λkck(i)T ′rvk =

p∑k=1

1√λkck(i)N ′D−1

r vk =

p∑k=1

1√λkck(i)

Dc

nck .

En ecrivant cette relation coordonnees par coordonnees, on obtient pour tout j ∈ 1, · · · , c,

nijni.− n.j

n=

p∑k=1

1√λkck(i)

n.jnck(j)

⇔ nij −ni.n.jn

=ni.n.jn

p∑k=1

1√λkck(i)ck(j)

Page 98: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

98 ANALYSE DES DONNEES. FABIENNE CASTELL.

5.5 Tableau recapitulatif :

Nuage Mr Elements de base Nuage Mc

des r profils-lignes dans Rc des c profils-colonnes dans Rr

Tr = D−1r N Tableau de donnees T ′c = D−1

c N ′

(r, c) (c, r)

nD−1c Metrique du chi2 nD−1

r

1nDr Poids 1

nDc

L = T ′rTc = N ′D−1r ND−1

c Matrice a diagonaliser C = TcT′r = ND−1

c N ′D−1r

(c, c) (r, r)

uk : Luk = λkuk Vecteurs principaux vk : Cvk = λkvkavec λk 6= 1 avec λk 6= 1

uk = 1√λkT ′rvk vk = 1√

λkTcuk

ck = nD−1r ND−1

c uk Composantes principales ck = nD−1c N ′D−1

r vkck(i) = n

∑cj=1

nijni.n.j

uk(j) ck(j) = n∑r

i=1nijni.n.j

vk(i)

Drck = n

√λkvk Dcc

k = n√λkuk

ck(i) = 1√λk

∑cj=1

nijni.ck(j) ck(j) = 1√

λk

∑ri=1

nijnj.ck(i)

5.6 Aides a l’interpretation

Rappelons que deux types de coefficients apportent de l’information interessante pour l’in-terpretation des plans factoriels.

— Contribution relative : elle exprime la part prise par une modalite de la variable dansl’inertie ”expliquee ” par un facteur.

— Cosinus carre : il mesure la qualite de representation de la modalite sur le facteur.

Contribution relative d’une modalite a l’inertie de l’axe k :

— Contribution relative du profil-ligne Li au k-ieme axe (de vecteur uk) :fi.(ck(i)

)2

λk;

— Contribution relative du profil-colonne Cj au k-ieme axe (de vecteur vk) :f.j(ck(j)

)2

λk.

Qualite de representation sur l’axe k :

— Qualite de la representation du profil-ligne Li sur le k-ieme axe (de vecteur uk) :ck(i)2∑rl=1 c

k(l)2;

Page 99: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 99

— Qualite de la representation du profil-colonne Cj sur le k-ieme axe (de vecteur vk) :ck(j)2∑cl=1 c

k(l)2.

Elements supplementaires :

Les points supplementaires sont des profils qui n’entrent pas dans la construction des axesmais qui sont representes dans les plans factoriels. Leur position est interpretee en terme dequasi-barycentre.

Si on dispose par exemple d’une modalite supplementaire l0 de la variable X, on peutcalculer la coordonnee du profil-ligne correspondant l0 sur l’axe k en utilisant les formulesquasi-barycentriques :

ck(0) =1√λk

c∑j=1

n0j

n0.

ck(j) .

D’autre part on peut egalement evaluer la qualite de representation des points supplementairessur l’axe k par le calcul du cos2.

5.7 Exemple traite sous R.

On reprend ici l’exemple traite dans le livre ”Statistique avec R”. Le fichier de donneesuniversite.csv peut etre telecharge sur le site

http://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/statistiques.avec.R.

5.7.1 Description des donnees.

On a releve sur n = etudiants des universites francaises en 2007-2008, trois variables quali-tatives :

— le sexe a deux modalites : F et H ;— le niveau de diplome a trois modalites : Licence (L), Master (M), Doctorat (D) ;— la discipline du diplome a 10 modalites : Droit et Sciences Politiques (Dr), Sciences

economiques et gestion (SEG), Administration economique et sociale (ES), Lettres,Sciences du langage et arts (AL), Langues (La), Sciences Humaines et Sociales (SHS),Pluridisciplinarite Lettres, Langues et Sciences Humaines (PLLSH), Sciences fondamen-tales et Applications (SF), Sciences de la nature et de la vie (SVT), STAPS.

Les deux premieres variables ont ete regroupees en une variable qualitatives a 6 modalites :Lic.F, Lic.H, Ma.F, ... etc.

univ<- read.table("universite.csv",sep=";",header=T,row.names=1)

> rownames(univ)<-c(’Dr’,’SEG’,"ES","AL","La","SHS","PLLSH","SF","SVT","STAPS")

> colnames(univ)<-c("Lic.F","Lic.H","Mas.F","Mas.H","Doc.F",

"Doc.H","F","H","Lic","Mas","Doc")

> univ

univ est une table de contingence a 10 lignes (correspondant aux 10 modalites de la variableX : ”Discipline”), et 12 colonnes (correspondant aux 6 modalites de la variable Y : ”Niv&Sexe”,

Page 100: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

100 ANALYSE DES DONNEES. FABIENNE CASTELL.

plus les effectifs par sexe, plus les effectifs par niveau, plus l’effectif marginal). On reproduitdans la table 5.1 la table de contingence de X et Y .

Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H TotDr 69373 37317 42371 21693 4029 4342 179125

EG 38387 37157 29466 26929 1983 2552 136474ES 18574 12388 4183 2884 0 0 38029AL 48691 17850 17672 5853 4531 2401 96998La 62736 21291 13186 3874 1839 907 103833

SHS 94346 41050 43016 20447 7787 6972 213618PLLSH 1779 726 2356 811 13 15 5700

SF 22559 54861 17078 48293 4407 11491 158689SVT 24318 15004 11090 8457 5641 5232 69742

STAPS 8248 17253 1963 4172 188 328 32152

Table 5.1 – Donnees sur les universites

5.7.2 Objectifs. Choix des modalites actives.

On souhaite etudier sur ces donnees :— l’impact du sexe sur la discipline choisie ;— l’impact de la discipline choisie sur la longueur des etudes ;— faire des regroupements de disciplines pour lesquelles le profil des etudiants est identique ;— etc...Toutes les modalites de la variable ”Discipline” seront des modalites actives. En ce qui

concerne les colonnes de la table univ, seules les 6 premieres colonnes seront actives, l’infor-mation contenue dans les 5 dernieres colonnes etant deja presente dans les 6 premieres. Lescolonnes correspondant au sexe, et au niveau de diplome seront traitees comme des modalitessupplementaires.

La commande R utilisee pour faire l’AFC, est la commande CA du package FactoMine.> res.AFC<-CA(univ, col.sup=7:12)

L’objet res.AFC est une liste contenant les resultats de l’AFC, du meme type que la listede resultat de la commande PCA.

5.7.3 Choix du nombre d’axes a retenir.

Les resultats concernant les valeurs propres sont contenus dans res.AFC$eig. Le tableau5.2 donne la valeur propre λk, le pourcentage d’inertie correspondant a l’axe principal ∆uk , etle pourcentage d’inertie correspondant a l’espace principal Ek. La figure 5.1 donne l’eboulis desvaleurs propres.

— Si on veut garder le nombre d’axes necessaires pour prendre en compte 80% de l’inertiedu nuage, on est amene a conserver les deux premiers axes qui expliquent a eux seuls,8σ% de l’inertie.

— Si on applique la regle de l’eboulis, on est amene a conserver 3 axes.

Page 101: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 101

Valeur Propre Part d’inertie Part d’inertie cumuleedim 1 0.12 70.72 70.72dim 2 0.03 15.51 86.23dim 3 0.02 10.90 97.13dim 4 0.00 2.63 99.75dim 5 0.00 0.25 100.00dim 6 0.00 0.00 100.00

Table 5.2 – Valeurs propres et part d”inertie associee0.

000.

020.

040.

060.

080.

10

Figure 5.1 – Eboulis des valeurs propres

On poursuit l’analyse en conservant seulement les deux premiers axes (qui expliquent 86% del’inertie du nuage).

5.7.4 Analyse des resultats.

La fonction CA donnent par defaut le graphique des profils-lignes et des profils-colonnes(representation simultanee) sur le premier plan. Il est reproduit dans la figure 5.2. Le tableaudes representations des modalites sur les deux premiers axes est donne dans les tables 5.3 et5.4.

Concernant la variable Niv&Sexe, les modalites supplementaires Niv et Sexe permettentd’interpreter les deux axes principaux. Le premier axe oppose les femmes (a gauche du gra-phique) et les hommes (a droite du graphique). Le deuxieme axe classe le niveau d’etudes(Licence en bas du graphe, Master au milieu et Doctorat en haut). Il apparaıt que les femmesont tendance a faire des etudes plus longues que les hommes.

Page 102: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

102 ANALYSE DES DONNEES. FABIENNE CASTELL.

Dr EG ES AL La SHS PLLSH SF SVT STAPSDim 1 0.30 0.46 0.20 0.91 0.79 0.84 0.04 0.98 0.01 0.21Dim 2 0.13 0.00 0.80 0.02 0.13 0.15 0.18 0.00 0.41 0.67

Table 5.3 – Representations des modalites de la variable Discipline

Lic.F Lic.H Ma.F Ma.H Doc.F Doc.HDim 1 0.96 0.55 0.14 0.95 0.01 0.46Dim 2 0.01 0.39 0.33 0.01 0.49 0.26

Table 5.4 – Representations des modalites de la variable Niv&Sexe

Concernant la variable ”Discipline”, le graphe montre une proximite (d’un point de vue duprofil etudiant) entre les disciplines AL, SHS, Dr. En interpretant les representations barycen-triques, on peut voir que ces disciplines sont surtout suivies par des femmes au niveau Licence.De facon plus generale, les disciplines a gauche du graphe attirent plutot les femmes, et lesdisciplines en bas du graphe sont des disciplines ou les etudes sont courtes.

5.8 Exercice.

On a releve sur n = 10 individus deux variables qualitatives, la variable X a 4 modalitesA,B,C,D et la variable Y a trois modalites 1, 2, 3. Les resultats sont regroupes dans latable 5.5 qui donne sous forme d’une ?, les modalites relevees sur un individu.

Ind A B C D 1 2 31 ? ?2 ? ?3 ? ?4 ? ?5 ? ?6 ? ?7 ? ?8 ? ?9 ? ?10 ? ?

Table 5.5 – Tableau de presence/absence

1. Donner la table de contingence associee.

2. Quelles sont les deux matrices a diagonaliser lors de l’AFC de cette table.

3. Donner les valeurs propres de l’AFC.

4. Donner les axes principaux de l’ACP des profils-lignes, et ceux de l’ACP des profils-colonnes.

Page 103: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

CHAPITRE 5. Analyse Factorielle des Correspondances. 103

5. Donner les composantes principales des profils-lignes et des profils-colonnes.

6. Faire la representation simultanee des profils-lignes et des profils-colonnes sur le planprincipal.

Page 104: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

104 ANALYSE DES DONNEES. FABIENNE CASTELL.

−0.4 −0.2 0.0 0.2 0.4 0.6 0.8

−0.

6−

0.4

−0.

20.

00.

20.

4

CA factor map

Dim 1 (70.72%)

Dim

2 (

15.5

1%)

Dr

EG

ES

AL

La

SHS

PLLSH

SF

SVT

STAPS

Lic.F

Lic.H

Ma.F

Ma.H

Doc.F

Doc.H

F

HLic

Ma

Doc

Tot

Figure 5.2 – AFC sur les donnees des universites. Plan principal

Page 105: Aix Marseille Universit e L3 MASS Cours … 2 Statistique descriptive unidimensionnelle. Avant de rentrer dans l’analyse de donn ees multidimensionnelles, nous allons commencer par

Chapitre 6

References.

un bon investissement : ”Probabilites, Analyse des donnees et Statistique”, de GilbertSaporta. Editions Technip.

Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-Andre Cornillon,Arnaud Guyader, Francois Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, EricMatzner-Lober, Laurent Rouviere. Presses Universitaires de Rennes.

ainsi que le site des auteurs du livres :

http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres

/statistiques.avec.R

deux sites ou vous trouverez beaucoup d’informations utiles :— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/— Le site http ://wikistat.fr/

Le polycopie du cours de M1MASS d’”Analyse exploratoire des donnees”, faitpar Marie-Christine Roubaud. Je la remercie chaleureusement de m’avoir gracieu-sement donne ses fichiers sources. Les chapitres sur l’ACP et l’AFC en sont une simpleretouche.

105