47
Analyses statistiques multivari´ ees eatrice de Tili` ere 1 er ecembre 2008

Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

  • Upload
    lamkien

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Analyses statistiques multivariees

Beatrice de Tiliere

1er

decembre 2008

Page 2: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

ii

Page 3: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Table des matieres

1 La Statistique 1

1.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Un peu de vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Collecte de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4 Deux directions en statistique . . . . . . . . . . . . . . . . . . . . . . . . 2

1.5 Statistique univariee / multivariee . . . . . . . . . . . . . . . . . . . . . 3

1.6 Statistique descriptive multivariee et ce cours . . . . . . . . . . . . . . . 3

2 Rappels d’algebre lineaire 5

2.1 Matrices et vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Operations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Interpretation geometrique des vecteurs . . . . . . . . . . . . . . . . . . 7

3 Statistique descriptive elementaire 11

3.1 La matrice des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2 Parametres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2.1 Moyenne arithmetique . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2.2 Mediane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3 Parametres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3.1 Etendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

iii

Page 4: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

iv TABLE DES MATIERES

3.3.2 Variance et ecart-type . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3.3 Variables centrees-reduites . . . . . . . . . . . . . . . . . . . . . . 17

3.4 Parametres de relation entre deux variables . . . . . . . . . . . . . . . . 18

3.4.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.4.2 Correlation de Bravais-Pearson . . . . . . . . . . . . . . . . . . . 20

4 Analyse en Composantes Principales (ACP) 23

4.1 Projection sur un sous-espace . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2 Choix du sous-espace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3 Theoreme spectral pour les matrices symetriques . . . . . . . . . . . . . 25

4.4 Theoreme fondamental de l’ACP . . . . . . . . . . . . . . . . . . . . . . 26

4.5 Consequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.6 En pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 Methodes de classification 31

5.1 Distance entre individus . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.2 Le nombre de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.3 Inertie d’un nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.4 Methodes non hierarchiques : methode des centres mobiles . . . . . . . . 37

5.5 Methodes de classification hierarchiques . . . . . . . . . . . . . . . . . . 38

Page 5: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Chapitre 1

La Statistique

1.1 Generalites

“La Statistique” : methode scientifique qui consiste a observer et a etudier une/plusieursparticularite(s) commune(s) chez un groupe de personnes ou de choses.

“La statistique” est a differencier d’“une statistique”, qui est un nombre calcule apropos d’une population.

1.2 Un peu de vocabulaire

◦ Population : collection d’objets a etudier ayant des proprietes communes. Termeherite des premieres applications de la statistique qui concernait la demographie.

Exemple : ensemble de parcelles sur lesquelles on mesure un rendement, un grouped’insectes...

◦ Individu : element de la population etudiee.

Exemple : une des parcelles, un des insectes...

◦ Variable : propriete commune aux individus de la population, que l’on souhaiteetudier. Elle peut etre

- qualitative : couleur de petales,

- quantitative : (numerique). Par exemple la taille, le poids, le volume. On distingueencore les variables

- continues : toutes les valeurs d’un intervalle de R sont acceptables. Parexemple : le perimetre d’une coquille de moule.

1

Page 6: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

2 CHAPITRE 1. LA STATISTIQUE

- discretes : seul un nombre discret de valeurs sont possibles. Par exemple : lenombre d’especes ressencees sur une parcelle.

Les valeurs observees pour les variables s’appellent les donnees.

◦ Echantillon : partie etudiee de la population.

1.3 Collecte de donnees

La collecte de donnees (obtention de l’echantillon) est une etape cle, et delicate. Nousne traitons pas ici des methodes possibles, mais attirons l’attention sur le fait suivant.

Hypothese sous-jacente en statistique : l’echantillon d’individus etudie est choisi auhasard parmi tous les individus qui auraient pu etre choisi.

⇒ Tout mettre en oeuvre pour que ceci soit verifie.

1.4 Deux directions en statistique

1. Statistique descriptive

Elle a pour but de decrire, c’est-a-dire de resumer ou representer, par des statis-tiques, les donnees disponibles quand elles sont nombreuses. Questions typiques :

(a) Representation graphique.

(b) Parametres de position, de dispersion, de relation.

(c) Questions liees a des grands jeux de donnees.

2. Statistique inferentielle

Les donnees ne sont pas considerees comme une information complete, mais uneinformation partielle d’une population infinie. Il est alors naturel de supposer queles donnees sont des realisations de variables aleatoires, qui ont une certaine loide probabilite.

Necessite outils mathematiques plus pointus (theorie des probabilites).

Questions typiques :

(a) Estimation de parametres.

(b) Intervalles de confiance.

(c) Tests d’hypothese.

(d) Modelisation : exemple (regression lineaire).

Page 7: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

1.5. STATISTIQUE UNIVARIEE / MULTIVARIEE 3

1.5 Statistique univariee / multivariee

Lorsque l’on observe une seule variable pour les individus de la population, on parle destatistique univariee, et de statistique multivariee lorsqu’on en observe au moins deux.Pour chacune des categories, on retrouve les deux directions ci-dessus.

Exemple :Univarie. Population : iris. Variable : longueur des petales.Multivarie. Population : iris. Variable 1 : longueur des petales. Variable 2 : largeur despetales.

1.6 Statistique descriptive multivariee et ce cours

Ce cours a pour theme la statistique descriptive dans le cas multivarie.

La statistique descriptive multivariee en general est un domaine tres vaste. La premiereetape consiste a etudier la representation graphique, et la description des parametresde position, de dispersion et de relation. Ensuite, les methodes principales se separenten deux groupes.

1. Les methodes factorielles (methodes R, en anglais) : cherchent a reduire le nombrede variables en les resumant par un petit nombre de variables synthetiques. Selonque l’on travaille avec des variables quantitatives ou qualitatives, on utiliseral’analyse en composantes principales, ou l’analyse de correspondance. Les liensentre deux groupes de variables peuvent etre traites grace a l’analyse canonique.

2. Les methodes de classification (methodes Q, en anglais) : vise a reduire le nombred’individus en formant des groupes homogenes.

Etant donne que ce cours dure 5 semaines, nous ne traitons qu’un echantillon representatifde methodes. Nous avons choisi :

1. Parametres de position, de dispersion, de relation.

2. Analyse en composantes principales (ACP).

3. Methodes de classification.

Page 8: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

4 CHAPITRE 1. LA STATISTIQUE

Page 9: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Chapitre 2

Rappels d’algebre lineaire

Un des outils mathematique de base pour la statistique descriptive multivariee estl’algebre lineaire. Ce chapitre consiste en quelques rappels qui seront utilises dans lasuite.

2.1 Matrices et vecteurs

• Une matrice X est un tableau rectangulaire de nombres. Si X a n lignes et p colonnes,on dit que X est de taille n × p.

Notation : une matrice X de taille n × p est notee sous la forme suivante :

X =

x11 · · · x1p

......

...xn1 · · · xnp

.

xij est l’element de la i-eme ligne et j-eme colonne. On le note aussi (X)ij

Exemple : n = 3, p = 4.

X =

3 4 8 22 6 1 11 1 0 5

.

(X)22 = x22 = 6,

(X)13 = x13 = 8.

• La transposee de la matrice X notee Xt, tX, X ′ est obtenue a partir de X en inter-changeant les lignes et les colonnes. C’est a dire, (Xt)ij = xji.

5

Page 10: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

6 CHAPITRE 2. RAPPELS D’ALGEBRE LINEAIRE

Remarquer que si X est une matrice de taille n × p, alors Xt est une matrice de taillep × n.

Exemple : Reprenant l’exemple ci-dessus, on a :

Xt =

3 2 14 6 18 1 02 1 5

.

• Un vecteur colonne x est une matrice avec une seule colonne.

Exemple :

x =

11.51

.

Un vecteur ligne xt est une matrice avec une seule ligne. Remarquer que la notationsouligne le fait que c’est la transposee d’un vecteur colonne.

Exemple :xt = (1 1.5 1).

2.2 Operations sur les matrices

Parmi les nombreuses operations que l’on peut faire sur les matrices, nous allons seule-ment en mentionner quelques unes.

• Addition : Soit X et Y deux matrices de meme taille, disons n × p. Alors la matriceX + Y est de taille n × p, et a pour coefficients :

(X + Y )ij = xij + xij .

Exemple :

X =

3 2 14 6 18 1 02 1 5

, Y =

2 1 03 1 24 5 41 2 3

, X + Y =

5 3 17 7 312 6 43 3 8

.

• Multiplication par un scalaire : Soit X une matrice de taille n×p et λ un nombre reel(aussi appele scalaire), alors la matrice λX est de taille n × p, et a pour coefficients :

(λX)ij = λxij .

Page 11: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

2.3. INTERPRETATION GEOMETRIQUE DES VECTEURS 7

Exemple :

X =

3 2 14 6 18 1 02 1 5

, λ = 2, 2X =

6 4 28 12 216 2 04 2 10

.

• Multiplication de matrices : Soit X une matrice de taille n × p, et Y une matrice detaille p × q, alors la matrice XY est de taille n × q, et a pour coefficients :

(XY )ij =

p∑

k=1

xikykj.

Exemple :

X =

(

3 2 14 6 1

)

, Y =

3 14 12 1

, XY =

(

19 638 11

)

.

• La transposee verifie les proprietes suivantes :

1. (X + Y )t = Xt + Y t

2. (XY )t = Y tXt.

2.3 Interpretation geometrique des vecteurs

A priori, les matrices sont des tableaux de nombres. Il y a neanmoins des interpretationsqui sont tres utiles, comme la suivante qui va nous servir pour les statistiques multi-variees.

• Interpretation geometrique des vecteurs

Un vecteur ligne de taille 1 × n ou un vecteur colonne de taille n × 1 represente unpoint de R

n. On visualise ceci le mieux lorsque n = 2, 3.

Exemple :

Le vecteur ligne xt = (x1 x2 x3) ou le vecteur colonne x =

x1

x2

x3

, represente un

point de R3.

(Voir les dessins faits pendant le cours au tableau)

• La norme d’un vecteur x, notee ||x|| est par definition sa longueur. Lorsque n = 2, lalongueur est donnee par le theoreme de Pythagore :

||x|| =√

x21 + x2

2.

Page 12: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

8 CHAPITRE 2. RAPPELS D’ALGEBRE LINEAIRE

Pour un n quelconque, la formule se generalise de la maniere suivante .

||x|| =√

x21 + · · · + x2

n.

Exemple : xt = (1 4 5 2), alors ||x|| =√

1 + 16 + 25 + 4 =√

46.

Un vecteur de norme 1 est dit unitaire.

Exemple : xt = (1, 0, 0), alors ||x|| =√

1 + 0 + 0 = 1.

• Le produit scalaire est une operation tres importante que l’on peut effectuer sur lesvecteurs de R

n. Soient x et y deux vecteurs de Rn, alors le produit scalaire de x et y,

note < x,y > est par definition :

< x,y >= ||x|| · ||y|| cos ∠(x,y).

On peut montrer la relation suivante qui est tres utile pour les calculs :

< x,y >=n∑

i=1

xiyi = (x1, · · · , xn)

y1...

yn

= xty.

Exemple : xt = (1, 2, 3), yt = (2, 3, 4), alors < x,y >= 20.

Remarque :||x||2 =< x,x > .

• Soit D une droite de Rn qui passe par l’origine, et soit u un vecteur unitaire de cette

droite. Alors la projection orthogonale de x sur D est donnee (au signe pres) par :

< x,u > .

En effet, par la trigonometrie, on a :

cos ∠(x,u) =projection

||x|| ,

ainsi,projection = cos ∠(x,u).||x||.

De plus, par definition du produit scalaire, on a :

cos ∠(x,u) =< x,u >

||x||.||u|| ,

ainsi,

< x,u > = cos ∠(x,u).||x||.||u||= cos ∠(x,u).||x|| (car ||u|| = 1).

Page 13: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

2.3. INTERPRETATION GEOMETRIQUE DES VECTEURS 9

En combinant ces deux equations, on obtient :

projection =< x,u > .

(Voir les dessins faits pendant le cours au tableau)

• Deux vecteurs x et y sont dits orthogonaux, ssi < x,y >= 0.

Page 14: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

10 CHAPITRE 2. RAPPELS D’ALGEBRE LINEAIRE

Page 15: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Chapitre 3

Statistiquedescriptive elementaire

Ce chapitre se fait en parallele avec l’exemple des troncs d’arbre.

3.1 La matrice des donnees

Avant toute chose, il faut un moyen pour repertorier les donnees. L’outil naturel estd’utiliser une matrice X, appelee matrice des donnees. Nous nous restreignons au casou les donnees sont de type quantitatif, ce qui est frequent en biologie.

On suppose que l’on a n individus, et que pour chacun de ces individus, on observe pvariables. Alors, on peut repertorier les donnees de la maniere suivante :

X =

x11 · · · x1p

......

xn1 · · · xnp

L’element xij de la matrice X represente l’observation de la j-eme variable pour l’in-dividu i.

On va noter la i-eme ligne de X, representant les donnees de toutes les variables pourle i-eme individu, par xt

i. On va noter la j-eme colonne de X, representant les donneesde la j-eme variable pour tous les individus, par x(j). Ainsi,

xti = (xi1, · · · , xip).

x(j) =

x1j

...xnj

.

11

Page 16: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

12 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ELEMENTAIRE

Exemple 3.1 Quantite d’ecorce (en centigrammes) sur 28 arbres dans les 4 directionscardinales, N, E, S, O.

On peut considerer cette matrice de deux points de vue differents : si l’on comparedeux colonnes, alors on etudie la relation entre les deux variables correspondantes. Sipar contre, on compare deux lignes, on etudie la relation entre deux individus.

Remarquer que lorsque n et p deviennent grands, ou moyennement grand, le nombre dedonnees np est grand, de sorte que l’on a besoin de techniques pour resumer et analyserces donnees.

3.2 Parametres de position

Les quantite ci-dessous sont des generalisations naturelles du cas uni-dimensionnel.

On considere une variables x(j) observee sur n individus. Souvenez- vous que les donneesde cette variable pour les n individus est representee par la j-eme colonne de la matricedes donnees X.

x(j) =

x1j

...xnj

.

3.2.1 Moyenne arithmetique

La moyenne arithmetique de la variable x(j), notee x(j), est :

x(j) =1

n

n∑

i=1

xij.

On peut representer la moyenne arithmetique des differentes variables sous la forme duvecteur ligne des moyennes arithmetiques, note xt :

xt = (x(1), · · · ,x(p)).

Exemple 3.2 On reprend l’exemple ci-dessus, et on trouve que les moyennes arithmetiquesdes quantites d’ecorce deposee sur les 28 arbres dans les differents directions sont :

x(1) = 50.536

x(2) = 46.179

x(3) = 49.679

x(4) = 45.179.

Page 17: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

3.3. PARAMETRES DE DISPERSION 13

Le vecteur ligne des moyennes arithmetiques est :

xt = (50.536, 46.179, 49.679, 45.179).

3.2.2 Mediane

On suppose que les valeurs de la variable x(j) sont classees en ordre croissant. Alors,lorsque n est impair, la mediane, notee m(j), est l’“element du milieu”, c’est a dire :

m(j) = xn+12

j.

Si n est pair, on prendra par convention :

m(j) =xn

2,j + xn

2+1,j

2.

On peut aussi mettre les medianes des differentes variables dans un vecteur ligne, notemt, et appele le vecteur ligne des medianes :

mt = (m(1), · · · ,m(p)).

Exemple 3.3 Trouver le vecteur des medianes dans l’exemple des troncs d’arbre.

3.3 Parametres de dispersion

La moyenne ne donne qu’une information partielle. En effet, il est aussi importantde pouvoir mesurer combien ces variables sont dispersees autour de la moyenne. Onconsidere par exemple les donnees ci-dessous, des resultats de 6 individus a un test destatistique (Variable 1) et de geologie (Variable 2), qui nous serviront de cas d’ecole.

X =

11 13.512 13.513 13.514 13.515 13.516 13.5

Le vecteur ligne des moyennes est :

xt = (13.5, 13.5).

Ainsi les deux variables ont la meme moyenne, mais vous sentez bien qu’elles sont denature differente.

Il existe plusieurs manieres de mesurer la dispersion des donnees.

Page 18: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

14 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ELEMENTAIRE

3.3.1 Etendue

Soit une variable x(j), alors l’etendue est la difference entre la donnee la plus grandepour cette variable, et la plus petite. Mathematiquement, on definit :

xmax(j) = max

i∈{1,··· ,n}xij .

xmin(j) = min

i∈{1,··· ,n}xij .

Alorsw(j) = xmax

(j) − xmin(j) .

On peut representer l’etendue des differentes variables sous la forme d’un vecteur ligne,appele vecteur ligne des etendues, et note wt :

wt = (w(1), · · · , w(p)).

Exemple 3.4 Pour l’exemple des notes, le vecteur ligne des etendues est :

wt = (5, 0).

Pour l’exemple des troncs d’arbre, on se refere a la feuille jointe.

Remarque 3.1 C’est un indicateur instable etant donne qu’il ne depend que des va-leurs extremes. En effet, vous pouvez avoir un grand nombre de donnees qui sontsimilaires, mais qui ont une plus grande et plus petite valeur qui sont tres differentes,elles auront alors une etendue tres differente, mais cela ne represente pas bien la realitedes donnees.

3.3.2 Variance et ecart-type

Une autre maniere de proceder qui tient compte de toutes les donnees, et non passeulement des valeurs extremes, est la suivante.

On considere une variable x(j), l’idee est de calculer la somme, pour chacune des donneesde cette variable, des distance a la moyenne, et de diviser par le nombre de donnees.Une premiere idee serait de calculer :

1

n

n∑

i=1

(xij − x(j)) =1

n

[

(x1j − x(j)) + · · · + (xnj − x(j))]

,

mais dans ce cas la, il y a des signes + et − qui se compensent et faussent l’information.En effet, reprenons l’exemple de la Variable 1 ci-dessus. Alors la quantite ci-dessus est :

1

6[(11 − 13.5) + (12 − 13.5) + (13 − 13.5) + (14 − 13.5) + (15 − 13.5) + (16 − 13.5)] = 0,

Page 19: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

3.3. PARAMETRES DE DISPERSION 15

alors qu’on sent bien qu’il y a une certaine dispersion autour de la moyenne. Pourpalier a la compensation des signes, il faut rendre toutes les quantites que l’on sommede meme signe, disons positif. Une idee est de prendre la valeur absolue, et on obtientalors l’ecart a la moyenne. Une autre maniere de proceder est de prendre les carres, onobtient alors la variance :

Var(j) =1

n

n∑

i=1

(xij − x(j))2 =

1

n

[

(x1j − x(j))2 + · · · + (xnj − x(j))

2]

.

Pour compenser le fait que l’on prenne des carres, on peut reprendre la racine, et onobtient alors l’ecart-type :

σ(j) =√

Var(j) =

1

n

n∑

i=1

(xij − x(j))2.

Exemple 3.5 Voici le calcul de la variance et de l’ecart-type pour l’exemple des notes.

Var(1) =1

6

(

(11 − 13.5)2 + (12 − 13.5)2 + (13 − 13.5)2 + (14 − 13.5)2 + (15 − 13.5)2 + (16 − 13.5)2)

Var(1) = 2.917

σ(1) = 1.708

Var(2) =1

6

(

6(13.5 − 13.5)2)

= 0

σ(2) = 0.

Pour l’exemple des troncs d’arbres, on se refere a la feuille jointe.

Theoreme 1 (Koning-Huygens) La variance est egale a :

Var(j) =

(

1

n

n∑

i=1

x2ij

)

− x(j)2.

Preuve:

Pour simplifier les notations, on va noter la variable x et non x(j), de sorte que l’on

Page 20: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

16 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ELEMENTAIRE

peut enlever l’indice (j) dans les notations ci-dessus.

Var =1

n

n∑

i=1

(xi − x)2,

=1

n

n∑

i=1

(x2i − 2xix + x2),

=1

n

(

n∑

i=1

x2i − 2x

n∑

i=1

xi + nx2

)

,

=1

n

(

n∑

i=1

x2i − 2nx2 + nx2

)

,

=1

n

(

n∑

i=1

x2i − nx2

)

,

=

(

1

n

n∑

i=1

x2i

)

− x2.

Exemple 3.6 Recalculons les variances de l’exemple des notes en utilisant le Theoremede Koning-Huygens.

Var(1) =1

6[112 + 122 + 132 + 142 + 152 + 162] − 13.52 = 2.917

Var(2) =1

6[6(13.52)] − 13.52 = 0.

• Notations matricielles :

Le fait d’ecrire la variance sous forme matricielle est utile par la suite, et aide a l’in-terpretation geometrique. Il faut neanmoins faire un effort d’abstraction que l’on vamotiver sur l’exemple des notes.

On definit la matrice des moyennes arithmetiques, notee X, par :

X =

x(1) · · · x(p)...

......

x(1) · · · x(p)

,

alors la matrice X − X est :

X − X =

x11 − x(1) · · · x1p − x(p)...

......

xn1 − x(1) · · · xnp − x(p)

.

Page 21: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

3.3. PARAMETRES DE DISPERSION 17

Et donc la variance de la j-eme variable est egale a 1/n fois le produit scalaire de laj-eme colonne avec elle-meme ; autrement dit a 1/n fois la norme au carre du vecteurdonne par la j-eme colonne. Mathematiquement, on peut ecrire ceci ainsi :

Var(j) =1

n< (X −X)(j), (X −X)(j) >=

1

n((X −X)(j))

t(X −X)(j) =1

n||(X −X)(j)||2.

De maniere analogue, l’ecart type peut s’ecrire :

σ(j) =1√n||(X − X)(j)||.

Exemple 3.7 Calculons encore une fois la variance pour l’exemple des notes, en uti-lisant les notations ci-dessus.

X =

13.5 13.513.5 13.513.5 13.513.5 13.513.5 13.513.5 13.5

,

donc

X − X =

11 − 13.5 13.5 − 13.512 − 13.5 13.5 − 13.513 − 13.5 13.5 − 13.514 − 13.5 13.5 − 13.515 − 13.5 13.5 − 13.516 − 13.5 13.5 − 13.5

.

et

Var(1) =1

6

11 − 13.512 − 13.513 − 13.514 − 13.515 − 13.516 − 13.5

,

11 − 13.512 − 13.513 − 13.514 − 13.515 − 13.516 − 13.5

=1

6

11 − 13.512 − 13.513 − 13.514 − 13.515 − 13.516 − 13.5

2

.

On procede de maniere analogue pour Var(2).

3.3.3 Variables centrees-reduites

Une variable est dite centree si on lui soustrait sa moyenne. Une variable est ditecentree reduite si elle est centree et divisee par son ecart-type. Les variables centreesreduites sont utiles car elles n’ont plus d’unite, et des variables differentes deviennentainsi comparables.

Page 22: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

18 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ELEMENTAIRE

Si X est la matrice des donnees, on notera Z la matrice des donnees centrees reduites.Par definition, on a :

(Z)ij = zij =xij − x(j)

σ(j).

Remarquer que si σ(j) est nul la quantite ci-dessus n’est pas bien definie. Mais dans cecas, on a aussi xij − x(j) = 0 pour tout i, de sorte que l’on pose zij = 0.

Exemple 3.8 Voici la matrice centree reduite de l’exemple des notes. On se souvientque

σ(1) = 1.708 σ(2) = 0

x(1) = 13.5 x(2) = 13.5.

Ainsi,

Z =

11−13.51.708 13.5 − 13.5

12−13.51.708 13.5 − 13.5

13−13.51.708 13.5 − 13.5

14−13.51.708 13.5 − 13.5

15−13.51.708 13.5 − 13.5

16−13.51.708 13.5 − 13.5

=

−1.464 0−0.878 0−0.293 00.293 00.878 01.464 0

.

3.4 Parametres de relation entre deux variables

Apres la description uni-dimensionnelle de la matrice des donnees, on s’interesse a laliaison qu’il existe entre les differentes variables. Nous les comparons deux a deux.

Rappelons le contexte general. On a p variables x(1), · · · ,x(p) observees sur n individus.

3.4.1 Covariance

Pour tout i et j compris entre 1 et p, on definit la covariance de la variable x(i) et x(j),notee, Cov(ij), par :

Cov(ij) =1

n

n∑

k=1

(xki − x(i))(xkj − x(j)).

Remarque :

1. Cov(ii) = Var(i).

2. La covariance est symetrique, i.e. : Cov(ij) = Cov(ji).

On a l’analogue du Theoreme de Konig-Huygens pour la covariance :

Page 23: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

3.4. PARAMETRES DE RELATION ENTRE DEUX VARIABLES 19

Theoreme 2 La covariance de la variable x(i) et x(j) est egale a :

Cov(ij) =

(

1

n

n∑

k=1

xkixkj

)

− x(i)x(j).

Exemple 3.9 Calculons la covariance entre la premiere et la deuxieme variable dansl’exemple des notes, en utilisant le Theoreme de Konig-Huygens :

Cov(12) =1

6[11.13, 5 + 12.13, 5 + 13.13, 5 + 14.13, 5 + 15.13, 5 + 16.13, 5] − 13, 52 = 0.

• Notations matricielles :

Comme pour la variance, il est utile de representer la covariance en notations matri-cielles. De maniere analogue on a :

Cov(ij) =1

n< (X − X)(i), (X − X)(j) >=

1

n((X − X)(i))

t(X − X)(j).

De ceci, on peut encore deduire :

Cov(ij) =1

n((X − X)t(X − X))ij .

C’est a dire que Cov(ij) est le coefficient (i, j) de la matrice 1n(X − X)t(X − X).

Il est alors naturel de definir la matrice de covariance des donnees X, de taille p × p,notee V , par :

V =1

n(X − X)t(X − X).

De sorte que l’on a

Cov(ij) = Vij.

Remarquer que les coefficients sur la diagonale de la matrice V donnent les variancesdes variables.

Exemple 3.10 Calculons la matrice de covariance pour l’exemple des notes. Alors, ona deja vu que :

X − X =

−2.5 0−1.5 0−0.5 00.5 01.5 02.5 0

.

Page 24: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

20 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ELEMENTAIRE

ainsi

1

6(X − X)t(X − X) =

1

6

(

−2.5 −1.5 −0.5 0.5 1.5 2.50 0 0 0 0 0

)

−2.5 0−1.5 0−0.5 00.5 01.5 02.5 0

=

(

2.91667 00 0

)

.

Ainsi, on retrouve la variance dans les elements diagonaux :

Var(1) = 2.91667 Var(2) = 0.

Et la covariance Cov(12) = 0.

Pour l’exemple des troncs d’arbre, on se refere a la feuille jointe.

• On definit la variabilite totale de la matrice des donnees X par :

Tr(V ) =

p∑

i=1

Var(i).

Cette quantite est importante car elle donne en quelque sorte la quantite d’informationqui est contenue dans la matrice X. Elle joue un role cle dans l’ACP.

3.4.2 Correlation de Bravais-Pearson

La correlation de Bravais-Pearson entre les variables x(i) et x(j), notee r(ij), est pardefinition :

r(ij) =Cov(ij)

σ(i)σ(j)=

((X − X)(i))t(X − X)(j)

||(X − X)(i)|| · ||(X − X)(j)||.

Remarques

1. r(ii) = 1. En effet r(ii) =Cov(ii)

σ2(i)

=Var(i)Var(i)

= 1.

2. r(ij) represente le cosinus entre les vecteurs (X − X)(i) et (X − X)(j).

Le coefficient de correlation a les proprietes remarquables suivantes (qui se deduisentde Cauchy-Schwarz).

Proposition 3 Pour tout i, j ∈ {1, · · · , p}, on a :

1. |r(ij)| ≤ 1,

Page 25: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

3.4. PARAMETRES DE RELATION ENTRE DEUX VARIABLES 21

2. |r(ij)| = 1, si et seulement si il existe un nombre a, tel que

(X − X)(j) = a(X − X)(i).

Remarque 3.2

1. La premiere propriete est immediate une fois que l’on a remarque que le coefficientde correlation est un cosinus.

2. la deuxieme propriete s’ecrit en composantes :

x1j − x(j) = a(x1i − x(i)), · · · , xnj − x(j) = a(xni − x(i)),

ainsi |r(ij)| = 1, si et seulement si il y a une dependance lineaire entre la variablex(i) et la variable x(j). Voir le dessin fait au tableau.

3. Si le coefficient de Pearson est proche de 1, cela implique une relation lineaire entreles variables, mais pas forcement une causalite. Ces deux phenomenes peuvent etrerelies entre eux par une troisieme variable, non mesuree qui est la cause des deux.Par exemple, le nombre de coups de soleil observes dans une station balneairepeut etre fortement correle au nombre de lunettes de soleil vendues ; mais aucundes deux phenomenes n’est la cause de l’autre.

4. Si le coefficient de Pearson est proche de 0, ca ne veut pas dire qu’il n’y a pasde relation entre les variables, cela veut seulement dire qu’il n’y a pas de relationlineaire. Elle pourrait par exemple etre quadratique, ou autre.

• Matrice de correlation :

De maniere analogue a la matrice de covariance, on definit la matrice de correlation,de taille p × p, notee R, par :

(R)ij = r(ij).

Remarquer que les elements diagonaux de cette matrice sont tous egaux a 1.

Exemple 3.11 Pour l’exemple des notes, la matrice de correlation est :

R =

(

1 00 1

)

.

Pour l’exemple des troncs d’arbre, on se refere a la feuille jointe.

Page 26: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

22 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ELEMENTAIRE

Page 27: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Chapitre 4

Analyse en ComposantesPrincipales (ACP)

Methode factorielle, ou de type R (en anglais). A pour but de reduire le nombre devariables sans perdre d’information, c’est a dire en gardant le maximum de la variabilitetotale.

Pratiquement, cela revient a projeter les individus sur un espace de dimension inferieure,en maximisant la variabilite totale des nouvelles variables. On impose que l’espace surlequel on projete soit orthogonal (pour ne pas avoir une vision deformee des donnees).

4.1 Projection sur un sous-espace

• Reprenons ce que nous avons vu sur la projection. Soit q un vecteur unitaire de Rp,

et soit x un autre vecteur de Rp. Alors la projection orthogonale du vecteur x sur la

droite passant par l’origine et de vecteur directeur q est donnee par :

< x,q >= xtq.

Cette valeur doit etre interpretee comme la coordonnee de x sur l’axe q.

Si l’on projete le vecteur x qui a p composantes sur un seul vecteur q, on perd de l’in-formation. Il faut le projeter sur p droites differentes (d’un point de vue mathematique,“differentes” signifient lineairement independantes. Dans notre cas, on les choisira or-thogonales) afin de garder toute l’information. Voir le dessin fait au tableau.

Supposons que l’on aie p vecteurs unitaires de Rp, q(1), · · · ,q(p). Ecrivant ceci en coor-

23

Page 28: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

24 CHAPITRE 4. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

donnees, on a :

q(j) =

q1j

...qpj

.

On definit la matrice Q par :

Q =(

q(1) · · ·q(p)

)

=

q11 · · · q1p

......

...qp1 · · · qpp

.

Alors, les coordonnees de x sur les axes q(1), · · · ,q(p) sont donnees dans le vecteurligne :

yt = xtQ = (xtq(1) · · · xtq(p)).

• On se replace dans le contexte de la matrice des donnees X, avec les memes notations.Pour des raisons de visibilite, on considere les donnees centrees X − X.

Objectif 1

Projeter les donnees du i-eme individu (X−X)ti sur des vecteurs unitaires q(1), · · · ,q(p),qui representent les nouvelles variables.

En reprenant ce que l’on a decrit ci-dessus, les nouvelles coordonnees pour le i-emeindividu sont donnees dans le vecteur ligne :

yti = (X − X)ti Q.

On fait ceci pour tous les individus (X−X)t1, · · · , (X−X)tn. Les nouvelles coordonneessont donc repertoriees dans la matrice :

Y = (X − X)Q.

4.2 Choix du sous-espace

Objectif 2

Trouver les vecteurs q(1), · · · ,q(p) qui gardent le plus d’information possible. Autrementdit, choisir le sous-espace sur lequel on projete de sorte que la part de variabilite totaleexpliquee par la variable q(1) soit maximale, puis celle expliquee par q(2) etc... ainsi, onpourra se restreindre a regarder la projection sur les premiers vecteurs (nombre exacta choisir par le statisticien).

Souvenez-vous que la matrice des covariances de X est notee V .

Page 29: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

4.3. THEOREME SPECTRAL POUR LES MATRICES SYMETRIQUES 25

Il faut donc calculer la variance des nouvelles variables. Remarquer que les nouvellesvariables que l’on considere sont les colonnes de la matrice Y , dont la j-eme est donneepar :

y(j) = (X − X)q(j).

Observer d’abord que la moyenne des nouvelles variables y(1), · · · ,y(p) est :

y(j) = 0.

Donc,

Y =

0 · · · 0...

......

0 · · · 0

.

Ainsi, en utilisant la definition de la variance, on a :

Var(y(j)) =1

n((Y − Y )(j))

t(Y − Y )(j) (4.1)

=1

n(Y(j))

tY(j) = yt(j)y(j)

=1

n[(X − X)q(j)]

t(X − X)q(j)

=1

nqt

(j)(X − X)t(X − X)q(j)

= qt(j)V q(j)

On cherche donc la matrice Q telle que Var(y(1)) soit maximale, puis Var(y(2)), etc...Montrer comment on la trouve exactement est un peu complique, donc nous allonsenoncer le resultat. Avant ceci, il nous faut encore un theoreme important d’algebrelineaire.

4.3 Theoreme spectral pour les matrices symetriques

• Soit A une matrice de taille p× p. Un vecteur x de Rp s’appelle un vecteur propre de

la matrice A, s’il existe un nombre λ tel que :

Ax = λx.

Le nombre λ s’appelle la valeur propre associee au vecteur propre x.

• En pratique :Les valeurs propres sont solutions de l’equation,

det(A − λI) = 0,

Page 30: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

26 CHAPITRE 4. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

ou I est la matrice identite de taille p × p. Pour trouver le vecteur propre associe a lavaleur propre λ, on resoud le systeme lineaire :

(A − λI)x = 0.

• Definitions pre-requises :

Une matrice carree A = (aij) est dite symetrique, ssi aij = aji pour tout i, j.

Une matrice carree Q = (qij) est dite orthogonale, ssi < q(i),q(j) >= qt(i)q(j) = 0, pour

tout i 6= j, et < q(i),q(i) >= qt(i)q(i) = 1.

Theoreme 4 (spectral pour les matrices symetriques) Si A est une matrice symetriquede taille p× p, alors il existe une base orthogonale de R

p formee de vecteurs propres deA. De plus, chacune des valeurs propres associee est reelle.

Autrement dit, il exite une matrice orthogonale Q telle que :

QtAQ = D

et D est la matrice diagonale formee des valeurs propres de A.

4.4 Theoreme fondamental de l’ACP

On considere la matrice des donnees X, et V la matrice de covariance associee (qui estsymetrique par definition). On note λ1 ≥ · · · ≥ λp les valeurs propres de la matrice V .Soit Q la matrice orthogonale correspondante a la matrice V , donnee par le Theoreme4, telle que le premier vecteur corresponde a la plus grande valeur propre, etc...Onsuppose de plus que les vecteurs de Q sont normes. Alors, on a le theoreme suivant.

Theoreme 5 La matrice orthogonale qui maximise la quantite (4.1) est la matrice Qdecrite ci-dessus. De plus, on a :

1. Var(y(j)) = λj,

2. Cov(y(i),y(j)) = 0, quand i 6= j,

3. Var(y(1)) ≥ · · · ≥ Var(y(p)),

4. La variabilite totale des nouvelles donnees Y est la meme que la variabilite totaledes donnees X et vaut

∑pi=1 λi.

Page 31: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

4.5. CONSEQUENCES 27

Preuve:

Notons V (Y ) la matrice de covariance associee aux nouvelles donnees Y . Alors, pardefinition :

(V (Y ))ij = Cov(y(i),y(j)) = qt(i)V q(j)

= (QtV Q)ij

=

λ1 0 · · · 0

0 λ2 0...

... λp−1 00 · · · 0 λp

Ainsi,

Var(y(j)) = (QtV Q)jj = λj

Cov(y(i),y(j)) = (QtV Q)ij = 0.

Ceci demontre 1 et 2. Le point 3 decoule du fait que l’on a ordonne les valeurs propresen ordre decroissant.

Par definiton, la variabilite totale des donnees Y est la trace de la matrice V (Y ), doncc’est clairement la somme des valeurs propres. De plus, comme propriete de la trace,on a :

Tr(V (Y )) = Tr(QtV Q) = Tr(V ).

Le dernier point non-trivial a verifier est l’optimalite. C’est a dire pour toute autrematrice orthogonale que l’on choisirait, la variance pour la premiere variable seraitplus petite que λ1, etc... Meme si ce n’est pas tres difficile, nous choisissons de ne pasdemontrer cette partie ici. �

4.5 Consequences

Voici deux consequences importantes du resultat que nous avons etabli dans la sectionprecedente.

• Soit X la matrice des donnees, soit V la matrice de covariance correspondante, etsoit Q la matrice des vecteurs propres de V comme ci-dessus. Soit λ1 ≥ · · · ≥ λp lesvaleurs propres de V .

Page 32: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

28 CHAPITRE 4. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Alors la somme des k premieres valeurs propres, divisee par la somme des valeurspropres,

λ1 + · · · + λk

λ1 + · · · + λp

,

represente la quantite de variation totale expliquee par les k premieres composantesprincipales.

• Etant donne que les nouvelles variables sont dans un sens “artificielles”, on souhaitecomprendre la correlation entre la variable x(j) et les nouvelles variables y(k). En effet,ceci exprime la quantite de la variable y(k) qui est reliee a la variable x(j). La covarianceentre ces deux variables est donnee par (comme Y est centree) :

Cov(x(j),y(k)) =1

n((X − X)(j))

t(Y − Y )(k),

=1

n((X − X)(j))

ty(k), (car Y est de moyenne nulle).

=1

n((X − X)(j))

t(X − X)q(k), (par def. de y(k)),

= vtjq(k), (ou vt

j est la j-eme ligne de la matrice V ),

= λkqjk, (car q(k) est vecteur propre de V )

De plus, Var(x(j)) = (V )jj = vjj, et Var(y(j)) = λk. Ainsi la correlation entre x(j) ety(k) est donnee par :

r(x(j),y(k)) =λkqjk√

λkvjj

=

√λkqjk√vjj

.

C’est la quantite de la variable x(j) “expliquee” par la variable y(k).

Attention : Le raisonnement ci-dessus n’est valable que si la dependance entre les va-riables est lineaire (voir la section sur les correlations). En effet, dire qu’une correlationforte (faible) est equivalente a une dependance forte (faible) entre les variables, n’estvrai que si on sait a priori que la dependance entre les variables est lineaire. Ceci estdonc a tester sur les donnees avant d’effectuer une ACP. Si la dependance entre lesvariables n’est pas lineaire, on peut effectuer une transformation des donnees de sorteque ce soit vrai (log, exponentielle, racine, ...).

4.6 En pratique

En pratique, on utilise souvent les donnees centrees reduites. Ainsi,

1. La matrice des donnees est la matrice Z.

Page 33: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

4.6. EN PRATIQUE 29

2. La matrice de covariance est la matrice des correlations R. En effet :

Cov(z(i), z(j)) = Cov

(

x(i) − x(i)

σ(i),x(j) − x(j)

σ(j)

)

,

=Cov(x(i) − x(i),x(j) − x(j))

σ(i)σ(j),

=Cov(x(i),x(j))

σ(i)σ(j),

= r(ij).

3. La matrice Q est la matrice orthogonale correspondant a la matrice R, donneepar le Theoreme spectral pour les matrices symetriques.

4. λ1 ≥ · · · ≥ λp sont les valeurs propres de la matrice des correlations R.

5. La correlation entre z(j) et y(k) est :

Cor(z(j),y(k)) =√

λkqjk,

car les coefficients diagonaux de la matrice de covariance (qui est la matrice descorrelations) sont egaux a 1.

Page 34: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

30 CHAPITRE 4. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Page 35: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Chapitre 5

Methodes de classification

Ce chapitre concerne les methodes de classification, ou de type Q (en anglais). Enanglais on parle aussi de “cluster analysis”. Le but est de regrouper les individus dansdes classes qui sont le plus “homogene” possible. On “reduit” maintenant le nombred’individus, et non plus le nombre de variables comme lors de l’ACP. Il y a deux grandstypes de methodes de classification :

1. Classifications non-hierarchiques (partitionnement). Decomposition de l’espacedes individus en classes disjointes.

2. Classifications hierarchiques. A chaque instant, on a une decomposition de l’es-pace des individus en classes disjointes. Au debut, chaque individu forme uneclasse a lui tout seul. Puis, a chaque etape, les deux classes les plus “proches”sont fusionnees. A la derniere etape, il ne reste plus qu’une seule classe regroupanttous les individus.

Remarque 5.1 On retrouve les methodes de classification en statistique descriptiveet inferentielle. Dans le premier cas, on se base sur les donnees uniquement ; dans ledeuxieme, il y a un modele probabiliste sous-jacent. On traitera ici le cas descriptifuniquement.

5.1 Distance entre individus

Dans les methodes de classification, les individus sont regroupes dans des classes ho-mogenes. Ceci signifie que les individus d’une meme classe sont proches. On a doncbesoin d’une notion de proximite entre individus. Il existe un concept mathematiqueadequat, a la base de toute methode de classification, qui est celui de distance.

31

Page 36: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

32 CHAPITRE 5. METHODES DE CLASSIFICATION

On considere la matrice des donnees X de taille n × p. Souvenez-vous que cela signifieque l’on a n individus, et p variables. On note l’ensemble des individus E = {1, · · · , n}.Dans la suite, il faut imaginer chacun des individus comme etant un vecteur/point deR

p (en effet, a chaque individu, on associe les donnees de p variables), de sorte que l’ona en tout n points de R

p.

Une distance entre individus est une application d : E × E → R, qui a les proprietessuivantes :

1. d(i, j) = d(j, i).

2. d(i, j) ≥ 0.

3. d(i, j) = 0, si et seulement si i = j.

4. d(i, j) ≤ d(i, k) + d(k, j).

Ainsi une distance represente une dissimilarite entre individus. Cependant, on parlerade dissimilarite, au sens strict du terme, seulement lorsque les proprietes 1 a 3 sontsatisfaites.

Exemple : Donnees numeriques

On considere le cas de p variables quantitatives observees sur n individus, repertorieesdans la matrice des donnees X = (xij) de taille n × p. On rappelle que les donnees detoutes les variables pour le i-eme individu sont representees par la i-eme ligne de lamatrice, notee xt

i.

Attention !Dans la suite, on ecrira aussi la i-eme ligne de la matrice X sous forme d’un vecteurcolonne, que l’on notera xi, en accord avec les conventions introduites. Il ne faut ce-pendant pas confondre xi qui est la i-eme ligne de la matrice X, ecrite sous forme decolonne (de longueur p), et qui represente les donnees de toutes les variables pour lei-eme individu ; et x(i) qui est la i-eme colonne (de longueur n) de la matrice X, et quirepresente les donnees de la variable i pour tous les individus.

Si les variables ont des unites qui ne sont pas comparables, on peut aussi considerer lesdonnees centrees reduites. Une autre alternative est de prendre la matrice donnee parl’ACP. Quelque soit la matrice choisie, nous gardons la notation X = (xij).

1. Distance euclidienne : d(i, j) = ||xi − xj || =√

(xi − xj)t(xi − xj).

2. Distance de Manhattan : d(i, j) =

p∑

k=1

|xik − xjk|.

3. Distance de Mahalanobis : d(i, j) =√

(xi − xj)tV −1(xi − xj), ou V est la matricede covariance de X.

Page 37: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

5.1. DISTANCE ENTRE INDIVIDUS 33

Exemple 5.1 On considere la matrice des donnees suivantes :

X =

1.5 2 3 2.81 3.1 6.2 5.3

8.2 2.7 9 1.2

.

Alors les distances euclidiennes sont :

d(1, 2) =√

(1.5 − 1)2 + (2 − 3.1)2 + (3 − 6.2)2 + (2.8 − 5.3)2 = 4.236,

d(1, 3) = 9.161, d(2, 3) = 8.755.

Exemple : Similarite entre objets decrits par des variables binaires

Une question importante qui se pose en biologie est la classification des especes (penseraux classifications de Darwin). C’est le cas traite par cet exemple. Les n individussont alors decrits par la presence (1) ou l’absence (0) de p caracteristiques, on parlede donnees binaires. Dans ce cas, les distances ci-dessus ne sont pas adaptees. Il existed’autres definitions plus adequates.

Exemple 5.2 On a 5 individus, et les variables sont :

1. Var 1 : Presence / absence d’ailes.

2. Var 2 : Presence / absence de pattes.

3. Var 3 : Presence / absence de bec.

Les donnees sont : X =

1 0 11 1 00 0 11 1 10 0 0

.

On enregistre les quantites suivantes :

aij = nombre de caracteristiques communes aux individus i et j.

bij = nombre de caracteristiques possedees par i, mais pas par j.

cij = nombre de caracteristiques possedees par j, mais pas par i.

dij = nombre de caracteristiques possedees ni par i, ni par j.

Exemple 5.3 Dans l’exemple ci-dessus, on a :

a12 = 1, b12 = 1, c12 = 1, d12 = 0.

On a alors les definitions de dissimilarites suivantes :

Page 38: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

34 CHAPITRE 5. METHODES DE CLASSIFICATION

1. Jaccard : d(i, j) = 1 − aij

aij + bij + cij

.

2. Russel et Rao : d(i, j) = 1 − aij

aij + bij + cij + dij

.

Remarque 5.2 Dans les definitions ci-dessus, le terme de droite represente une simi-larite entre les individus, et c’est un nombre compris entre 0 et 1. Ainsi, afin d’avoirune dissimilarite, on prend 1 − · · · .

Exercice : Calculer les distances de Jaccard dans l’exemple ci-dessus.

Remarque 5.3 Pour les abondances d’especes, on utilise egalement l’indice de simi-larite de Bray-Curtis, voir les TP.

• Matrice des distances

Les distances entre tous les individus sont repertoriees dans une matrice, notee D =(dij), de taille n × n, telle que :

dij = d(i, j).

Remarquer que seuls n(n−1)2 termes sont significatifs, etant donne que la matrice est

symetrique (dij = dji), et que les termes sur la diagonale sont nuls.

5.2 Le nombre de partitions

La premiere idee pour trouver la meilleure partition de n individus, serait de fixerun critere d’optimalite, puis de parcourir toutes les partitions possibles, de calculer cecritere, et de determiner laquelle des partitions est la meilleure. Ceci n’est cependantpas realiste etant donne que le nombre de partitions devient vite gigantesque, commenous allons le voir ci-dessous.

Soit S(n, k) le nombre de partitions de n elements en k parties. Alors, S(n, k) satisfaitla relation de recurrence suivante :

S(n, k) = kS(n − 1, k) + S(n − 1, k − 1), k = 2, · · · , n − 1.

S(n, n) = S(n, 1) = 1.

Preuve:

Verifions d’abord les conditions de bord. Il n’y a bien sur qu’une seule maniere departitionner n elements en n classes, ou en 1 classe.

Si l’on veut partitionner n elements en k classes, alors il y a deux manieres de le faire :

Page 39: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

5.3. INERTIE D’UN NUAGE DE POINTS 35

1. Soit on partitionne les n−1 premiers objets en k groupes, et on rajoute le n-iemea un des groupes existants, de sorte qu’il y a k manieres de le rajouter.

2. Soit on partitionne les n−1 premiers objets en k−1 groupes, et le dernier elementforme un groupe a lui tout seul, de sorte qu’il n’y a qu’une seule maniere de lefaire.

On peut montrer que la solution de cette recurrence est donnee par :

S(n, k) =1

k!

k∑

j=0

(−1)k−j

(

kj

)

jn.

Soit S(n) le nombre total de partitions de n elements. Alors,

S(n) =

n∑

k=1

S(n, k),

et on peut montrer que

S(n) =1

e

∞∑

k=0

kn

k!.

Les premiere valeurs pour S(n) sont :

S(1) = 1, S(2) = 2, S(3) = 5, S(4) = 15, S(5) = 52, S(6) = 203, S(7) = 877,

S(8) = 4140, S(9) = 21 147, · · · , S(20) = 51 724 158 235 372 !!!

Terminologie : Le nombre S(n, k) de partitions de n elements en k parties s’appellenombre de Stirling de deuxieme espece. Le nombre S(n) de partitions de n elementss’appelle nombre de Bell, il est habituellement note Bn.

5.3 Inertie d’un nuage de points

Cette section introduit une notion dont le lien se fera plus tard avec le sujet. On lamet ici parce qu’elle intervient dans les deux methodes de classification que nous allonsetudier.

On considere la matrice des donnees X = (xij) de taille n × p, et on suppose que ladistance entre individus est la distance euclidienne.

Inertie d’un individu, inertie d’un nuage de points

Page 40: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

36 CHAPITRE 5. METHODES DE CLASSIFICATION

Souvenez-vous que chaque individu est interprete comme un vecteur/point de Rp, de

sorte que l’on imagine la matrice des donnees comme etant un nuage de n points dansR

p. Dans ce contexte, on peut interpreter le vecteur des moyennes xt comme etant lecentre de gravite du nuage de points.

Soit xti la donnee de toutes les variables pour l’individu i. Souvenez-vous que le vecteur

xti ecrit sous forme d’une colonne est note xi, et le vecteur xt ecrit sous forme d’une

colonne est note x. Alors l’inertie de l’individu i, notee Ii, est par definition la distanceau carre de cet individu au centre de gravite du nuage de points, i.e.

Ii = ||xi − x||2.

C’est une sorte de variance pour le i-eme individu.

L’inertie du nuage de points, notee I, est la moyenne arithmetique des inerties desindividus :

I =1

n

n∑

i=1

Ii

Inertie inter-classe, inertie intra-classe

On suppose que les individus sont regroupes en k classes C1, · · · , Ck. Soit nℓ le nombred’individus dans la classe Cℓ (on a donc

∑kℓ=1 nℓ = n). Soit x(ℓ) le centre de gravite de

la classe Cℓ, et x le centre de gravite du nuage de points. Alors l’inertie de l’individu idans la classe Cℓ est :

Ii = ||xi − x(ℓ)||2,et l’inertie de la classe Cℓ est la somme des inerties des individus dans cette classe, i.e.

i∈Cℓ

||xi − x(ℓ)||2.

L’inertie intra-classe, notee Iintra, est 1/n fois la somme des inerties des differentesclasses, donc :

Iintra =1

n

k∑

ℓ=1

i∈Cℓ

||xi − x(ℓ)||2.

L’inertie inter-classe est la somme ponderee des inerties des centres de gravite desdifferentes classes, c’est a dire :

Iinter =1

n

k∑

ℓ=1

nℓ||x(ℓ) − x||2.

Remarque 5.4 Si une classe est “bien regroupee” autour de son centre de gravite, soninertie est faible. Ainsi, un bon critere pour avoir des classes homogenes est d’avoir uneinertie intra-classe qui soit aussi petite que possible.

Page 41: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

5.4. METHODES NON HIERARCHIQUES : METHODE DES CENTRES MOBILES37

Lien entre inertie du nuage de points, inertie intra/inter-classe

Comme consequence du Theoreme de Konig-Huygens, on a :

I = Iinter + Iintra.

Remarque 5.5 On a vu ci-dessus que pour avoir des classes homogenes, il faut uneinertie intra-classe qui soit aussi petite que possible. En utilisant le Theoreme de Konig-Huygens, cela revient a dire qu’il faut une inertie inter-classe aussi grande que possible.

x xx

(2)

(1)(3)x

x

Fig. 5.1 – Illustration de l’inertie et du Theoreme de Konig-Huygens (p = 2, n = 9, k =3).

5.4 Methodes non hierarchiques : methode des centresmobiles

Origine et extensions : Forgy, Mac Queen, Diday.

On fixe le nombre de classes k a l’avance. Cette methode permet alors de partager nindividus en k classes de maniere rapide.

Algorithme

1. Initialisation. Choisir k centres provisoires dans Rp (tires au hasard).

2. Pas de l’algorithme.

- Chacun des individus est associe a la classe dont le centre est le plus proche.On obtient ainsi une partition des individus en k classes.

- Remplacer les k centres par les centres de gravite des nouvelles classes.- Recommencer jusqu’a stabilisation.

Avantages

1. On peut montrer qu’a chaque etape l’inertie intra-classe diminue (bonne notiond’homogeneite).

Page 42: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

38 CHAPITRE 5. METHODES DE CLASSIFICATION

Fig. 5.2 – Illustration de la methode des centre mobiles, k = 2.

2. Algorithme rapide, qui permet de traiter un grand nombre de donnees.

Inconvenients

1. On doit fixer le nombre de classes a l’avance. Donc on ne peut determiner lenombre ideal de groupes.

2. Le resultat depend de la condition initiale. Ainsi, on n’est pas sur d’atteindre lapartition en k classes, telle que Iintra est minimum (on a minimum “local” et non“global”).

Remarque 5.6 Un peu plus sur la notion d’algorithme ... Il n’y a pas d’accord absolusur la definition d’un algorithme, nous en donnons neanmoins une. Un algorithme estune liste d’instructions pour accomplir une tache : etant donne un etat initial, l’algo-rithme effectue une serie de taches successives, jusqu’a arriver a un etat final.

Cette notion a ete systematisee par le mathematicien perse Al Khuwarizmi (∼ 780 −850), puis le savant arabe Averroes (12eme siecle) evoque une methode similaire. C’estun moine nomme Adelard de Barth (12eme siecle) qui a introduit le mot latin “algo-rismus”, devenu en francais “algorithme”. Le concept d’algorithme est intimement lieaux fonctionnement des ordinateurs, de sorte que l’algorithmique est actuellement unescience a part entiere.

5.5 Methodes de classification hierarchiques

Pour le moment, on n’a qu’une notion de dissimilarite entre individus. Afin de decrirela methode, on suppose que l’on a aussi une notion de dissimilarite entre classes.

Algorithme

1. Initialisation. Partition en n classes C1, · · · , Cn, ou chaque individu representeune classe. On suppose donne la matrice des distances entre individus.

Page 43: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

5.5. METHODES DE CLASSIFICATION HIERARCHIQUES 39

2. Etape k. (k = 0, · · · , n − 1). Les donnees sont n − k classes C1, · · · , Cn−k, et lamatrice des distances entre les differentes classes. Pour passer de k a k + 1 :

- Trouver dans la matrice des distances la plus petite distance entre deux classes.Regrouper les deux classes correspondantes. Obtenir ainsi n − k − 1 nouvellesclasses, C1, · · · , Cn−k−1.

- Recalculer la matrice des distances qui donnent les (n−k)(n−k−1)2 distances entre

les nouvelles classes.

- Poser k := k + 1.

1

2

54

3

Fig. 5.3 – Illustration de la classification hierarchique.

RepresentationLe resultat de l’algorithme est represente sous forme d’un arbre, aussi appele dendo-gramme. La hauteur des branches represente la distance entre les deux elements re-groupes.

3 4 51 2

distances

Fig. 5.4 – Arbre / dendogramme correspondant.

Avantages. Algorithme simple, permettant une tres bonne lecture des donnees.

Inconvenients

1. Selon la definition de distance entre les classes, on trouve des resultats tresdifferents. Une idee est donc d’appliquer la methode avec differentes distances, etde trouver les groupes stables.

2. Choix de la bonne partition : reperer un saut (si possible) entre les agregationscourtes distances (branches courtes de l’arbre) et les longues distances (branches

Page 44: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

40 CHAPITRE 5. METHODES DE CLASSIFICATION

longues de l’arbre). Parfois le nombre adequat de classe est donne par le type dedonnees. Il existe aussi des tests statistiques pour determiner le bon nombre declasses.

3. La complexite de l’algorithme est en O(n3), ainsi meme sur un nombre de donneespetit, on arrive rapidement a saturation de la puissance d’un ordinateur. En effet,l’algorithme est constitue de n etapes, et a chaque fois il faut parcourir la matricedes distances qui est de taille (n−k)(n−k−1)

2 .

Distance entre classes

Voici plusieurs definitions possibles de distances entre des classes formees de plusieursindividus. Soient C, C ′ deux classes.

1. Le saut minimum / single linkage. La distance du saut minimum entre les classesC et C ′, notee d(C,C ′), est par definition :

d(C,C ′) = mini∈C, j∈C′

d(i, j).

C’est la plus petite distance entre elements des deux classes.

2. Le saut maximum / complete linkage. La distance du saut maximum entre lesclasses C et C ′, notee d(C,C ′), est par definition :

d(C,C ′) = maxi∈C, j∈C′

d(i, j).

C’est la plus grande distance entre elements des deux classes.

3. Le saut moyen / average linkage. La distance du saut moyen entre les classes Cet C ′, notee d(C,C ′), est par definition :

d(C,C ′) =1

|C||C ′|∑

i∈C

j∈C′

d(i, j).

C’est la moyenne des distances entre tous les individus des deux classes.

4. Methode de Ward pour distances euclidiennes. Cette methode utilise le conceptd’inertie. On se souvient qu’une classe est homogene si son inertie est faible, ainsion souhaite avoir une inertie intra-classe qui soit faible.

Quand on fusionne deux classes C et C ′, l’inertie intra-classe augmente. Par leTheoreme de Konig-Huygens, cela revient a dire que l’inertie inter-classe diminue(car l’inertie totale du nuage de points est constante). On definit la distance deWard, notee d(C,C ′) entre les classes C et C ′, comme etant la perte de l’inertieinter-classe (ou gain d’inertie intra-classe)

d(C,C ′) =|C|n

||x(C) − x||2 +|C ′|n

||x(C ′) − x||2 − |C| + |C ′|n

||x(C ∪ C ′) − x||2,

=|C|.|C ′||C| + |C ′| ||x(C) − x(C ′)||2,

Page 45: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

5.5. METHODES DE CLASSIFICATION HIERARCHIQUES 41

ou x(C ∪ C ′) est le centre de gravite de la classe C ∪ C ′, |C| (resp. |C ′|) est lataille de la classe C (resp. C ′).

Ainsi, on fusionne les deux classes telles que cette perte (ce gain) soit minimum.

12

3

45

classe C classe C’ d(C,C’)

d(1,5)

saut minimum

saut maximum

d(2,4)

(1/6)(d(1,3)+d(1,4)+...+d(2,5))

(|C|.|C’|/(|C|+|C’|)) ||x(C)−x(C’)||2

saut moyen

Ward

Nom

Fig. 5.5 – Exemple de calcul des distances.

Page 46: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

42 CHAPITRE 5. METHODES DE CLASSIFICATION

Page 47: Analyses statistiques multivari´ees - math.tu-dresden.degournay/poly-bdt.pdf · Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statis- tiques,

Bibliographie

[1] Dytham C. Choosing and Using Statistics : A Biologist’s Guide.

[2] Legendre L., Legendre P., Ecologie numerique. Presses de l’Universite du Quebec,1984.

[3] Mardia K.V., Kent J.T., Bibby J.M., Multivariate analysis. Probability and Mathe-matical Statistics. A series of Monographs anx Textbooks.

[4] Saporta, G. Probabilites, analyse des donnees et statistique. Editions Technip, 1990.

[5] Venables W. N., Ripley B. D., Modern Applied Statistics with S. Fourth Edition.Springer. ISBN 0-387-95457-0, 2002.

[6] Verecchia, E. Notes de cours.

[7] Stahel, W. Notes de cours disponibles sur le web.http ://www.stat.math.ethz.ch/ stahel/

43