Analyse multivariee´ (Chapitre #4) - Personal Homepageshomepages.ulb.ac.be/.../stuff/Courses/Analmult/chap4s.pdfAnalyse multivariee´ (Chapitre #4) Davy Paindaveine Universite Libre

Analyse multivariée

(Chapitre #4)

Davy Paindaveine

Université Libre de Bruxelles

Chap.4 – p. 1/76

Plan du cours

1. Vecteurs aléatoires.

2. Loi normale multivariée.

3. Inférence dans les modèles gaussiens.

4. Méthodes spécifiques à l’analyse multivariée.

5. Inférence dans les modèles non gaussiens.

Chap.4 – p. 2/76


4.1. Analyse en composantes principales.

4.1.1. Motivation, définition et calcul.

4.1.2. Variance expliquée, lectures des CP.

4.1.3. Version empirique, inférence.

4.1.4. Approximation par des sous-espaces.

4.1.5. Illustrations sur des données réelles.

4.2. Analyse discriminante, classification.

(4.3. Analyse factorielle.)

Chap.4 – p. 3/76

Motivation

L’ACP tente d’expliquer la variabilité des données au moyen

d’un petit nombre de combinaisons linéaires des p variables

originales.

Objectifs:

• Réduction de la dimension (souvent, k

Définition

Soit X un p-v.a. dont la loi admet des moments finis d’ordre 2.

Notons Σ = Var[X ].

Définition: les composantes principales sont les combilis Yi = v′iX ,

i = 1, . . . , p, où

v1 := arg maxv∈Sp−1

Var[v′X ],

et

vk := arg maxv∈Sp−1∩Tk−1

Var[v′X ], k = 2, . . . , p,

où Sp−1:= {v ∈ Rp| ‖v‖ = 1} et Tk := {v ∈ Rp|Cov[v′iX, v′X ] = 0, i = 1, . . . , k}.

Remarque: problème d’identifiabilité (discuter).

Chap.4 – p. 5/76

Calcul

Comment calculer ces composantes principales (CP)?

La détermination des CP est trivialle si on a le résultat suivant

(preuve faite au cours).

Lemme: supposons que Σ est symétrique et définie positive.

Notons λ1 ≥ λ2 ≥ . . . ≥ λp(> 0) ses valeurs propres, et prenons desvecteurs propres de norme 1 associés e1, e2, . . . , ep. Alors (i)

maxv∈Sp−1

v′Σv = λ1 (atteint en v = e1)

et (ii), pour tout k = 2, . . . , p,

maxv∈Sp−1∩{e1,...,ek−1}⊥

v′Σv = λk (atteint en v = ek).

Chap.4 – p. 6/76

Calcul

Puisque Var[v′X ] = v′Σv, on obtient directement que

v1 = arg maxv∈Sp−1

Var[v′X ] = e1 (avec Var[v′1X ] = λ1).

D’autre part, comme Cov[v′X, v′1X ] = v′Σv1 = λ1(v

′e1), on a que

Cov[v′X, v′1X ] = 0 ssi v ⊥ e1. Donc le lemme fournit

v2 = arg maxv∈Sp−1∩T1

Var[v′X ] = e2 (avec Var[v′2X ] = λ2).

En continuant comme ceci, on obtient que vi = ei pour tout

i = 1, . . . , p.

; Les CP sont donc les variables Yi = e′iX , i = 1, . . . , p.

Chap.4 – p. 7/76

Calcul

Si on a la décomposition spectrale Σ = OΛO′ de Σ, où

Λ :=

( λ1λ2 . . .

λp

)

et O = (e1, . . . , ep),

(λ1 ≥ λ2 ≥ . . . ≥ λp), le vecteur Y = (Y1, . . . , Yp)′ des CP est doncdonné par

Y =

( e′1X...

e′pX

)

= O′X.

Remarque: le vecteur Y des CP s’obtient donc en effectuant

une rotation du vecteur original X .

Chap.4 – p. 8/76

Variance expliquée

Quelle est la part de la variabilité totale trΣ =∑p

i=1 Var[Xi], qui

est expliquée par les k premières CP?

Comme Var[Yi] = Var[e′iX ] = e

′iΣei = λi, on a que la variabilité

totale se décompose en trΣ = tr (OΛO′) =∑p

i=1 λi =∑p

i=1 Var[Yi],

de sorte que la part de la variabilité expliquée par les k

premières CP est

pk :=

∑ki=1 λi

∑pi=1 λi

.

Si une grande proportion de la variabilité est expliquée par un

petit nombre k0 de CP, celles-ci peuvent avantageusement

remplacer les variables Xi d’origine en ne perdant que très peu

d’information.

Chap.4 – p. 9/76

Variance expliquée

Comment peut-on choisir le nombre k0 de CP “à conserver”?

On est généralement satisfait lorsqu’au moins 80% (ou 85%...) de

la variabilité est expliquée...

; k0 = min{

k | pk ≥ 0.8}

.

D’autres pratiques courantes consistent à prendre

k0 = max

{

k∣

∣

∣λk > 0.7 ×

(1

p

p∑

i=1

λi

)

}

,

ou à choisir visuellement un k0 ad hoc sur la base d’un graphe

de λi en fonction de i (un “screeplot”):

Chap.4 – p. 10/76

λ1 = 0.27, λ2 = 0.0056, λ3 = 0.0023, λ4 = 0.00062, λ5 = 0.000082.

p1 = 0.969, p2 = 0.989, p3 = 0.997, p4 = 0.9997, p5 = 1.

Chap.4 – p. 11/76

Lecture des CP

Si on note ei = (ei1, . . . , eip)′, la taille de eik mesure l’importance

de Xk dans la CP Yi = e′iX . Le résultat suivant va dans ce sens.

Lemme: pour tout i, k = 1, . . . , p, Corr [Yi, Xk] = (λi/Σkk)1/2 eik.

Exemple: si Σ = Var[(X1, X2, X3)′] est donnée par

(

1 −2 0−2 5 0

0 0 2

)

,

on a λ1 = 5.83, λ2 = 2 et λ3 = 0.17 (dont la somme vaut bien trΣ = 8).

Les CP sont Y1 = −0.383X1 + 0.924X2, Y2 = X3 et Y3 = 0.924X1 + 0.383X2(Y1 et Y2 expliquent (5.83 + 2)/8 × 100% = 98% de la variabilité).

Et Corr [Y1, X1] = 0.925, Corr [Y1, X2] = −0.998, Corr [Y2, X1] = 0,Corr [Y2, X2] = 0 et Corr [Y2, X3] = 1 (X1 et X2 participent de façon

similaire à Y1).

Chap.4 – p. 12/76

Version empirique

Bien entendu, Σ = Var[X ] n’est en général pas connu.

En pratique, si on dispose d’un échantillon d’observations i.i.d.

X1, . . . , Xn (telles que Var[Xi] = Σ), il est naturel de fonder le

calcul des CP sur Σ̂ = S = 1n−1∑n

i=1(Xi − X̄)(Xi − X̄)′.

; CP empiriques Ŷi = ê′iX , i = 1, . . . , p, où on a décomposé S en

S = ÔΛ̂Ô′, avec

Λ̂ :=

( λ̂1λ̂2 . . .

λ̂p

)

et Ô = (ê1, . . . , êp)

(avec λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂p).

Chap.4 – p. 13/76

Version empirique

On peut ainsi obtenir une version empirique de toutes les

quantités définies plus haut (pourcentages de variance

expliquée, corrélations entre CP et variables originales, etc).

Par exemple, l’estimateur de la proportion de variance

expliquée par les k premières CP est

p̂k :=

∑ki=1 λ̂i

∑pi=1 λ̂i

.

Ceci permet de sélectionner en pratique le nombre k0 de CP

nécessaires pour conduire l’analyse.

Remarque: au delà de l’estimation de pk, il serait souhaitable

d’obtenir des intervalles de confiance sur cette quantité.

Chap.4 – p. 14/76

Inférence

Supposons que X1, . . . , Xn sont i.i.d. Np(µ, Σ) et que les p valeurspropres λi, i = 1, . . . , p de Σ sont distinctes deux à deux.

Alors on peut montrer que:

Proposition: soient λ̂ = (λ̂1, . . . , λ̂p)′ et λ = (λ1, . . . , λp)

′. Alors, si

n → ∞, √n(

λ̂ − λ) L→ Np(0, 2Λ2),

où Λ désigne encore la matrice diagonale telle que Λii = λi.

Il découle directement de ce résultat qu’un intervalle de

confiance asymptotique pour λi au niveau de confiance 1 − αest donné par

(

1 ± Φ−1(

1 − α2

)

√

2/n)−1

λ̂i

(exercice).

Chap.4 – p. 15/76

Inférence

Le résultat suivant découle directement de la méthode delta.

Proposition: soit f : Rp → R une fonction de classe C1 dans unvoisinage de λ. Alors, si n → ∞,

√n(

f(λ̂) − f(λ)) L→ N1(0, 2τ2),

où τ2 :=∑p

i=1 λ2i

(

∂f∂λi

(λ))2

.

En choisissant

fk(λ) :=

∑ki=1 λi

∑pi=1 λi

,

on en déduit facilement des intervalles de confiance asymptotiques

pour pk = fk(λ), qui sont fondés sur p̂k = fk(λ̂).

Chap.4 – p. 16/76

Inférence

Remarques:

• Dans ce modèle gaussien, on a que n−1n λ̂ est l’estimateurde maximum de vraisemblance pour λ (ceci est similaire

au fait que ce n’est pas S, mais n−1n S =1nW , qui est

l’estimateur de maximum de vraisemblance pour Σ).

• On peut aussi établir des résultats distributionnels sur les êi,i = 1, . . . , p, et en déduire des tests et des zones de

confiance sur ceux-ci.

• Un problème classique (motivé par son rôle possible dansune procédure séquentielle pour choisir k0) consiste à tester

H(k)0 : λk+1 = λk+2 = . . . = λp; pour ce problème, le test derapport de vraisemblance gaussien est similaire au test de

sphéricité vu au chapitre 3 (il compare les moyennes

géométrique et arithmétique des λ̂i, i = k + 1, . . . , p).

Chap.4 – p. 17/76

Approximation par des sous-espaces

Soit W = (w1, . . . , wk) une matrice p× k (k < p) telle que W ′W = Ik(les colonnes de W sont donc des vecteurs orthonormés).

Notons πa,W le sous-espace affin

{

a +k∑

i=1

αiwi |α1, . . . , αk ∈ R}

.

Soit Pa,W la projection orthogonale sur πa,W . Il est facile de

vérifier que

Pa,W (x) = a + W[

W ′W]−1

W ′(x − a) = a + WW ′(x − a).

Question: quel est le sous-espace affin πa,W de dimension k (fixe) qui

approxime le mieux l’échantillon X1, . . . , Xn dans sens qu’il minimise

n∑

i=1

‖Xi − Pa,W (Xi)‖2 ?

Chap.4 – p. 18/76


Le résultat suivant montre que ce meilleur sous-espace est

le translaté en la moyenne arithmétique X̄ du k-vectoriel qui est

engendré par les k premières directions principales.

Proposition: posons W(k)CP := (ê1, . . . , êk). Alors

arg minπa,W

n∑

i=1

‖Xi − Pa,W (Xi)‖2 = πX̄,W (k)CP

.

Remarque: si, comme on le fait souvent, on centre les

observations Xi (; Xi − X̄, i = 1, . . . , n), le meilleur sous-espacede dimension k approximant les Xi − X̄ est alors simplementπ

0,W(k)

CP

lui-même.

Chap.4 – p. 19/76


Preuve de la proposition: puisque Ip − WW ′ est symétrique etidempotente, on obtient

n∑

i=1

‖Xi − Pa,W (Xi)‖2 =n∑

i=1

‖Xi − (a + WW ′(Xi − a))‖2

=n∑

i=1

‖(Ip − WW ′)(Xi − a)‖2 =n∑

i=1

(Xi − a)′(Ip − WW ′)(Xi − a).

Donc, en décomposant Xi − a en (Xi − X̄) + (X̄ − a), cecidevient

n∑

i=1

(Xi − X̄)′(Ip − WW ′)(Xi − X̄) + n(X̄ − a)′(Ip − WW ′)(X̄ − a)

= (n − 1)tr[S(Ip − WW ′)] + n ‖(Ip − WW ′)(X̄ − a)‖2

= (n − 1)tr[S] − (n − 1)tr[SWW ′] + n ‖(Ip − WW ′)(X̄ − a)‖2.

Chap.4 – p. 20/76


On a donc obtenu

n∑

i=1

‖Xi−Pa,W Xi‖2 = (n−1)tr[S]−(n−1)tr[SWW ′]+n ‖(Ip−WW ′)(X̄−a)‖2.

Le 1er terme ne dépend ni de a, ni de W . Le 3ème est nul ssi

WW ′(X̄ − a) = X̄ − a, c’est-à-dire ssi a ∈ πX̄,W . Quant au 2nd,

tr[SWW ′] = tr[

Sk∑

i=1

wiw′i

]

=k∑

i=1

w′iSwi,

qui, comme on l’a vu dans le lemme du début du chapitre

(prendre Σ = S), est maximisé en wi = êi, i = 1, . . . , k. �

Remarque: on obtient aussi que la valeur minimale est donnée

par (n − 1)(tr[S] −∑ki=1 tr[ê′iSêi]) = (n − 1)∑p

i=k+1 λ̂i.

Chap.4 – p. 21/76

ACP et graphes

Chaque observation Xi peut s’écrire Xi = X̄ + Ŷi1ê1 + . . . + Ŷipêp,

où Ŷij = ê′j(Xi − X̄).

• L’approximation donnée par les k premières CP est

X̂(k)i := X̄ + Ŷi1ê1 + . . . + Ŷikêk (= PX̄,W (k)

CP

(Xi − X̄)).

• La taille des p − k dernières CP mesure la qualité de cetteapproximation, puisque

‖Xi − X̂(k)i ‖2 = ‖Ŷi,k+1êk+1 + . . . + Ŷipêp‖2 = Ŷ 2i,k+1 + . . . + Ŷ 2ip.

Des observations aberrantes seront indiquées par de grandes

valeurs de ‖Xi − X̂(k)i ‖2.

Chap.4 – p. 22/76

ACP et graphes

(a) Il est traditionnel de rapporter sur un graphe les traces des

observations sur la première droite principale Ŷi1, i = 1, . . . , n, ou

sur le premier plan principal (Ŷi1, Ŷi2), i = 1, . . . , n.

Remarques:

• De même, on peut considérer quelques-uns des droites etplans principaux suivants.

• Ces premiers sous-espaces principaux, outre leur intérêt entant que “sous-espaces de variabilité maximale” et de

“meilleures approximations des données”, permettent aussi

de vérifier de façon informelle la normalité des données

(Q-Q plot sur les droites principales, ellipticité dans les plans

principaux, etc).

Chap.4 – p. 23/76

ACP et graphes

(b) on peut aussi penser à rapporter sur un graphe les traces des

observations sur les dernières droites principales

Ŷir, i = 1, . . . , n (r grand),

ou sur les derniers plans principaux

(Ŷir, Ŷis), i = 1, . . . , n (r, s grands),

dans le but de détecter des éventuelles observations

aberrantes.

Chap.4 – p. 24/76

Exemple

Nous considérons le jeu de données “crabs” (disponible dans R),

qui reprend les valeurs de

• 5 mesures morphologiques (en mm)(a) FL = frontal lobe size,

(b) RW = rear width,

(c) CL= carapace length,

(d) CW = carapace width,

(e) BD = body depth,

• sur 200 crabes de l’espèce “leptograpsus variegatus”(Fremantle, Australie).

Remarque: 100 crabes sont des mâles. Pour chaque sexe, la

moitié des crabes sont de couleur orange, l’autre de couleur

bleue (autre point: on va travailler sur les log de ces variables).

Chap.4 – p. 25/76

Chap.4 – p. 26/76

Chap.4 – p. 27/76

Chap.4 – p. 28/76

λ1 = 0.27, λ2 = 0.0056, λ3 = 0.0023, λ4 = 0.00062, λ5 = 0.000082.

p1 = 0.969, p2 = 0.989, p3 = 0.997, p4 = 0.9997, p5 = 1.

Chap.4 – p. 29/76

Chap.4 – p. 30/76

Chap.4 – p. 31/76

Chap.4 – p. 32/76

Les directions propres:

(e1, e2, e3, e4, e5) =

−0.45 −0.16 0.44 0.75 0.11−0.39 0.91 0.10 −0.09 −0.06−0.45 −0.20 −0.37 0.02 −0.78−0.44 −0.07 −0.67 0.02 0.59−0.50 −0.31 0.46 −0.65 0.14

(interprétation).

Chap.4 – p. 33/76

Chap.4 – p. 34/76

ACP fondée sur les corrélations

Un des inconvénients majeurs de l’ACP est que cette procédure

n’est pas affine-équivariante. En particulier, elle dépend très

fortement de l’échelle des différentes variables Xi (par

exemple, si la variance de X1 est beaucoup plus grande que

celle de tous les autres Xi, la variable X1 va, de façon

indésirable, “consommer” toute la 1ère CP).

Pour cette raison, lorsque les échelles sont très hétérogènes ou

que les Xi sont mesurées dans des unités différentes, on base

plutôt l’ACP sur les données standardisées Zi := (Xi − µi)/√

Σii,

lesquelles ont pour matrice de variance-covariance

R = Var[Z] = Var[(Z1, . . . , Zp)′] = Var[D−1/2X ] = D−1/2ΣD−1/2,

où D est la matrice diagonale telle que Dii = Σii (R est la

matrice de corrélation de X : Rij = Corr[Xi, Xj ]).

Chap.4 – p. 35/76

ACP fondée sur les corrélations

Les CP ne seront alors plus fondées sur Σ, mais sur R.

Donc les CP seront les Yi = u′iZ, i = 1, . . . , p (de variance

respective Var[Yi] = ρi, i = 1 . . . , p), si la décomposition spectrale

de R est R = ULU ′, où

L :=

( ρ1ρ2 . . .

ρp

)

et U = (u1, . . . , up),

(ρ1 ≥ ρ2 ≥ . . . ≥ ρp).

L’équivalent empirique s’obtient en remplaçant R par son

estimateur R̂ fondé sur les corrélations empiriques.

Chap.4 – p. 36/76

Second exemple

Le second exemple traite le jeu de données “iris3” (aussi

disponible dans R), qui reprend les valeurs de

• 4 mesures (en cm)(a) Sepal L. = sepal length,

(b) Sepal W. = sepal width,

(c) Petal L.= petal length,

(d) Petal W. = petal width,

• sur 150 iris.

Remarque: parmi les 150 iris, 50 sont du type setosa, 50 sont du

type versicolor, et 50 sont du type virginica (ici également, on

travaillera sur les log).

Chap.4 – p. 37/76

Chap.4 – p. 38/76

Chap.4 – p. 39/76

Chap.4 – p. 40/76

λ1 = 2.93, λ2 = 0.91, λ3 = 0.13, λ4 = 0.03.

p1 = 0.73, p2 = 0.96, p3 = 0.99, p4 = 1.

Chap.4 – p. 41/76

Chap.4 – p. 42/76

Chap.4 – p. 43/76

Chap.4 – p. 44/76

Les directions propres:

(e1, e2, e3, e4) =

0.50 −0.45 0.71 0.19−0.30 −0.89 −0.33 −0.090.58 −0.03 −0.22 −0.790.57 −0.04 −0.58 0.58

(interprétation).

Chap.4 – p. 45/76

Chap.4 – p. 46/76


4.1. Analyse en composantes principales.

4.2. Analyse discriminante, classification.

4.2.1. Considérations générales.

4.2.2. Classification pour deux populations normales.

4.2.3. Erreurs de classification.

4.2.4. Classification pour m ≥ 3 populations.

4.2.5. Illustrations sur des données réelles.

(4.3. Analyse factorielle.)

Chap.4 – p. 47/76

Considérations générales

L’analyse discriminante et la classification ont pour objectifs de

• séparer en différents groupes des objets appartenant àdiverses populations (par la construction de “discriminants”,

c’est-à-dire de quantités numériques qui différeront autant

que possible d’une population à l’autre), et de

• définir des règles de classification qui permettront de“prédire” à quelle population appartient un nouvel objet.

Remarque: les procédures que nous allons construire (qui

tentent bien entendu de minimiser les cas de misclassification)

devront aussi prendre en compte

• les probabilités à priori qu’une nouvelle observation àclassifier provienne de la population i (i = 1, . . . , m), et

• des coûts de misclassification, qui peuvent ne pas êtresymétriques (exemple).

Chap.4 – p. 48/76


Considérons deux populations π1 et π2, qui sont associées à des

lois de probabilité (sur Rp) absolument continues de densité f1

et f2, respectivement. Ces deux populations diffèrent par leur

position, leur dispersion, ou toute autre caractéristique.

Le problème que nous considérons est le suivant: sur base de la

valeur x = (x1, . . . , xp)′ prise par un p-v.a. X = (X1, . . . , Xp)

′

provenant de π1 ou de π2 (i.e., X ∼ f1 ou X ∼ f2), commentparier de manière raisonnable sur la population dont X est issu?

; Une règle de classification consiste à donner une partition

(R1, R2) de l’ensemble χ des valeurs possibles pour x, telle que

• X sera classifié en π1 si x ∈ R1 et• X sera classifié en π2 si x ∈ R2.

Chap.4 – p. 49/76


Si on se donne des probabilités à priori p1, p2 que X provienne

respectivement de π1 et π2, la probabilité P de misclassification

de X est donnée par

P = p2|1 × p1 + p1|2 × p2,

où

pi|j = P [X ∈ Ri|X ∈ πj ] =∫

Ri

fj(x) dx.

Une procédure de classification (R1, R2) optimale veillera à

minimiser P .

Chap.4 – p. 50/76


Si en outre différents coûts de misclassification doivent être pris

en compte (notons c1|2 et c2|1 respectivement les coûts si on

classifie en π1 un objet provenant de π2 et si on classifie en π2 un

objet provenant de π1), une procédure de classification (R1, R2)

optimale devra cette fois minimiser le coût de misclassification

moyen

E = E[coût|X ∈ π1] p1 + E[coût|X ∈ π2] p2

=(

0 × p1|1 + c2|1 p2|1)

p1 +(

c1|2 p1|2 + 0 × p2|2)

p2

= c2|1 p2|1 p1 + c1|2 p1|2 p2.

Chap.4 – p. 51/76


Le résultat suivant décrit la procédure de classification (R1, R2)

optimale dans ce contexte général:

Théorème: la procédure de classification (R1, R2) qui minimise le

coût de misclassification moyen est donnée par

R1 =

{

x ∈ χ∣

∣

∣

f1(x)

f2(x)≥ c1|2 p2

c2|1 p1

}

et R2 = χ\R1.

Preuve: le coût moyen E sera minimal si l’intégrande de

E = c2|1 p2|1 p1 + c1|2 p1|2 p2 = c2|1 (1 − p1|1) p1 + c1|2 p1|2 p2 = c2|1 p1 +(c1|2 p1|2 p2 − c2|1 p1|1 p1) = c2|1 p1 +

∫

R1(c1|2 f2(x) p2 − c2|1 f1(x) p1) dx

est négatif pour tout x ∈ R1. �

Remarque: il suffit de connâıtre les rapports f1f2 ,c1|2c2|1

et p2p1 pour

déterminer la règle de classification optimale.

Chap.4 – p. 52/76


Quelques cas particuliers:

• Si les probabilités p1, p2 sont égales ou sont inconnues,

R1 =

{

x ∈ χ∣

∣

∣

f1(x)

f2(x)≥ c1|2

c2|1

}

et R2 = χ\R1.

• Si les coûts c1|2, c2|1 sont égaux ou non spécifiés,

R1 =

{

x ∈ χ∣

∣

∣

f1(x)

f2(x)≥ p2

p1

}

et R2 = χ\R1.

• Si p1, p2, c1|2, c2|1 sont non spécifiés,

R1 =

{

x ∈ χ∣

∣

∣

f1(x)

f2(x)≥ 1}

et R2 = χ\R1.

Chap.4 – p. 53/76

Classification pour deux normales

Considérons d’abord le cas où πi = Np(µi, Σi), i = 1, 2, avecΣ1 = Σ2(=: Σ).

; Proposition: soit a := Σ−1(µ1 − µ2). Alors la procédure declassification optimale classifie x en π1 si

a′x ≥ 12a′(µ1 + µ2) + ln

[c1|2 p2

c2|1 p1

]

et en π2 sinon.

Preuve: il découle du théorème qu’il est optimal de classifier x

en π1 si ln[ f1(x)

f2(x)

]

≥ ln[ c1|2 p2

c2|1 p1

]

. Or

ln

[

f1(x)

f2(x)

]

= −12(x − µ1)′Σ−1(x − µ1) +

1

2(x − µ2)′Σ−1(x − µ2)

= (µ1 − µ2)′Σ−1x −1

2(µ′1Σ

−1µ1 − µ′2Σ−1µ2) = a′x −1

2a′(µ1 + µ2). �

Chap.4 – p. 54/76


Remarques:

• Si c1|2 p2c2|1 p1 = 1, il faut donc classifier x en π1 ssi

a′x ≥ 12a′(µ1 + µ2),

c’est-à-dire si la projection de x sur l’axe a est plus proche

de celle de µ1 que de celle de µ2, ou de manière

équivalente, ssi (voir la preuve ci-dessus)

2[

a′x − 12a′(µ1 + µ2)

]

= d2Σ(x, µ2) − d2Σ(x, µ1) ≥ 0;

• dans le cas général, la règle de classification comparedonc les projections de x, de µ1 et de µ2 sur l’axe a et

classifie x en π1, en fonction des coûts et des probabilités à

priori, si a′x − 12a′(µ1 + µ2) est suffisamment grand (interprétation).

Chap.4 – p. 55/76


Il est intéressant de noter que l’axe a de la projection sur laquelle

est fondée la règle de classification est optimal en le sens qu’il

maximise “une certaine distance” entre π1 et π2.

Plus précisément, en utilisant l’inégalité de Cauchy-Schwarz

généralisée vue au Chapitre 3, on a que, ∀v ∈ Rp\{0},

|v′µ1 − v′µ2|2(v′Σv)

≤ (µ1 − µ2)′Σ−1(µ1 − µ2);

et on vérifie facilement (voir la preuve de cette inégalité) que le

maximum est atteint ssi v = λa = λΣ−1(µ1 − µ2), λ ∈ R0.

Remarque: la fonction x 7→ a′x − 12a′(µ1 + µ2) − ln[ c1|2 p2

c2|1 p1

]

sur

laquelle est fondée la règle de classification est appelée

fonction discriminante linéaire de Fisher. On parlera d’analyse

discriminante linéaire.

Chap.4 – p. 56/76


Pour rappel, la règle de classification optimale classifie x en

π1 = Np(µ1, Σ) plutôt qu’en π2 = Np(µ2, Σ) ssi

(µ1 − µ2)′Σ−1x ≥1

2(µ1 − µ2)′Σ−1(µ1 + µ2) + ln

[c1|2 p2

c2|1 p1

]

.

En pratique, µ1, µ2 et Σ sont inconnus et il faut les estimer sur

base d’un échantillon (“training sample”) d’observations

indépendantes X1, . . . , Xn1 ∼ Np(µ1, Σ), Y1, . . . , Yn2 ∼ Np(µ2, Σ).

En utilisant les mêmes notations que dans la section 3.1.4, la règle

empirique consiste alors à classifier x en π1 plutôt qu’en π2 ssi

(X̄ − Ȳ )′S−1pool x ≥1

2(X̄ − Ȳ )′S−1pool(X̄ + Ȳ ) + ln

[c1|2 p2

c2|1 p1

]

.

Chap.4 – p. 57/76


Si on considére plutôt le cas où πi = Np(µi, Σi), i = 1, 2, sans fairel’hypothèse d’égalité des covariances, on obtient alors (en

procédant comme ci-dessus) le résultat suivant (exercice):

; Proposition: soit

k := ln

[ |Σ1||Σ2|

]

+ (µ′1Σ−11 µ1 − µ′2Σ−12 µ2).

Alors la procédure de classification optimale classifie x en π1 si

−12x′(Σ−11 − Σ−12 )x + (µ′1Σ−11 − µ′2Σ−12 )x ≥

k

2+ ln

[c1|2 p2

c2|1 p1

]

et en π2 sinon.

Remarque: pour des raisons évidentes, on parlera cette fois de

règle de classification (et donc d’analyse discriminante)

quadratique.

Chap.4 – p. 58/76


Si on dispose d’un échantillon d’observations indépendantes

X1, . . . , Xn1 ∼ Np(µ1, Σ1), Y1, . . . , Yn2 ∼ Np(µ2, Σ2), la règleempirique classifie dans ce cas x en π1 ssi

−12x′(S−1x − S−1y )x + (X̄ ′S−1x − Ȳ ′S−1y )x ≥

k̂

2+ ln

[c1|2 p2

c2|1 p1

]

,

où

k̂ := ln

[ |Sx||Sy|

]

+ (X̄ ′S−1x X̄ − Ȳ ′S−1y Ȳ ).

Chap.4 – p. 59/76

Erreurs de classification

Comment évaluer la performance d’une règle de classification?

(motivation: comparer différentes règles).

; On peut estimer la probabilité de misclassification pe (ou taux

d’erreur) de cette règle.

Un estimateur simple:

p̂e :=n1,e + n2,en1 + n2

,

où ni,e est le nombre d’observations de l’échantillon provenant

de la population i (i = 1, 2) qui sont misclassifiées.

Malheureusement, p̂e tend à sous-estimer pe (ce qui est dû au

fait que ce sont les mêmes observations qui permettent (i) de

définir la règle de classification et (ii) de l’évaluer).

Chap.4 – p. 60/76


Ceci peut être facilement corrigé en recourant au “sample-splitting”,

c’est-à-dire en cassant l’échantillon original de taille n := ntr + nte en

• un “training sample” (permettant de définir la règle declassification) et

• un “test sample” (permettant de l’évaluer).

L’estimateur de pe qui en résulte est alors évidemment la

proportion de misclassification observée dans l’échantillon-test.

Ceci corrige la sous-estimation de l’estimateur précédent. Mais

• cela requiert de grandes tailles d’échantillons, et• la règle de classification obtenue est moins précise,

puisqu’on “gaspille” des observations destinées à

l’évaluation de la règle.

Chap.4 – p. 61/76


On a donc généralement recours à une méthode de type

“leave-one-out”, “cross-validation”, ou “jackknife” pour estimer pe.

Pour chaque observation de la population 1 (resp., 2), on regarde

si la règle fondée sur les n1 + n2 − 1 observations restantesconduit à misclassifier cette observation en π2 (resp., π1).

On note nℓ1,e (resp., nℓ2,e ) le nombre de telles misclassifications.

On peut montrer que l’estimateur “leave-one-out”

p̂ℓe :=nℓ1,e + n

ℓ2,e

n1 + n2

ne souffre pas du problème de sous-estimation de pe. De plus,

l’échantillon complet est utilisé pour estimer la règle de classification.

Chap.4 – p. 62/76

Classification pour m ≥ 3 populations

Nous considérons le cas de m populations πi (i = 1, . . . , m),

associées à des lois de probabilité (sur Rp) absolument continues

de densité fi (i = 1, . . . , m).

Nous cherchons à déterminer une règle de classification qui vise à

parier sur la population dont est issue la réalisation x d’un p-v.a. X

(que l’on suppose provenir d’une des πi).

Comme dans le cas à deux populations, une telle règle est

complétement déterminée par une partition

(Ri, i = 1, . . . , m)

de l’ensemble χ des valeurs possibles pour x, et consistera à

classifier X en πi ssi x ∈ Ri.

Chap.4 – p. 63/76


Si on note

• ci|j le coût de classification en πi d’un objet de πj ,• pj la probabilité à priori que X provienne de πj et• pi|j := P [X ∈ Ri|X ∈ πj ] =

∫

Rifj(x) dx la probabilité

conditionnelle qu’un objet soit classifié en πi sachant qu’il

provient de πj ,

une procédure de classification (Ri, i = 1, . . . , m) sera dite

optimale si elle minimise le coût de misclassification moyen, qui

s’écrit ici

E =m∑

j=1

E[coût|X ∈ πj ] pj =m∑

j=1

[ m∑

i=1

i 6=j

ci|j pi|j

]

pj .

Chap.4 – p. 64/76


On peut alors montrer le résultat suivant:

Théorème: la procédure de classification qui minimise le coût

de misclassification moyen consiste à classifier x en la population

πi pour laquellem∑

j=1

j 6=i

ci|j pj fj(x)

est minimal.

Remarques:

• Ceci étend bien le résultat vu pour m = 2.• Si les coûts ci|j sont égaux ou non spécifiés, la règle

optimale classifie x en la population πi telle que

pifi(x) = maxj{pjfj(x)}.

Chap.4 – p. 65/76

Classification pour m ≥ 3 normales

Considérons le cas où πi = Np(µi, Σi), i = 1, . . . , m, sans inclure decoûts de misclassification.

; Proposition: soit

dj(x) := −1

2ln |Σj | −

1

2(x − µj)′Σ−1j (x − µj) + ln pj .

Alors la procédure de classification optimale classifie x en πi ssi

di(x) = maxj{dj(x)}.

Preuve: le théorème affirme qu’il est optimal de classifier x en πi

ssi ln(pifi(x)) = maxj{ln(pjfj(x))}. Or

ln(pjfj(x)) = ln pj −p

2ln(2π) − 1

2ln |Σj | −

1

2(x − µj)′Σ−1j (x − µj),

ce qui établit le résultat. �

Chap.4 – p. 66/76


En pratique, on classifiera x en πi ssi

d̂i(x) = maxj

{d̂j(x)},

où

d̂j(x) := −1

2ln |Sj | −

1

2(x − X̄j)′S−1j (x − X̄j) + ln pj .

Bien entendu, X̄j et Sj désignent ici les estimateurs non biaisés

usuels de µi et Σi calculés à partir de m échantillons indépendants

(Xj1, . . . , Xj,nj ),

où Xj1, . . . , Xj,nj sont i.i.d. Np(µj , Σj).

Chap.4 – p. 67/76


Dans le cas particulier où Σi = Σ pour tout i = 1, . . . , m, la règle

de classification revient à classifier x en πi ssi di(x) = maxj{dj(x)},où

dj(x) = −1

2ln |Σ| − 1

2x′Σ−1x + µ′jΣ

−1x − 12µ′jΣ

−1µj + ln pj ,

ou de manière équivalente, à classifier x en πi ssi di(x) = maxj{dj(x)},où

dj(x) := µ′jΣ

−1x − 12µ′jΣ

−1µj + ln pj .

Remarque: dj(x) peut être estimé en remplaçant µj par X̄j et Σ

par

Spool :=(n1 − 1)S1 + (n2 − 1)S2 + . . . + (nm − 1)Sm

n1 + n2 + . . . + nm.

Chap.4 – p. 68/76


Au niveau population, cette règle de classification revient

encore à classifier x en πi ssi di(x) = maxj{dj(x)}, où

dj(x) := −1

2x′Σ−1x + µ′jΣ

−1x − 12µ′jΣ

−1µj + ln pj

= −12(x − µj)′Σ−1(x − µj) + ln pj = −

1

2d2Σ(x, µj) + ln pj

(intuition dans le cas pj = 1/m).

Pour l’analogue empirique, ces nouveaux dj(x) seront bien

entendu estimés par

d̂j(x) := −1

2d2Spool(x, X̄j) + ln pj .

Chap.4 – p. 69/76

Exemple

Nous considérons de nouveau le jeu de données “crabs”, qui

reprend les valeurs de

• 5 mesures morphologiques (en mm)(a) FL = frontal lobe size,

(b) RW = rear width,

(c) CL= carapace length,

(d) CW = carapace width,

(e) BD = body depth,

• sur 200 crabes de l’espèce “leptograpsus variegatus”.

Remarque: 100 crabes sont des mâles. Pour chaque sexe, la

moitié des crabes sont de couleur orange, l’autre de couleur

bleue.

Chap.4 – p. 70/76

Exemple

Considérons le problème de la classification sexuelle, fondée sur

les (log des) variables FL, RW, CL et CW.

Remarque: on a choisi d’écarter la variable BD, car celle-ci est

en fait mesurée de manière différente sur les mâles et sur les

femelles.

Les matrices de variance-covariance empiriques (Sx et Sy) des

deux groupes sont très proches, de sorte qu’il est raisonnable

d’effectuer une analyse discriminante linéaire.

; il nous faut classifier en “mâle” un crabe dont les valeurs des

variables considérées x = (x1, x2, x3, x4)′ sont telles que

s := (X̄ − Ȳ )′S−1pool x −1

2(X̄ − Ȳ )′S−1pool(X̄ + Ȳ ) ≥ ln

[c1|2 p2

c2|1 p1

]

.

Chap.4 – p. 71/76

Pourc1|2 p2c2|1 p1

= 1, ceci donne 6 cas (soit 3%) d’erreurs de classification

(crabes 10, 12, 16, 51, 54, et 55).

M F

M 97 3

F 3 97

Chap.4 – p. 72/76

Pourc1|2 p2c2|1 p1

= 1.5, ceci donne 9 cas (soit 4.5%) d’erreurs de classification

(crabes 2, 7, 10, 12, 16, 19, 44, 55 et 108).

M F

M 92 8

F 1 99

Chap.4 – p. 73/76

Pour une analyse discriminante quadratique (avecc1|2 p2c2|1 p1

= 1), on

obtient 7 cas (soit 3.5%) d’erreurs (crabes 7, 10, 12, 16, 51, 55 et 152).

M F

M 96 4

F 3 97

Chap.4 – p. 74/76

Sur l’estimation de la probabilité de misclassification:

Chap.4 – p. 75/76

Pourc1|2 p2c2|1 p1

= 1, le “leave-one-out” fournit 7 cas (soit 3.5%) d’erreurs

de classification (crabes 10, 12, 16, 51, 54, 55... et 153).

M F

M 97 3

F 4 96

Chap.4 – p. 76/76

Pour l’analyse quadratique, le “leave-one-out” fournit 9 cas (soit 4.5%)

d’erreurs de classification (crabes 1,7,10, 12, 16, 51, 55, 152 et 153).

M F

M 95 5

F 4 96

Chap.4 – p. 77/76

Plan du coursMotivationD'{e}finitionCalculCalculCalculVariance expliqu'{e}eVariance expliqu'{e}eLecture des CPVersion empiriqueVersion empiriqueInf'{e}renceInf'{e}renceInf'{e}renceApproximation par des sous-espacesApproximation par des sous-espacesApproximation par des sous-espacesApproximation par des sous-espacesACP et graphesACP et graphesACP et graphesExempleACP fond'{e}e sur les corr'{e}lationsACP fond'{e}e sur les corr'{e}lationsSecond exempleConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesErreurs de classificationErreurs de classificationErreurs de classificationClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesExempleExemple

Documents

Analyse multivariee´ (Chapitre #4) - Personal Homepageshomepages.ulb.ac.be/.../stuff/Courses/Analmult/chap4s.pdfAnalyse multivariee´ (Chapitre #4) Davy Paindaveine Universite Libre