Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Analyse multivariée
(Chapitre #4)
Davy Paindaveine
Université Libre de Bruxelles
Chap.4 – p. 1/76
Plan du cours
1. Vecteurs aléatoires.
2. Loi normale multivariée.
3. Inférence dans les modèles gaussiens.
4. Méthodes spécifiques à l’analyse multivariée.
5. Inférence dans les modèles non gaussiens.
Chap.4 – p. 2/76
4. Méthodes spécifiques à l’analyse multivariée.
4.1. Analyse en composantes principales.
4.1.1. Motivation, définition et calcul.
4.1.2. Variance expliquée, lectures des CP.
4.1.3. Version empirique, inférence.
4.1.4. Approximation par des sous-espaces.
4.1.5. Illustrations sur des données réelles.
4.2. Analyse discriminante, classification.
(4.3. Analyse factorielle.)
Chap.4 – p. 3/76
Motivation
L’ACP tente d’expliquer la variabilité des données au moyen
d’un petit nombre de combinaisons linéaires des p variables
originales.
Objectifs:
• Réduction de la dimension (souvent, k
Définition
Soit X un p-v.a. dont la loi admet des moments finis d’ordre 2.
Notons Σ = Var[X ].
Définition: les composantes principales sont les combilis Yi = v′iX ,
i = 1, . . . , p, où
v1 := arg maxv∈Sp−1
Var[v′X ],
et
vk := arg maxv∈Sp−1∩Tk−1
Var[v′X ], k = 2, . . . , p,
où Sp−1:= {v ∈ Rp| ‖v‖ = 1} et Tk := {v ∈ Rp|Cov[v′iX, v′X ] = 0, i = 1, . . . , k}.
Remarque: problème d’identifiabilité (discuter).
Chap.4 – p. 5/76
Calcul
Comment calculer ces composantes principales (CP)?
La détermination des CP est trivialle si on a le résultat suivant
(preuve faite au cours).
Lemme: supposons que Σ est symétrique et définie positive.
Notons λ1 ≥ λ2 ≥ . . . ≥ λp(> 0) ses valeurs propres, et prenons desvecteurs propres de norme 1 associés e1, e2, . . . , ep. Alors (i)
maxv∈Sp−1
v′Σv = λ1 (atteint en v = e1)
et (ii), pour tout k = 2, . . . , p,
maxv∈Sp−1∩{e1,...,ek−1}⊥
v′Σv = λk (atteint en v = ek).
Chap.4 – p. 6/76
Calcul
Puisque Var[v′X ] = v′Σv, on obtient directement que
v1 = arg maxv∈Sp−1
Var[v′X ] = e1 (avec Var[v′1X ] = λ1).
D’autre part, comme Cov[v′X, v′1X ] = v′Σv1 = λ1(v
′e1), on a que
Cov[v′X, v′1X ] = 0 ssi v ⊥ e1. Donc le lemme fournit
v2 = arg maxv∈Sp−1∩T1
Var[v′X ] = e2 (avec Var[v′2X ] = λ2).
En continuant comme ceci, on obtient que vi = ei pour tout
i = 1, . . . , p.
; Les CP sont donc les variables Yi = e′iX , i = 1, . . . , p.
Chap.4 – p. 7/76
Calcul
Si on a la décomposition spectrale Σ = OΛO′ de Σ, où
Λ :=
( λ1λ2 . . .
λp
)
et O = (e1, . . . , ep),
(λ1 ≥ λ2 ≥ . . . ≥ λp), le vecteur Y = (Y1, . . . , Yp)′ des CP est doncdonné par
Y =
( e′1X...
e′pX
)
= O′X.
Remarque: le vecteur Y des CP s’obtient donc en effectuant
une rotation du vecteur original X .
Chap.4 – p. 8/76
Variance expliquée
Quelle est la part de la variabilité totale trΣ =∑p
i=1 Var[Xi], qui
est expliquée par les k premières CP?
Comme Var[Yi] = Var[e′iX ] = e
′iΣei = λi, on a que la variabilité
totale se décompose en trΣ = tr (OΛO′) =∑p
i=1 λi =∑p
i=1 Var[Yi],
de sorte que la part de la variabilité expliquée par les k
premières CP est
pk :=
∑ki=1 λi
∑pi=1 λi
.
Si une grande proportion de la variabilité est expliquée par un
petit nombre k0 de CP, celles-ci peuvent avantageusement
remplacer les variables Xi d’origine en ne perdant que très peu
d’information.
Chap.4 – p. 9/76
Variance expliquée
Comment peut-on choisir le nombre k0 de CP “à conserver”?
On est généralement satisfait lorsqu’au moins 80% (ou 85%...) de
la variabilité est expliquée...
; k0 = min{
k | pk ≥ 0.8}
.
D’autres pratiques courantes consistent à prendre
k0 = max
{
k∣
∣
∣λk > 0.7 ×
(1
p
p∑
i=1
λi
)
}
,
ou à choisir visuellement un k0 ad hoc sur la base d’un graphe
de λi en fonction de i (un “screeplot”):
Chap.4 – p. 10/76
λ1 = 0.27, λ2 = 0.0056, λ3 = 0.0023, λ4 = 0.00062, λ5 = 0.000082.
p1 = 0.969, p2 = 0.989, p3 = 0.997, p4 = 0.9997, p5 = 1.
Chap.4 – p. 11/76
Lecture des CP
Si on note ei = (ei1, . . . , eip)′, la taille de eik mesure l’importance
de Xk dans la CP Yi = e′iX . Le résultat suivant va dans ce sens.
Lemme: pour tout i, k = 1, . . . , p, Corr [Yi, Xk] = (λi/Σkk)1/2 eik.
Exemple: si Σ = Var[(X1, X2, X3)′] est donnée par
(
1 −2 0−2 5 0
0 0 2
)
,
on a λ1 = 5.83, λ2 = 2 et λ3 = 0.17 (dont la somme vaut bien trΣ = 8).
Les CP sont Y1 = −0.383X1 + 0.924X2, Y2 = X3 et Y3 = 0.924X1 + 0.383X2(Y1 et Y2 expliquent (5.83 + 2)/8 × 100% = 98% de la variabilité).
Et Corr [Y1, X1] = 0.925, Corr [Y1, X2] = −0.998, Corr [Y2, X1] = 0,Corr [Y2, X2] = 0 et Corr [Y2, X3] = 1 (X1 et X2 participent de façon
similaire à Y1).
Chap.4 – p. 12/76
Version empirique
Bien entendu, Σ = Var[X ] n’est en général pas connu.
En pratique, si on dispose d’un échantillon d’observations i.i.d.
X1, . . . , Xn (telles que Var[Xi] = Σ), il est naturel de fonder le
calcul des CP sur Σ̂ = S = 1n−1∑n
i=1(Xi − X̄)(Xi − X̄)′.
; CP empiriques Ŷi = ê′iX , i = 1, . . . , p, où on a décomposé S en
S = ÔΛ̂Ô′, avec
Λ̂ :=
( λ̂1λ̂2 . . .
λ̂p
)
et Ô = (ê1, . . . , êp)
(avec λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂p).
Chap.4 – p. 13/76
Version empirique
On peut ainsi obtenir une version empirique de toutes les
quantités définies plus haut (pourcentages de variance
expliquée, corrélations entre CP et variables originales, etc).
Par exemple, l’estimateur de la proportion de variance
expliquée par les k premières CP est
p̂k :=
∑ki=1 λ̂i
∑pi=1 λ̂i
.
Ceci permet de sélectionner en pratique le nombre k0 de CP
nécessaires pour conduire l’analyse.
Remarque: au delà de l’estimation de pk, il serait souhaitable
d’obtenir des intervalles de confiance sur cette quantité.
Chap.4 – p. 14/76
Inférence
Supposons que X1, . . . , Xn sont i.i.d. Np(µ, Σ) et que les p valeurspropres λi, i = 1, . . . , p de Σ sont distinctes deux à deux.
Alors on peut montrer que:
Proposition: soient λ̂ = (λ̂1, . . . , λ̂p)′ et λ = (λ1, . . . , λp)
′. Alors, si
n → ∞, √n(
λ̂ − λ) L→ Np(0, 2Λ2),
où Λ désigne encore la matrice diagonale telle que Λii = λi.
Il découle directement de ce résultat qu’un intervalle de
confiance asymptotique pour λi au niveau de confiance 1 − αest donné par
(
1 ± Φ−1(
1 − α2
)
√
2/n)−1
λ̂i
(exercice).
Chap.4 – p. 15/76
Inférence
Le résultat suivant découle directement de la méthode delta.
Proposition: soit f : Rp → R une fonction de classe C1 dans unvoisinage de λ. Alors, si n → ∞,
√n(
f(λ̂) − f(λ)) L→ N1(0, 2τ2),
où τ2 :=∑p
i=1 λ2i
(
∂f∂λi
(λ))2
.
En choisissant
fk(λ) :=
∑ki=1 λi
∑pi=1 λi
,
on en déduit facilement des intervalles de confiance asymptotiques
pour pk = fk(λ), qui sont fondés sur p̂k = fk(λ̂).
Chap.4 – p. 16/76
Inférence
Remarques:
• Dans ce modèle gaussien, on a que n−1n λ̂ est l’estimateurde maximum de vraisemblance pour λ (ceci est similaire
au fait que ce n’est pas S, mais n−1n S =1nW , qui est
l’estimateur de maximum de vraisemblance pour Σ).
• On peut aussi établir des résultats distributionnels sur les êi,i = 1, . . . , p, et en déduire des tests et des zones de
confiance sur ceux-ci.
• Un problème classique (motivé par son rôle possible dansune procédure séquentielle pour choisir k0) consiste à tester
H(k)0 : λk+1 = λk+2 = . . . = λp; pour ce problème, le test derapport de vraisemblance gaussien est similaire au test de
sphéricité vu au chapitre 3 (il compare les moyennes
géométrique et arithmétique des λ̂i, i = k + 1, . . . , p).
Chap.4 – p. 17/76
Approximation par des sous-espaces
Soit W = (w1, . . . , wk) une matrice p× k (k < p) telle que W ′W = Ik(les colonnes de W sont donc des vecteurs orthonormés).
Notons πa,W le sous-espace affin
{
a +k∑
i=1
αiwi |α1, . . . , αk ∈ R}
.
Soit Pa,W la projection orthogonale sur πa,W . Il est facile de
vérifier que
Pa,W (x) = a + W[
W ′W]−1
W ′(x − a) = a + WW ′(x − a).
Question: quel est le sous-espace affin πa,W de dimension k (fixe) qui
approxime le mieux l’échantillon X1, . . . , Xn dans sens qu’il minimise
n∑
i=1
‖Xi − Pa,W (Xi)‖2 ?
Chap.4 – p. 18/76
Approximation par des sous-espaces
Le résultat suivant montre que ce meilleur sous-espace est
le translaté en la moyenne arithmétique X̄ du k-vectoriel qui est
engendré par les k premières directions principales.
Proposition: posons W(k)CP := (ê1, . . . , êk). Alors
arg minπa,W
n∑
i=1
‖Xi − Pa,W (Xi)‖2 = πX̄,W (k)CP
.
Remarque: si, comme on le fait souvent, on centre les
observations Xi (; Xi − X̄, i = 1, . . . , n), le meilleur sous-espacede dimension k approximant les Xi − X̄ est alors simplementπ
0,W(k)
CP
lui-même.
Chap.4 – p. 19/76
Approximation par des sous-espaces
Preuve de la proposition: puisque Ip − WW ′ est symétrique etidempotente, on obtient
n∑
i=1
‖Xi − Pa,W (Xi)‖2 =n∑
i=1
‖Xi − (a + WW ′(Xi − a))‖2
=n∑
i=1
‖(Ip − WW ′)(Xi − a)‖2 =n∑
i=1
(Xi − a)′(Ip − WW ′)(Xi − a).
Donc, en décomposant Xi − a en (Xi − X̄) + (X̄ − a), cecidevient
n∑
i=1
(Xi − X̄)′(Ip − WW ′)(Xi − X̄) + n(X̄ − a)′(Ip − WW ′)(X̄ − a)
= (n − 1)tr[S(Ip − WW ′)] + n ‖(Ip − WW ′)(X̄ − a)‖2
= (n − 1)tr[S] − (n − 1)tr[SWW ′] + n ‖(Ip − WW ′)(X̄ − a)‖2.
Chap.4 – p. 20/76
Approximation par des sous-espaces
On a donc obtenu
n∑
i=1
‖Xi−Pa,W Xi‖2 = (n−1)tr[S]−(n−1)tr[SWW ′]+n ‖(Ip−WW ′)(X̄−a)‖2.
Le 1er terme ne dépend ni de a, ni de W . Le 3ème est nul ssi
WW ′(X̄ − a) = X̄ − a, c’est-à-dire ssi a ∈ πX̄,W . Quant au 2nd,
tr[SWW ′] = tr[
Sk∑
i=1
wiw′i
]
=k∑
i=1
w′iSwi,
qui, comme on l’a vu dans le lemme du début du chapitre
(prendre Σ = S), est maximisé en wi = êi, i = 1, . . . , k. �
Remarque: on obtient aussi que la valeur minimale est donnée
par (n − 1)(tr[S] −∑ki=1 tr[ê′iSêi]) = (n − 1)∑p
i=k+1 λ̂i.
Chap.4 – p. 21/76
ACP et graphes
Chaque observation Xi peut s’écrire Xi = X̄ + Ŷi1ê1 + . . . + Ŷipêp,
où Ŷij = ê′j(Xi − X̄).
• L’approximation donnée par les k premières CP est
X̂(k)i := X̄ + Ŷi1ê1 + . . . + Ŷikêk (= PX̄,W (k)
CP
(Xi − X̄)).
• La taille des p − k dernières CP mesure la qualité de cetteapproximation, puisque
‖Xi − X̂(k)i ‖2 = ‖Ŷi,k+1êk+1 + . . . + Ŷipêp‖2 = Ŷ 2i,k+1 + . . . + Ŷ 2ip.
Des observations aberrantes seront indiquées par de grandes
valeurs de ‖Xi − X̂(k)i ‖2.
Chap.4 – p. 22/76
ACP et graphes
(a) Il est traditionnel de rapporter sur un graphe les traces des
observations sur la première droite principale Ŷi1, i = 1, . . . , n, ou
sur le premier plan principal (Ŷi1, Ŷi2), i = 1, . . . , n.
Remarques:
• De même, on peut considérer quelques-uns des droites etplans principaux suivants.
• Ces premiers sous-espaces principaux, outre leur intérêt entant que “sous-espaces de variabilité maximale” et de
“meilleures approximations des données”, permettent aussi
de vérifier de façon informelle la normalité des données
(Q-Q plot sur les droites principales, ellipticité dans les plans
principaux, etc).
Chap.4 – p. 23/76
ACP et graphes
(b) on peut aussi penser à rapporter sur un graphe les traces des
observations sur les dernières droites principales
Ŷir, i = 1, . . . , n (r grand),
ou sur les derniers plans principaux
(Ŷir, Ŷis), i = 1, . . . , n (r, s grands),
dans le but de détecter des éventuelles observations
aberrantes.
Chap.4 – p. 24/76
Exemple
Nous considérons le jeu de données “crabs” (disponible dans R),
qui reprend les valeurs de
• 5 mesures morphologiques (en mm)(a) FL = frontal lobe size,
(b) RW = rear width,
(c) CL= carapace length,
(d) CW = carapace width,
(e) BD = body depth,
• sur 200 crabes de l’espèce “leptograpsus variegatus”(Fremantle, Australie).
Remarque: 100 crabes sont des mâles. Pour chaque sexe, la
moitié des crabes sont de couleur orange, l’autre de couleur
bleue (autre point: on va travailler sur les log de ces variables).
Chap.4 – p. 25/76
Chap.4 – p. 26/76
Chap.4 – p. 27/76
Chap.4 – p. 28/76
λ1 = 0.27, λ2 = 0.0056, λ3 = 0.0023, λ4 = 0.00062, λ5 = 0.000082.
p1 = 0.969, p2 = 0.989, p3 = 0.997, p4 = 0.9997, p5 = 1.
Chap.4 – p. 29/76
Chap.4 – p. 30/76
Chap.4 – p. 31/76
Chap.4 – p. 32/76
Les directions propres:
(e1, e2, e3, e4, e5) =
−0.45 −0.16 0.44 0.75 0.11−0.39 0.91 0.10 −0.09 −0.06−0.45 −0.20 −0.37 0.02 −0.78−0.44 −0.07 −0.67 0.02 0.59−0.50 −0.31 0.46 −0.65 0.14
(interprétation).
Chap.4 – p. 33/76
Chap.4 – p. 34/76
ACP fondée sur les corrélations
Un des inconvénients majeurs de l’ACP est que cette procédure
n’est pas affine-équivariante. En particulier, elle dépend très
fortement de l’échelle des différentes variables Xi (par
exemple, si la variance de X1 est beaucoup plus grande que
celle de tous les autres Xi, la variable X1 va, de façon
indésirable, “consommer” toute la 1ère CP).
Pour cette raison, lorsque les échelles sont très hétérogènes ou
que les Xi sont mesurées dans des unités différentes, on base
plutôt l’ACP sur les données standardisées Zi := (Xi − µi)/√
Σii,
lesquelles ont pour matrice de variance-covariance
R = Var[Z] = Var[(Z1, . . . , Zp)′] = Var[D−1/2X ] = D−1/2ΣD−1/2,
où D est la matrice diagonale telle que Dii = Σii (R est la
matrice de corrélation de X : Rij = Corr[Xi, Xj ]).
Chap.4 – p. 35/76
ACP fondée sur les corrélations
Les CP ne seront alors plus fondées sur Σ, mais sur R.
Donc les CP seront les Yi = u′iZ, i = 1, . . . , p (de variance
respective Var[Yi] = ρi, i = 1 . . . , p), si la décomposition spectrale
de R est R = ULU ′, où
L :=
( ρ1ρ2 . . .
ρp
)
et U = (u1, . . . , up),
(ρ1 ≥ ρ2 ≥ . . . ≥ ρp).
L’équivalent empirique s’obtient en remplaçant R par son
estimateur R̂ fondé sur les corrélations empiriques.
Chap.4 – p. 36/76
Second exemple
Le second exemple traite le jeu de données “iris3” (aussi
disponible dans R), qui reprend les valeurs de
• 4 mesures (en cm)(a) Sepal L. = sepal length,
(b) Sepal W. = sepal width,
(c) Petal L.= petal length,
(d) Petal W. = petal width,
• sur 150 iris.
Remarque: parmi les 150 iris, 50 sont du type setosa, 50 sont du
type versicolor, et 50 sont du type virginica (ici également, on
travaillera sur les log).
Chap.4 – p. 37/76
Chap.4 – p. 38/76
Chap.4 – p. 39/76
Chap.4 – p. 40/76
λ1 = 2.93, λ2 = 0.91, λ3 = 0.13, λ4 = 0.03.
p1 = 0.73, p2 = 0.96, p3 = 0.99, p4 = 1.
Chap.4 – p. 41/76
Chap.4 – p. 42/76
Chap.4 – p. 43/76
Chap.4 – p. 44/76
Les directions propres:
(e1, e2, e3, e4) =
0.50 −0.45 0.71 0.19−0.30 −0.89 −0.33 −0.090.58 −0.03 −0.22 −0.790.57 −0.04 −0.58 0.58
(interprétation).
Chap.4 – p. 45/76
Chap.4 – p. 46/76
4. Méthodes spécifiques à l’analyse multivariée.
4.1. Analyse en composantes principales.
4.2. Analyse discriminante, classification.
4.2.1. Considérations générales.
4.2.2. Classification pour deux populations normales.
4.2.3. Erreurs de classification.
4.2.4. Classification pour m ≥ 3 populations.
4.2.5. Illustrations sur des données réelles.
(4.3. Analyse factorielle.)
Chap.4 – p. 47/76
Considérations générales
L’analyse discriminante et la classification ont pour objectifs de
• séparer en différents groupes des objets appartenant àdiverses populations (par la construction de “discriminants”,
c’est-à-dire de quantités numériques qui différeront autant
que possible d’une population à l’autre), et de
• définir des règles de classification qui permettront de“prédire” à quelle population appartient un nouvel objet.
Remarque: les procédures que nous allons construire (qui
tentent bien entendu de minimiser les cas de misclassification)
devront aussi prendre en compte
• les probabilités à priori qu’une nouvelle observation àclassifier provienne de la population i (i = 1, . . . , m), et
• des coûts de misclassification, qui peuvent ne pas êtresymétriques (exemple).
Chap.4 – p. 48/76
Considérations générales
Considérons deux populations π1 et π2, qui sont associées à des
lois de probabilité (sur Rp) absolument continues de densité f1
et f2, respectivement. Ces deux populations diffèrent par leur
position, leur dispersion, ou toute autre caractéristique.
Le problème que nous considérons est le suivant: sur base de la
valeur x = (x1, . . . , xp)′ prise par un p-v.a. X = (X1, . . . , Xp)
′
provenant de π1 ou de π2 (i.e., X ∼ f1 ou X ∼ f2), commentparier de manière raisonnable sur la population dont X est issu?
; Une règle de classification consiste à donner une partition
(R1, R2) de l’ensemble χ des valeurs possibles pour x, telle que
• X sera classifié en π1 si x ∈ R1 et• X sera classifié en π2 si x ∈ R2.
Chap.4 – p. 49/76
Considérations générales
Si on se donne des probabilités à priori p1, p2 que X provienne
respectivement de π1 et π2, la probabilité P de misclassification
de X est donnée par
P = p2|1 × p1 + p1|2 × p2,
où
pi|j = P [X ∈ Ri|X ∈ πj ] =∫
Ri
fj(x) dx.
Une procédure de classification (R1, R2) optimale veillera à
minimiser P .
Chap.4 – p. 50/76
Considérations générales
Si en outre différents coûts de misclassification doivent être pris
en compte (notons c1|2 et c2|1 respectivement les coûts si on
classifie en π1 un objet provenant de π2 et si on classifie en π2 un
objet provenant de π1), une procédure de classification (R1, R2)
optimale devra cette fois minimiser le coût de misclassification
moyen
E = E[coût|X ∈ π1] p1 + E[coût|X ∈ π2] p2
=(
0 × p1|1 + c2|1 p2|1)
p1 +(
c1|2 p1|2 + 0 × p2|2)
p2
= c2|1 p2|1 p1 + c1|2 p1|2 p2.
Chap.4 – p. 51/76
Considérations générales
Le résultat suivant décrit la procédure de classification (R1, R2)
optimale dans ce contexte général:
Théorème: la procédure de classification (R1, R2) qui minimise le
coût de misclassification moyen est donnée par
R1 =
{
x ∈ χ∣
∣
∣
f1(x)
f2(x)≥ c1|2 p2
c2|1 p1
}
et R2 = χ\R1.
Preuve: le coût moyen E sera minimal si l’intégrande de
E = c2|1 p2|1 p1 + c1|2 p1|2 p2 = c2|1 (1 − p1|1) p1 + c1|2 p1|2 p2 = c2|1 p1 +(c1|2 p1|2 p2 − c2|1 p1|1 p1) = c2|1 p1 +
∫
R1(c1|2 f2(x) p2 − c2|1 f1(x) p1) dx
est négatif pour tout x ∈ R1. �
Remarque: il suffit de connâıtre les rapports f1f2 ,c1|2c2|1
et p2p1 pour
déterminer la règle de classification optimale.
Chap.4 – p. 52/76
Considérations générales
Quelques cas particuliers:
• Si les probabilités p1, p2 sont égales ou sont inconnues,
R1 =
{
x ∈ χ∣
∣
∣
f1(x)
f2(x)≥ c1|2
c2|1
}
et R2 = χ\R1.
• Si les coûts c1|2, c2|1 sont égaux ou non spécifiés,
R1 =
{
x ∈ χ∣
∣
∣
f1(x)
f2(x)≥ p2
p1
}
et R2 = χ\R1.
• Si p1, p2, c1|2, c2|1 sont non spécifiés,
R1 =
{
x ∈ χ∣
∣
∣
f1(x)
f2(x)≥ 1}
et R2 = χ\R1.
Chap.4 – p. 53/76
Classification pour deux normales
Considérons d’abord le cas où πi = Np(µi, Σi), i = 1, 2, avecΣ1 = Σ2(=: Σ).
; Proposition: soit a := Σ−1(µ1 − µ2). Alors la procédure declassification optimale classifie x en π1 si
a′x ≥ 12a′(µ1 + µ2) + ln
[c1|2 p2
c2|1 p1
]
et en π2 sinon.
Preuve: il découle du théorème qu’il est optimal de classifier x
en π1 si ln[ f1(x)
f2(x)
]
≥ ln[ c1|2 p2
c2|1 p1
]
. Or
ln
[
f1(x)
f2(x)
]
= −12(x − µ1)′Σ−1(x − µ1) +
1
2(x − µ2)′Σ−1(x − µ2)
= (µ1 − µ2)′Σ−1x −1
2(µ′1Σ
−1µ1 − µ′2Σ−1µ2) = a′x −1
2a′(µ1 + µ2). �
Chap.4 – p. 54/76
Classification pour deux normales
Remarques:
• Si c1|2 p2c2|1 p1 = 1, il faut donc classifier x en π1 ssi
a′x ≥ 12a′(µ1 + µ2),
c’est-à-dire si la projection de x sur l’axe a est plus proche
de celle de µ1 que de celle de µ2, ou de manière
équivalente, ssi (voir la preuve ci-dessus)
2[
a′x − 12a′(µ1 + µ2)
]
= d2Σ(x, µ2) − d2Σ(x, µ1) ≥ 0;
• dans le cas général, la règle de classification comparedonc les projections de x, de µ1 et de µ2 sur l’axe a et
classifie x en π1, en fonction des coûts et des probabilités à
priori, si a′x − 12a′(µ1 + µ2) est suffisamment grand (interprétation).
Chap.4 – p. 55/76
Classification pour deux normales
Il est intéressant de noter que l’axe a de la projection sur laquelle
est fondée la règle de classification est optimal en le sens qu’il
maximise “une certaine distance” entre π1 et π2.
Plus précisément, en utilisant l’inégalité de Cauchy-Schwarz
généralisée vue au Chapitre 3, on a que, ∀v ∈ Rp\{0},
|v′µ1 − v′µ2|2(v′Σv)
≤ (µ1 − µ2)′Σ−1(µ1 − µ2);
et on vérifie facilement (voir la preuve de cette inégalité) que le
maximum est atteint ssi v = λa = λΣ−1(µ1 − µ2), λ ∈ R0.
Remarque: la fonction x 7→ a′x − 12a′(µ1 + µ2) − ln[ c1|2 p2
c2|1 p1
]
sur
laquelle est fondée la règle de classification est appelée
fonction discriminante linéaire de Fisher. On parlera d’analyse
discriminante linéaire.
Chap.4 – p. 56/76
Classification pour deux normales
Pour rappel, la règle de classification optimale classifie x en
π1 = Np(µ1, Σ) plutôt qu’en π2 = Np(µ2, Σ) ssi
(µ1 − µ2)′Σ−1x ≥1
2(µ1 − µ2)′Σ−1(µ1 + µ2) + ln
[c1|2 p2
c2|1 p1
]
.
En pratique, µ1, µ2 et Σ sont inconnus et il faut les estimer sur
base d’un échantillon (“training sample”) d’observations
indépendantes X1, . . . , Xn1 ∼ Np(µ1, Σ), Y1, . . . , Yn2 ∼ Np(µ2, Σ).
En utilisant les mêmes notations que dans la section 3.1.4, la règle
empirique consiste alors à classifier x en π1 plutôt qu’en π2 ssi
(X̄ − Ȳ )′S−1pool x ≥1
2(X̄ − Ȳ )′S−1pool(X̄ + Ȳ ) + ln
[c1|2 p2
c2|1 p1
]
.
Chap.4 – p. 57/76
Classification pour deux normales
Si on considére plutôt le cas où πi = Np(µi, Σi), i = 1, 2, sans fairel’hypothèse d’égalité des covariances, on obtient alors (en
procédant comme ci-dessus) le résultat suivant (exercice):
; Proposition: soit
k := ln
[ |Σ1||Σ2|
]
+ (µ′1Σ−11 µ1 − µ′2Σ−12 µ2).
Alors la procédure de classification optimale classifie x en π1 si
−12x′(Σ−11 − Σ−12 )x + (µ′1Σ−11 − µ′2Σ−12 )x ≥
k
2+ ln
[c1|2 p2
c2|1 p1
]
et en π2 sinon.
Remarque: pour des raisons évidentes, on parlera cette fois de
règle de classification (et donc d’analyse discriminante)
quadratique.
Chap.4 – p. 58/76
Classification pour deux normales
Si on dispose d’un échantillon d’observations indépendantes
X1, . . . , Xn1 ∼ Np(µ1, Σ1), Y1, . . . , Yn2 ∼ Np(µ2, Σ2), la règleempirique classifie dans ce cas x en π1 ssi
−12x′(S−1x − S−1y )x + (X̄ ′S−1x − Ȳ ′S−1y )x ≥
k̂
2+ ln
[c1|2 p2
c2|1 p1
]
,
où
k̂ := ln
[ |Sx||Sy|
]
+ (X̄ ′S−1x X̄ − Ȳ ′S−1y Ȳ ).
Chap.4 – p. 59/76
Erreurs de classification
Comment évaluer la performance d’une règle de classification?
(motivation: comparer différentes règles).
; On peut estimer la probabilité de misclassification pe (ou taux
d’erreur) de cette règle.
Un estimateur simple:
p̂e :=n1,e + n2,en1 + n2
,
où ni,e est le nombre d’observations de l’échantillon provenant
de la population i (i = 1, 2) qui sont misclassifiées.
Malheureusement, p̂e tend à sous-estimer pe (ce qui est dû au
fait que ce sont les mêmes observations qui permettent (i) de
définir la règle de classification et (ii) de l’évaluer).
Chap.4 – p. 60/76
Erreurs de classification
Ceci peut être facilement corrigé en recourant au “sample-splitting”,
c’est-à-dire en cassant l’échantillon original de taille n := ntr + nte en
• un “training sample” (permettant de définir la règle declassification) et
• un “test sample” (permettant de l’évaluer).
L’estimateur de pe qui en résulte est alors évidemment la
proportion de misclassification observée dans l’échantillon-test.
Ceci corrige la sous-estimation de l’estimateur précédent. Mais
• cela requiert de grandes tailles d’échantillons, et• la règle de classification obtenue est moins précise,
puisqu’on “gaspille” des observations destinées à
l’évaluation de la règle.
Chap.4 – p. 61/76
Erreurs de classification
On a donc généralement recours à une méthode de type
“leave-one-out”, “cross-validation”, ou “jackknife” pour estimer pe.
Pour chaque observation de la population 1 (resp., 2), on regarde
si la règle fondée sur les n1 + n2 − 1 observations restantesconduit à misclassifier cette observation en π2 (resp., π1).
On note nℓ1,e (resp., nℓ2,e ) le nombre de telles misclassifications.
On peut montrer que l’estimateur “leave-one-out”
p̂ℓe :=nℓ1,e + n
ℓ2,e
n1 + n2
ne souffre pas du problème de sous-estimation de pe. De plus,
l’échantillon complet est utilisé pour estimer la règle de classification.
Chap.4 – p. 62/76
Classification pour m ≥ 3 populations
Nous considérons le cas de m populations πi (i = 1, . . . , m),
associées à des lois de probabilité (sur Rp) absolument continues
de densité fi (i = 1, . . . , m).
Nous cherchons à déterminer une règle de classification qui vise à
parier sur la population dont est issue la réalisation x d’un p-v.a. X
(que l’on suppose provenir d’une des πi).
Comme dans le cas à deux populations, une telle règle est
complétement déterminée par une partition
(Ri, i = 1, . . . , m)
de l’ensemble χ des valeurs possibles pour x, et consistera à
classifier X en πi ssi x ∈ Ri.
Chap.4 – p. 63/76
Classification pour m ≥ 3 populations
Si on note
• ci|j le coût de classification en πi d’un objet de πj ,• pj la probabilité à priori que X provienne de πj et• pi|j := P [X ∈ Ri|X ∈ πj ] =
∫
Rifj(x) dx la probabilité
conditionnelle qu’un objet soit classifié en πi sachant qu’il
provient de πj ,
une procédure de classification (Ri, i = 1, . . . , m) sera dite
optimale si elle minimise le coût de misclassification moyen, qui
s’écrit ici
E =m∑
j=1
E[coût|X ∈ πj ] pj =m∑
j=1
[ m∑
i=1
i 6=j
ci|j pi|j
]
pj .
Chap.4 – p. 64/76
Classification pour m ≥ 3 populations
On peut alors montrer le résultat suivant:
Théorème: la procédure de classification qui minimise le coût
de misclassification moyen consiste à classifier x en la population
πi pour laquellem∑
j=1
j 6=i
ci|j pj fj(x)
est minimal.
Remarques:
• Ceci étend bien le résultat vu pour m = 2.• Si les coûts ci|j sont égaux ou non spécifiés, la règle
optimale classifie x en la population πi telle que
pifi(x) = maxj{pjfj(x)}.
Chap.4 – p. 65/76
Classification pour m ≥ 3 normales
Considérons le cas où πi = Np(µi, Σi), i = 1, . . . , m, sans inclure decoûts de misclassification.
; Proposition: soit
dj(x) := −1
2ln |Σj | −
1
2(x − µj)′Σ−1j (x − µj) + ln pj .
Alors la procédure de classification optimale classifie x en πi ssi
di(x) = maxj{dj(x)}.
Preuve: le théorème affirme qu’il est optimal de classifier x en πi
ssi ln(pifi(x)) = maxj{ln(pjfj(x))}. Or
ln(pjfj(x)) = ln pj −p
2ln(2π) − 1
2ln |Σj | −
1
2(x − µj)′Σ−1j (x − µj),
ce qui établit le résultat. �
Chap.4 – p. 66/76
Classification pour m ≥ 3 normales
En pratique, on classifiera x en πi ssi
d̂i(x) = maxj
{d̂j(x)},
où
d̂j(x) := −1
2ln |Sj | −
1
2(x − X̄j)′S−1j (x − X̄j) + ln pj .
Bien entendu, X̄j et Sj désignent ici les estimateurs non biaisés
usuels de µi et Σi calculés à partir de m échantillons indépendants
(Xj1, . . . , Xj,nj ),
où Xj1, . . . , Xj,nj sont i.i.d. Np(µj , Σj).
Chap.4 – p. 67/76
Classification pour m ≥ 3 normales
Dans le cas particulier où Σi = Σ pour tout i = 1, . . . , m, la règle
de classification revient à classifier x en πi ssi di(x) = maxj{dj(x)},où
dj(x) = −1
2ln |Σ| − 1
2x′Σ−1x + µ′jΣ
−1x − 12µ′jΣ
−1µj + ln pj ,
ou de manière équivalente, à classifier x en πi ssi di(x) = maxj{dj(x)},où
dj(x) := µ′jΣ
−1x − 12µ′jΣ
−1µj + ln pj .
Remarque: dj(x) peut être estimé en remplaçant µj par X̄j et Σ
par
Spool :=(n1 − 1)S1 + (n2 − 1)S2 + . . . + (nm − 1)Sm
n1 + n2 + . . . + nm.
Chap.4 – p. 68/76
Classification pour m ≥ 3 normales
Au niveau population, cette règle de classification revient
encore à classifier x en πi ssi di(x) = maxj{dj(x)}, où
dj(x) := −1
2x′Σ−1x + µ′jΣ
−1x − 12µ′jΣ
−1µj + ln pj
= −12(x − µj)′Σ−1(x − µj) + ln pj = −
1
2d2Σ(x, µj) + ln pj
(intuition dans le cas pj = 1/m).
Pour l’analogue empirique, ces nouveaux dj(x) seront bien
entendu estimés par
d̂j(x) := −1
2d2Spool(x, X̄j) + ln pj .
Chap.4 – p. 69/76
Exemple
Nous considérons de nouveau le jeu de données “crabs”, qui
reprend les valeurs de
• 5 mesures morphologiques (en mm)(a) FL = frontal lobe size,
(b) RW = rear width,
(c) CL= carapace length,
(d) CW = carapace width,
(e) BD = body depth,
• sur 200 crabes de l’espèce “leptograpsus variegatus”.
Remarque: 100 crabes sont des mâles. Pour chaque sexe, la
moitié des crabes sont de couleur orange, l’autre de couleur
bleue.
Chap.4 – p. 70/76
Exemple
Considérons le problème de la classification sexuelle, fondée sur
les (log des) variables FL, RW, CL et CW.
Remarque: on a choisi d’écarter la variable BD, car celle-ci est
en fait mesurée de manière différente sur les mâles et sur les
femelles.
Les matrices de variance-covariance empiriques (Sx et Sy) des
deux groupes sont très proches, de sorte qu’il est raisonnable
d’effectuer une analyse discriminante linéaire.
; il nous faut classifier en “mâle” un crabe dont les valeurs des
variables considérées x = (x1, x2, x3, x4)′ sont telles que
s := (X̄ − Ȳ )′S−1pool x −1
2(X̄ − Ȳ )′S−1pool(X̄ + Ȳ ) ≥ ln
[c1|2 p2
c2|1 p1
]
.
Chap.4 – p. 71/76
Pourc1|2 p2c2|1 p1
= 1, ceci donne 6 cas (soit 3%) d’erreurs de classification
(crabes 10, 12, 16, 51, 54, et 55).
M F
M 97 3
F 3 97
Chap.4 – p. 72/76
Pourc1|2 p2c2|1 p1
= 1.5, ceci donne 9 cas (soit 4.5%) d’erreurs de classification
(crabes 2, 7, 10, 12, 16, 19, 44, 55 et 108).
M F
M 92 8
F 1 99
Chap.4 – p. 73/76
Pour une analyse discriminante quadratique (avecc1|2 p2c2|1 p1
= 1), on
obtient 7 cas (soit 3.5%) d’erreurs (crabes 7, 10, 12, 16, 51, 55 et 152).
M F
M 96 4
F 3 97
Chap.4 – p. 74/76
Sur l’estimation de la probabilité de misclassification:
Chap.4 – p. 75/76
Pourc1|2 p2c2|1 p1
= 1, le “leave-one-out” fournit 7 cas (soit 3.5%) d’erreurs
de classification (crabes 10, 12, 16, 51, 54, 55... et 153).
M F
M 97 3
F 4 96
Chap.4 – p. 76/76
Pour l’analyse quadratique, le “leave-one-out” fournit 9 cas (soit 4.5%)
d’erreurs de classification (crabes 1,7,10, 12, 16, 51, 55, 152 et 153).
M F
M 95 5
F 4 96
Chap.4 – p. 77/76
Plan du coursMotivationD'{e}finitionCalculCalculCalculVariance expliqu'{e}eVariance expliqu'{e}eLecture des CPVersion empiriqueVersion empiriqueInf'{e}renceInf'{e}renceInf'{e}renceApproximation par des sous-espacesApproximation par des sous-espacesApproximation par des sous-espacesApproximation par des sous-espacesACP et graphesACP et graphesACP et graphesExempleACP fond'{e}e sur les corr'{e}lationsACP fond'{e}e sur les corr'{e}lationsSecond exempleConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesErreurs de classificationErreurs de classificationErreurs de classificationClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesExempleExemple