Cours de Statistiques - The Home of Romain...

Preview:

Citation preview

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Cours de StatistiquesAnalyse en Composantes Principales

Romain Raveaux1

1Laboratoire L3I – Universite de La Rochelleromain.raveaux01 at univ-lr.fr

Octobre 24-11, 2008

1 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Sommaire

1 Quelques Rappels

2 Relations entre deux series de donneesRelations entre deux series de donnees numeriquesRelations entre deux variables ordinales

3 Analyse en Composantes PrincipalesIntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

4 ACP : une explication geometriqueDecripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

5 Conclusion

2 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Type de variable

Numerique

Soit l’etude de la variable X , une serie de valeurs definies dans <.

Exemple: Age, poids,...

Nominale

Ne prend qu’un nombre limite de valeurs.

Et que ces valeurs n’ont entre elles aucune relation apparente.

Exemple : Le statut marital, qui pourrait prendre les valeurs ”Celibataire”,”Marie”, ”Veuf”, ”Divorce”, ”Union libre”.

Ordinale

Ne prend qu’un nombre limite de valeurs.

Et que ces valeurs n’ont entre elles aucune relation apparente.

Les grades dans l’armee: ”lieutenant”, ”capitaine”, ”commandant” etc...

Par nature, les rangs sont des variables ordinales.

Il existe d’autres types de variable : Binaire, Normale,... 3 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Variable et Espace d’etude

Une serie a valeurs individuelles

Soit l’etude de la variable X , une serie de valeurs definies dans<.

Statistiques multi-dimensionnelles

Soit l’etude d’un ensemble fini de variables (Ω), Ω estl’univers des statistiques.

Avec card(Ω) = M

Ω = X1,X2, ...,Xm

∀Xi ∈ Ω, Xi est une serie a valeurs individuelles.

4 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Estimateurs

Soit l’etude de la variable X , une serie de valeurs definies dans <+:

Moyenne d’une serie a valeurs individuelles

X =1

N

N∑i=1

xi

Variance d’une serie a valeurs individuelles

θ2 = V (X ) =N∑

i=1

(xi − X )2

L’ecart type ce deduit de la variance : θ =√

V (X )

5 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Representation de ces estimateurs

Soit l’etude de la variable X suivant une loi normale (ℵ(µ, θ2)), demoyenne µ et de variance θ.

Densite de probabilite d’une loi gaussienne

f (x) =1

θ√

2πe−

12

( x−µθ

)2

Figure: Distrubutions gaussiennes.

6 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Representation de ces estimateurs

Soit l’etude de la variable X suivant une loi normale (ℵ(µ, θ2)), demoyenne µ et de variance θ.

Densite de probabilite d’une loi gaussienne

f (x) =1

θ√

2πe−

12

( x−µθ

)2

Figure: Distrubutions gaussiennes.

7 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Explication intuitive de ces estimateurs

Plus la variance d’un echantillon est grande et plus les donnees sonteparses. Cela peut denoter une erreur dans le phenomene mesure.

8 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Relations entre deux series de donnees observees

Exemples :

Mesurer le poids ou la longueur d’un organe (variabledependante) a differentes dates successives choisiesarbitrairement (variable independante).

Mesurer le rendement d’une culture (variable dependante) enfonction de differentes doses d’engrais (variableindependante).

Mesurer la capacite a resoudre un probleme ou a realiser unetache (variable dependante) en fonction de differentes dosesd’un medicament (variable independante).

9 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Covariance de deux echantillons

Soit l’etude de deux variables X et Y , deux series de valeursdefinies dans <:

Covariance

θxy = cov(X ,Y ) =N∑

i=1

(xi − X )(yi − Y )

La fonction covariance retourne des valeurs comprises dans[−∞,+∞]

X et Y independant =⇒ cov(X ,Y ) = 0

10 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Covariance de deux echantillons

Covariance

θxy = cov(X ,Y ) =N∑

i=1

(xi − X )(yi − Y )

Intuitivement, la covariance est une mesure de la variationsimultanee de deux variables aleatoires.

C’est-a-dire que la covariance devient plus positive pourchaque couple de valeurs qui different de leur moyenne dans lememe sens, et plus negative pour chaque couple de valeursqui different de leur moyenne dans le sens oppose.

11 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Correlation de deux variables aleatoires

Soit l’etude de deux variables X et Y , deux series de valeursdefinies dans <:

Correlation de Bravais-Pearson

cor(X ,Y ) =θxyθx .θy

=cov(X ,Y )√

cov(X ).√

cov(Y )

Le coefficient de correlation est compris entre [−1, 1]

cor(X ,Y ) = 0 =⇒, X et Y sont independant lineairement.

cor(X ,Y ) = 1, une relation affine existe entre X et Y. L’unedes variables est fonction affine croissante de l’autre variable.

cor(X ,Y ) = −1, une relation affine existe entre X et Y. L’unedes variables est fonction affine decroissante de l’autrevariable.

12 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Correlation de Kendall

Soit deux variables ordinales X et Y. La correlation de rangs rendcompte d’une relation non-lineaire entre ces deux variables.τ s’exprime de la facon suivante :

τ =S

D

Ou,S =

∑i<j

(sign(x [i ]− y [i ]).sign(y [i ]− x [i ])) (1)

et,

D =k(k − 1)

2(2)

13 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Mapping de Rn dans Rk . Avec k ≤ n.

Projection dans un espace 2D d’un probleme a n dimensions.

Systeme d’axes independants.

Reduction de la dimensionalite d’un probleme.

Perte d’information.

Decomposition en valeurs propres. Transformation deKarhunen-Loeve.

Le nouvel espace est une combinaison lineaire de l’espaced’origine.

14 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Centrer et Reduire une Matrice

Soit S la matrice des echantillons.

S contient k vecteurs colonnes. X1,...,Xk

Soit Xi un vecteur colonne a n valeurs.

k variables.

n echantillons par variable.

15 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Centrer et Reduire une Matrice (SCR)

Matrice des donnees brutes:

m11 m12 m13 ... m1km21 m22 m23 ... m2k... ... ... ... ...

mn1 ... ... ... mnk

Calcul des moyennes et des variances pour chaque serie dedonnees:

M1 M2 M3 ... Mkσ1 σ2 σ3 ... σk

Centere et reduire la matrice :

(m11 − M1)/σ1 (m12 − M2)/σ2 ... (m1k − Mk )/σk(m21 − M1)/σ1 (m22 − M2)/σ2 ... (m2k − Mk )/σk

... ... ... ...(mn1 − M1)/σ1 (mn2 − M2)/σ2 ... (mnk − Mk )/σk

16 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Matrice des Covariances (COVMAT)

A partir de la matrice centree reduite.

Construire une matrice carree.

Rend compte des interactions entre des pairs de variablesnumeriques.

Relations affines seulement.

cov(SCR.0, SCR.0) cov(SCR.0, SCR.1) cov(SCR.0, SCR.2) ... cov(SCR.0, SCR.k )cov(SCR.1, SCR.0) cov(SCR.1, SCR.1) cov(SCR.1, SCR.2) ... cov(SCR.1, SCR.k )

... ... ... ... ...cov(SCR.k , SCR.0) cov(SCR.k , SCR.1) cov(SCR.k , SCR.2) ... cov(SCR.k , SCR.k )

17 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Recherche des valeurs propres et des vecteurs propres

Resoudre : Det(COVMAT − λI ) = 0 pour calculer les valeurspropres.

Calcul des vecteurs propres. Resoudre :(COVMAT − λ1 a k I )U = 0

Soit V la matrice des vecteurs propres.

Projection de SCR dans l’espace ACP. ACP = SCR.V

A =

(1 −3−2 2

)

A − λI =

(1 − λ −3−2 2 − λ

)det(A − λI ) = 0; (1 − λ)(2 − λ) − 6 = 0

λ2 − 3λ− 4 = 0

λ1 = −1; λ2 = 4

18 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Recherche des valeurs propres et des vecteurs propres

Les vecteurs propres associes a la valeur propre -1 sont ceux quiverifient :(

2 −3−2 3

).

(xy

)= 0

Soit, 2x − 3y = 0, E−1 la droite engendree par

(23

)(−3 −3−2 −2

).

(xy

)= 0

Soit, −3x − 3y = 0, E4 la droite engendree par

(1−1

)

La matrice des vecteurs propres : V =

(2 13 −1

)

19 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Inertie et information

Les valeurs propres nous indiquent le pourcentage d’informaionportee par chaque axe factoriel.Taux d’information :

λj

k∑i=1

(λi )

20 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Conservation de l’information

Il est possible de fixer un taux d’information a garantir (τ): Parexemple, nous souhaitons que dans le nouvel espace cible 90% del’information soit conservee. Pour ce faire nous trions les valeurspropres et retenons les ”p” plus grandes valeurs jusqu’a obtenir letaux d’information desire.

Tri(λ = λiki=1)

Garder les ”p” plus grandes valeurs.

Tant que

p∑i=1

(λi ) ≤ τ

21 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Une petite application ludique

Nous avons tous des miliers de photos sur nos PCs et cela prend beaucoup de place sur nos disques. Cela est en

partie du au fait que chaque image est en couleur: rouge ,vert, bleu (RGB). Chaque pixel, chaque site (x,y),

contient une information couleur sur l’intensite du rouge, l’intensite du vert, l’intensite du bleu. Il est donc possible

de diviser par trois la taille d’une image, en ne conservant qu’un seul canal ???? (RGB −− > ACP1)

(x, y, z) −− > x′)

Figure: L’image dont on veut reduire l’espace couleur

22 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Image Couleur

(a) (b) (c)

(d)

Figure: (a),(b),(c) : Canal Rouge, Vert, et Bleu. (d) Projection despoints couleurs.

23 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

ACP sur une image couleurMatrice de covariances:

P =

var(R) cov(R, G) cov(R, B)cov(G , R) var(G) cov(G , B)cov(B, R) cov(B, G) var(B)

Matrice des vecteurs propres:

V =

0.614 0.588 0.526−0.581 −0.114 0.8060.5346 −0.801 0.271)

Matrice des valeurs propres:

D =

λ1 0 00 λ2 00 0 λ3

=

2718 0 00 110 00 0 11)

La conservation de l’axe principale permet d’expliquer plus 90% de l’information:

λ1

3∑i=1

(λi )

> τ(0.90)

24 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

ACP sur une image couleur

Projection des donnees originales sur les axes factoriels:

P =

RACP1RACP2RACP3

=

0.614 0.588 0.526−0.581 −0.114 0.8060.5346 −0.801 0.271)

.R

GB

Exemple : pour l’axe principal (λ1)

RACP1 = R ∗ 0.614 + G ∗ 0.588 + B ∗ 0.526

25 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Image Couleur

(a) (b) (c)

Figure: (a) : Image originale. (b) Image projetee sur les trois axes del’ACP. (c) Image projetee sur l’axe principale.

26 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Recherche des composantes principales

Analyse de la structure de la matrice variance-covariance;c-a-d de la variabilite, dispersion des donnees.

Objectif de l’ACP: decrire a l’aide de q ≤ p composantes unmaximum de cette variabilite.

Ce qui permet :

une reduction des donnees a q nouveaux descripteursune visualisation des donnees a 2 ou 3 dimensions (si q = 2 ou3)une interpretation des donnees : liaisons inter-variables

27 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Recherche des composantes principales

Composantes : C1,C2, ...,Ck , ...,Cq

Ck = nouvelle variable = combinaison lineaire des variablesd’origine X1, ...,Xp:

Ck = a1kX1 + a2kX2 + . . . ...+ apkXp. coefficients ajk adeterminer. Ceux sont les composantes des vecteurs propres.

telle que les Ck soient:

2 a 2 non correlees,de variance maximale,d’importance decroissante.

28 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Recherche des composantes principales

C1 = 1ere composante principale doit etre de variance maximale.

Geometriquement : C1 determine une nouvelle direction dans le nuage de points qui suit l’axed’allongement (etirement) maximal du nuage.

ci1 = coordonnee du point i sur l’axe C1 projection de xi sur C1.

ci1 =

p∑j=1

a1j xij .

C1 de variance maximale les projections ci1 sont les plus dispersees possible.

C1 = droite passant par le centre de gravite realisant le meilleur ajustement possible du nuage

c-a-d : qui conserve au mieux la distance entre les points (apres projection) =¿ droite de

projection assurant une distorsion minimale.

C2 = 2eme composante, orthogonale a C1 et de variance maximale.

29 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Exemple : Un cas d’etude.

(a) (b) (c)

(d)

(a) : Image originale. (b) Image matricielle. (c) Axes principaux. (f) Projection sur C1 et C2.

30 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Exemple : Un cas d’etude.

(e) (f)

(e) Projection sur C1. (f) Projection sur C2. 31 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Choix des r premieres composantes principales

Objectif : garder un maximum d’information des donneesinitiales.

Mesure de cette information : le % de variance expliqueer∑

i=1

Var(Ci )

Intertie totale

Si les variables originales sont fortement correlees entre elles,un nombre reduit de composantes permet d’expliquer 80% a90% de variance !

32 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Notion

Cette notion est fondamentale en ACP: Pour chaque variable, on evalue la correlation entre les donnees dans labase d’origine et les donnees dans la base cible.

Exemple : x = cor(X , XACP1) ; y = cor(X , XACP2)

Plus les variables sonct proches du bord du cercle et plus les variables sont bien representees par le plan factoriel,c’est-a-dire que la variable est bien correlee avec les deux facteurs constituant ce plan.

33 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Interpretation

L’angle entre 2 variables, mesure par son cosinus, est egal au coefficient de correlation lineaire entre les 2 variables:cos(angle) = r(X1,X2)

si les points sont tres proches (angle proche de 0) : cos(angle) = r(X1,X2) = 1 donc X1 et X2 sont tresfortement correles positivement.

si a est egal a 90 , cos(angle) = r(X1,X2) = 0 alors pas de correlation lineaire entre X1 et X2

si les points sont opposes, a vaut 180, cos(angle) = r(X1,X2) = -1 : X1 et X2 sont tres fortementcorreles negativement

Attention, on ne peut interpreter que les variables situees au bord du cercle

34 / 35

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Conclusion

ACP pour l’analyse de series de donnees numeriques.

Etude de matrice de covariances.Visualisation dans un espace decorrele.Description des interactions entre les variables.

Les inconvenients ?

N’apprehende que les relations affines entre les variables.(phenomene lineaire)

35 / 35

Recommended