60
Cours d‘Analyse de Données

Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Embed Size (px)

Citation preview

Page 1: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Cours d‘Analyse de Données

Page 2: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

But

Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables).

Page 3: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Méthodes

Algèbre linéaire: les données sont vues de manière abstraites comme un nuage de points dans un espace vectoriel. On utilise

– Des matrices qui permettent de manipuler un ensemble de variables comme un objet mathématique unique ;

– Des valeurs et vecteurs propres qui permettent de décrire la structure d'une matrice.

– Des métriques : permettent de définir la distance entre deux points de l'espace vectoriel ; on utilise aussi des produits scalaires.

Théorie des probabilités nécessaire en statistique inferentielle (estimation, tests, modélisation et prévision,...).

Page 4: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Individus et variables

Population groupe ou ensemble d'individus que l'on analyse.

Recensement étude de tous les individus d'une population donnée.

Sondage étude d'une partie seulement d'une population appelée échantillon.

Variables ensemble de caractéristiques d'une population.

– quantitatives: nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent ^être discrètes (ex : nombre d'éléments dans un ensemble) ou continues (ex: prix, taille) ;

– qualitatives: appartenance a une catégorie donnée ; elles peuvent être nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant).

Page 5: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Description de données quantitatives

Définition On appelle variable un vecteur x de taille n. Chaque coordonnée xi correspond a un individu. On s'intéresse ici a des valeurs numériques.

Poids Chaque individu a éventuellement un poids pi, tel que p1+ + pn=1. On a souvent p = 1 / n.

Représentation histogramme en découpant les valeurs de la variable en classes.

Résumes on dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3eme quartile, ... Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principalement la moyenne, la variance et l'écart type.

Page 6: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Moyenne arithmétique

Définition On note

ou pour des données pondérées

Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes propriétés mathématiques.

n

iii

n

ii

xpx

xn

x

1

1

1

Page 7: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Variance et ecart-type

Définition la variance de x est définie par

L'écart type sx est la racine carrée de la variance.

Propriétés La variance satisfait la formule suivante

La variance est « la moyenne des carres moins le carre de la moyenne ». L'ecart-type, qui a la même unité que x, est une mesure de dispersion.

n

iix

n

iiix

n

iix

xxpn

s

xxpsouxxn

s

i1

222

1

22

1

22

)(1

)()(1

Page 8: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Mesure de liaison entre deux variables

Définitions la covariance observée entre deux variables x et y est

et le cœfficient de r de Bravais-Pearson ou coefficient de corrélation est donnée par

2

1

2

1

1

11

)()(

)()(

)()(

yypxxp

yyxxp

ss

sr

xyyxpyyxxps

i

n

ii

n

iii

i

n

iii

yx

xyxy

ii

n

iii

n

iiixy

Page 9: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Propriétés du coefficient de corrélation

Borne On a toujours (inégalité de Cauchy Schwarz)

Variables liées

|rxy| = 1 si et seulement si x et y sont linéairement liéesEn particulier, rxx = 1.

Variables décorrélées si rxy = 0, on dit que les variables sont decorrelees. Cela ne veut pas dire qu'elles sont indépendantes !

nicbyaxr

r

iixy

xy

1)1

11

Page 10: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Corrélation et liaison significative

Problème A partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées?

Domaine d'application on se place dans le cas ou le nombre d'individus est n > 30.

Méthode si x et y sont deux variables gaussiennes indépendantes, alors on peut montrer que

suit une loi de Fischer-Snedecor F(1; n-2). Le résultat est valable dans le cas non gaussien pour n > 30.

2

2

1

)2(

xy

xy

r

rn

Page 11: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Le test

on se fixe un risque d'erreur (0,01 ou 0,05 en général) et on calcule la probabilité

Si π < α on considère que l'événement est trop improbable et que donc que l'hypothèse originale d'indépendance doit être rejetée au seuil . On trouvera en général ces valeurs dans une table pré-calculée de la loi F.

)1

)2()2,1((

2

2

xy

xy

r

rnnFP

Page 12: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Interlude : notation matricielle

Matrice tableau de données carre ou rectangulaire.

Vecteur matrice a une seule colonne.

Cas particuliers

Transposition de matrice échange des lignes et des colonnes d'une matrice ; on note M’ la transposée de M.

1

1

1

1...0

0...1

I

Page 13: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Tableau de données

Pour n individus et p variables, on a le tableauX est une matrice rectangulaire a n lignes et p colonnes

pnn

ji

p

p

xx

x

xx

xxx

xxX

...

...

),...,(

1

22

12

121

11

1

Page 14: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Vecteurs variable et individu

Variable Une colonne du tableau

Individu Une ligne du tableau

)(' 21

2

1

piiii

jn

j

j

j

xxxe

x

x

x

x

Page 15: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

La matrice des poids

Pourquoi utile quand les individus n'ont pas la même importance

Comment on associe aux individus un poids pi tel que

et on représente ces poids dans la matrice diagonale de taille n

Cas uniforme tous les individus ont le même poids pi = 1 / n et D = I / n

n

n

p

p

p

D

ppp

...0

0...

1...

2

1

21

Page 16: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Point moyen et tableau centre

Point moyen c'est le vecteur g des moyennes arithmétiques de chaque variable :

ou

On peut aussi écrire

Tableau centré il est obtenu en centrant les variables autour de leur moyenne

ou, en notation matricielle,XDIgXY

xxy

DXg

xpx

xxg

jji

ji

n

i

jii

j

p

)'11('1

1'

)...('

1

1

Page 17: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Matrice de variance covariance

Définition c'est une matrice carrée de dimension p

ou skl est la covariance des variables xk et xl et s2j est la variance

de la variable xj

Formule matricielleDYYggDXXV

ss

ss

sss

V

ppp

p

'''

...

...

1

22

12

121

11

Page 18: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Matrice de corrélation

Définition Si l'on note

Formule matricielle

p

sss

p

p

lk

klkl

s

s

s

DVDDR

s

r

rr

Rss

sr

10

1

01

1

1

1

2

1

111

1

12

12

1

Page 19: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'analyse de composantes principales

Contexte chaque individu est considéré comme un point d'un espace vectoriel F de dimension p . L'ensemble des individus est un nuage de points dans F et g est son centre de gravite.

Principe on cherche a réduire le nombre p de variables tout en préservant au maximum la structure du problème. Pour cela on projette le nuage de points sur un sous-espace de dimension inférieure

Page 20: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Exemple en dimension 2

On veut passer de 2 variables a 1 seule.

Page 21: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Exemple en dimension 2

On cherche la direction qui différencie le plus les points entre eux.

Page 22: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Distance entre individus

Motivation afin de pouvoir considérer la structure du nuage des individus, il faut définir une distance, qui induira une géométrie.

Distance euclidienne classique la distance la plus simple entre deux points de Rp est définie par

Généralisation simple on multiplie la variable j par

p

jjjj

j

p

jjj

vuavud

a

vuvuvud

0

22

0

22

)(),(

)(),(

Page 23: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Métrique

Matrice définie positive c'est une matrice symétrique telle que, pour tout u non nul, u’Mu > 0.

Définition soit M = (mjk) définie positive de dimension p. On pose

Espace métrique il est défini par le produit scalaire

On dit que u et v sont orthogonaux si 0,

',

),('

0 1

22

0 1

2

M

p

jkjjk

p

kM

MM

p

jkjjk

p

kM

vu

uumMuuvu

vuvudetuumMuuu

Page 24: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Comparaison avec le cas usuel

Norme

Produit scalaire

p

jkjjk

p

kM

p

jkj

p

jkjjk

p

kM

p

jj

uumMuuvu

Iuuvuuuvu

uumMuuu

Iuuuuuu

0 1

0

0 1

2

0

22

',

'',

'

''

Page 25: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Inertie

Définition l'inertie en un point a du nuage de points est

Autres relations l'inertie totale Ig est la moitie de la moyenne des carres des distances entre les individus

L'inertie totale est aussi donnée par la trace de la matrice MV (la trace d'une matrice étant la somme de ses éléments diagonaux).

)(

2

)()'(

1

2

1

11

2

MVTrI

eeppI

aeMaepaepI

g

n

iMjiji

n

jg

n

iiii

n

iMiia

Page 26: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Métriques particulières

Métrique usuelle M = I correspond au produit scalaire usuel et

Problèmes– la distance entre individus dépend de l'unité de mesure.– la distance privilégie les variables les plus dispersées.

Métrique réduite c'est la plus courante ; on prend la matrice diagonale des inverses des variances

pRTrVDDTrVDTrI

s

sDM

sVTrI

sssg

p

s

p

jig

)()()(

10

01

)(

111

2

21

1

1

2

2

2

Page 27: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Métriques et tableaux transformes

Utiliser la métrique M = T’T sur le tableau X est équivalent a travailler avec la métrique classique I sur le tableau transforme XT’.

Tableau transformé Si on travaille sur le tableau transforme XT’ (changement de variables) au lieu de X, alors les nouveaux individus seront de la forme Tei et

Réciproque pour toute matrice symétrique positive M, il existe une matrice T (racine carrée de M) telle que

et donc on peut ramener l'utilisation de la métrique a un changement de variables.

TTM

eeMeeTeTeTeTeTeTeMiiiiiiiiii

'

,''')()'(,2121212121

Page 28: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Métriques et tableaux transformes (suite)

Utiliser une métrique est donc équivalent à tordre les données pour les rendre comparables

Exemple utiliser la métrique réduite est équivalent a travailler sur les données centrées réduites Z = YD1/s.

Page 29: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'analyse de composantes principales (2)

Principe on cherche a projeter le nuage de points sur un espace Fk de dimension k < p.

Critère on veut que la moyenne des carres des distances entre les points projetés soit maximale (elle est toujours plus petite que pour le nuage original).

Pour cela on cherche Fk, sous espace de dimension k de Rk, tel que l'inertie du nuage projeté sur Fk soit maximale.

Page 30: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Interlude : valeurs et vecteurs propres

Définition un vecteur v de taille p est un vecteur propre d'une matrice A de taille p x p s'il existe λ Є C telle que

est une valeur propre de A associée à v.

Domaine En général, les vecteurs propres et valeurs propres sont complexes; dans tous les cas qui nous intéressent, ils seront réels.

Interprétation des vecteurs propres ce sont les directions dans lesquelles la matrice agit.

Interprétation des valeurs propres c'est le facteur multiplicatif associe a une direction donnée.

vAv

Page 31: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Exemple: valeurs et vecteurs propres

La matrice

a pour vecteurs propres

On vérifie facilement que les valeurs propres associées sont642

0

1

1

1

0

1

1

1

0

311

242

115

321

321

vvv

Page 32: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Cas particuliers: Valeurs et vecteurs propres

Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur propre.

Matrice identité tout vecteur est vecteur propre de I avec valeur propre 1, puisque Iv = v.

Matrice diagonale si Dλ est une matrice diagonale avec les coefficients λ1,λ2,… λp, alors le i-eme vecteur coordonnée est vecteur propre de Dλ associe a la valeur propre λ i.L'action d'une matrice diagonale est de multiplier chacune des coordonnées d'un vecteur par la valeur propre correspondante.

Matrice diagonalisable c'est une matrice dont les vecteurs propres forment une base de l'espace vectoriel : tout vecteur peut être représenté de manière unique comme combinaison linéaire des vecteurs propres. Une matrice de taille p x p qui a p valeurs propres réelles distinctes est diagonalisable dans R.

Page 33: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Quelques matrices diagonalisables

Matrice symétrique une matrice symétrique réelle (A’ = A) possède une base de vecteurs propres orthogonaux et ses valeurs propres sont réelles

Matrice M-symetrique une matrice M-symetrique réelle (A’M = MA) possède une base de vecteurs propres M-orthogonaux et ses valeurs propres sont positives ou nulles

Matrice définie positive c'est une matrice symétrique dont les valeurs propres sont strictement positives et donc

00,

0,

0,

iji

iMji

iji

etjisivv

etjisivv

etjisivv

Page 34: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Analyse de VM

Valeurs propres la matrice VM est M-symetrique: elle est donc diagonalisable et ses valeurs propres λ1, λ2, λp sont réelles.

Vecteurs propres il existe donc p vecteurs a1, …, ap tels que

Les ai sont les axes principaux d'inertie de VM. Ils sont M-orthonormaux.

Signe des valeurs propres les valeurs propres de VM sont positives et on peut les classer par ordre décroissant

Idée du lien avec l'inertie on sait que .

Si on ne garde que les données relatives a a1, …, ap on gardera l'inertie λ1 + λ2 +…+ λp, et c'est le mieux qu'on puisse faire.

p

p

Mjiii

VMTr

jiaaavecaVMa

...)(

0...

sinon0

si1,

21

21

Page 35: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Résultat principal

Théorème principal (Admis)

1. Si Fk est le sous-espace de dimension k portant l'inertie principale, alors

ou fk+1 est le sous espace de dimension 1 M-orthogonal a Fk portant l'inertie maximale : les solutions sont emboîtées;

2. Fk est engendre par les k vecteurs propres de VM associes aux k plus grandes valeurs propres.

Interprétation du théorème l'ACP sur k + 1 variables est obtenue par ajout d'une variable d'inertie maximale a l'ACP sur k variables. Il n'est pas nécessaire de refaire tout le calcul.

11 kkk fFF

Page 36: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Les composantes principales

Coordonnées des individus supposons que

alors

La coordonnée de l'individu centre ei - g sur l'axe principal aj est donc donné par la projection M-orthogonale

Composantes principales ce sont les variables cj de taille n définies par

Chaque cj contient les coordonnées des projections M-orthogonales des individus centres sur l'axe défini par les aj.

jj

jiMjiij

ijM

p

kjkijMji

p

kkiji

YMac

Mageagec

caacage

acge

)'(,

,,1

1

Page 37: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Représentation des individus dans un plan principal

Qu'est-ce que c'est? C’est une représentation ou, pour deux composantes principales c1 et c2, on représente chaque individu i par un point d'abscisse ci1 et d'ordonnée ci2.

Quand? Elle est utile quand les individus sont discernables.

Page 38: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Propriétés des composantes principales

Moyenne arithmétique les composantes principales sont centrées :

Variance la variance de cj est j car

Covariance de même, pour

Les composantes principales ne sont pas corrélées entre elles.

0'...'),cov(

''

''')(

01'01''1'

jjjjiji

jjjjjj

jjjjj

jjj

MaaDcccc

ji

MaaMVMaa

DYMaMYaDcccV

DYcarDMYaDcc

Page 39: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Facteurs principaux

Définition on associe a un axe principal aj le facteur principal

de taille p. C'est un vecteur propre de MV car

Calcul en pratique, on calcule les uj par diagonalisation de MV, puis on obtient les

Les aj ne sont pas intéressants. La valeur d'une variable cj pour l'individu ei est donc

),...,,(')'( 211

ipiij

p

kjk

kijjij

jj

jjjjjj

jj

uuuuoùuyugec

Yuc

uMaMVMaMVu

Mau

Page 40: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Formules de reconstruction

Il est possible de reconstruire le tableau centre Y a partir des composantes principales et des facteurs principaux

Preuve il suffit de calculer

et, comme M est inversible et que ai est une base, on obtient Y.

Approximation si on prend les k premiers termes seulement, on obtient la meilleure approximation de Y par une matrice de rang k au sens des moindres carres (théorème de Eckart-Young).

ii

p

jjjjj

p

jjj

p

jjj

p

jjj

YMacMaacMaac

MucacY

11

1

1

1

''

''

Page 41: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Le cas de la métrique

Pourquoi cette métrique ? pour que les distances soient indépendantes des unités de mesure et qu'elles ne privilégient pas les variables dispersées.

Équivalence avec les données réduites on a

et donc

Travailler avec la métrique est équivalent a diviser chaque variable par son ecart-type et a utiliser la métrique I.

Données centrées réduites c'est le tableau Z contenant les données

qui se calcule matriciellement comme

21s

D

s

j

jjij

i

js

isDji

sss

YDZ

s

xxz

eDeDee

DDD

s

1

11

111

,,2

1

2

21s

D

Page 42: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'ACP sur les données centrées réduites

Matrice de variance covariance c'est la matrice de corrélation car

Métrique on prend la métrique M = I.

Facteurs principaux ce sont les p vecteurs propres orthonormés de R,

dont les valeurs propres sont classes par valeur propre croissante

Composantes principales elles sont données par

jj

p

jiiii

ssss

Zuc

jiuuavecuRu

RVDDDYDYDDZZ

0...

sinon0

si1,

''

321

1111

Page 43: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Nombre d'axes a retenir

Dimension de l'espace des individus L'ACP visant a réduire la dimension de l'espace des individus, on veut conserver aussi peu d'axes que possible. Il faut pour cela que les variables d'origine soient raisonnablement corrélées entre elles. Les seuls critères utilisables sont empiriques.

Interprétation des axes on s'efforce de ne retenir que des axes a propos desquels une forme d'interprétation est possible (soit directement, soit en terme des variables avec lesquels ils sont très correles). On donnera des outils a cet et plus loin dans le cours.

Critère de Kaiser (variables centrées réduites) on ne retient que les axes associes a des valeurs propres supérieures a 1, c'est-à-dire dont la variance est supérieure a celle des variables d'origine. Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures a cette moyenne.

Page 44: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Nombre d'axes a retenir (2)

Éboulis des valeurs propres on cherche un coude dans le graphe des valeurs propres

Page 45: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'espace des variables

Métrique D il faut munir l'espace des variables d'une métrique raisonnable. On choisit toujours la métrique D des poids :

Interprétation pour deux variables centrées x et y, on a:

Exempleles vecteurs forment une base D-orthonormale

sinon0

si1),(,

,),()(,),cov(

'',

2

2

lkcccor

cc

c

yx

yxyxcorxxVyxyx

DxxxDyxyx

lk

Dl

l

k

k

k

k

DD

DDD

DD

Page 46: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Corrélation entre composantes et variables initiales

Quand on travaille sur les variables centrées-réduites, la corrélation entre une composante principale ck et une variable zj est

et donc le vecteur des corrélations de ck avec Z est

Comme

on a finalement kkk

kkkkk

k

kk

pkkk

k

kj

k

kj

kj

ucZr

uRuDZuZDcZ

DcZczrczrczrcZr

Dcz

cV

czczr

),(

''

'))',(),...,,(),,((),(

)'(

)(

),cov(),(

21

Page 47: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Le cercle des corrélations

Qu'est-ce que c'est? c'est une représentation ou, pour deux composantes principales, par exemple c1 et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) et d'ordonnée r(zj;c2).

Effet «  taille » cela arrive quand toutes les variables sont corrélées positivement avec la première composante principale. Cette composante est alors appelée facteur de taille, la seconde facteur de forme.

Page 48: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Le cercle des corrélations (2)

Pourquoi un cercle? comme les ck=pk forment une base D-orthonormale,

Les points sont bien a l'intérieur d'un cercle de rayon 1.

Interprétation– les points sont la projection orthogonale dans D des variables dans le

plan défini par les composantes principales c1 et c2.– Il ne faut interpréter la proximité des points que s'ils sont proches de la

circonférence.

p

k

jkDj

k

kjk

p

ik

k

D

p

k

j

k

kj

zcrz

czcr

cz

cz

1

22

11

),(1

),(,

Page 49: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Contribution d'un individu a une composante

Définition On sait que

La contribution de l'individu i a la composante k est donc

Interprétation la contribution d'un individu est importante si elle excède le poids pi de l'individu concerne, c'est-à-dire

Individus sur-representés ce sont les individus qui jouent un rôle trop fort dans la définition d'un axe (par exemple > 0;25). Il «  tire a lui » l'axe k et risque de perturber les représentations des autres points sur les axes de rang k. Un tel individu peut ^être le signe de données erronées.

kikik

iki

k

iki

n

iikikk

cpcp

cp

cpcV

2

2

1

2)(

Page 50: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Qualité globale de la représentation

Calcul de l'inertie on se souvient que

comme la trace d'une matrice est la somme de ses valeurs propres, on a

Définition la qualité de la représentation obtenue par k valeurs propres est la proportion de l'inertie expliquée

Utilisation si par exemple est égal 90% de Ig, on en déduit que le nuage de points est aplati autour du premier plan principal.

21

21

21

21

...

...

...

)(

p

k

pg

g

I

VMTrI

Page 51: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Qualité locale de la représentation

But on cherche a déterminer si le nuage de points est très aplati par la projection sur les sous-espaces principaux. Dans ce cas, deux individus éloignes pourraient artificiellement sembler proches les uns des autres.

Page 52: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Angle entre un individu et un axe principal

Il est défini par son cosinus carre. Le cosinus de l'angle entre l'individu centre i et l'axe principal j est

car les aj forment une base orthonormale. Comme

Cette grandeur mesure la qualité de la représentation de l'individu i sur l'axe principal aj.

p

kik

ijji

ijMji

Mi

Mji

ji

c

cae

cage

ge

ageae

1

2

2

2

),(cos

,

,),(cos

Page 53: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Angle entre un individu et un sous-espace principal

C'est l'angle entre l'individu et sa projection orthogonale sur le sous-espace. La projection de sur le sous-espace est

et donc

La qualité de la représentation de l'individu i sur le plan Fq est donc la somme des qualités de représentation sur les axes formant Fq. Il est significatif quand le point ei n'est pas trop près de g.

p

kik

q

kik

qi

q

kkik

qi

c

cFe

ac

pqFge

1

2

1

2

2

1

),(cos

,

Page 54: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Éléments supplémentaires

Motivation les composantes principales Étant définies pour maximiser les contributions, le fait que les corrélations obtenues soient proches de 1 peut ne pas être significatif. Par contre, une corrélation forte entre une composante principale et un individu ou une variable n'ayant pas participe a l'analyse est très significative.

Cas des individus sur-représentés on peut décider d'utiliser ces points en individus supplémentaires, en particulier quand les points constituent un échantillon et ne présentent pas d'inter^et en eux-mêmes.

Méthode on met de cote certaines variables pour qu'elles ne soient pas utilisées dans l'analyse (on diminue donc la dimension de R), ou alors certains individus (ils ne sont pas pris en compte dans le calcul des covariances). On cherche ensuite a savoir s'ils sont lies a un axe donne.

Page 55: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Variables supplémentaires quantitatives

Corrélation on calcule la corrélation de la variable avec les composantes principales et on la place dans le cercle des corrélations. Si est le vecteur centre-reduit correspondant a cette variable, on calcule

On peut utiliser un test statistique pour déterminer si une corrélation est significative.

iki

n

ii

kk

Dk

k

kk czp

cz

cV

czcorczcor

z

ˆ1,ˆ

)(

),ˆ(),ˆ(

ˆ

1

Page 56: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Variables qualitatives supplémentaires

Représentation on peut représenter par des symboles différents les individus de chaque catégorie sur les axes principaux.

Valeur-test

Cette valeur est significative si elle est supérieure a 2 ou 3 . On ne doit pas l'utiliser sur les variables actives.

Idée du calcul Si les individus étaient pris au hasard, leur coordonnée serait une variable aléatoire centre (les z sont de moyenne nulle) et de variance

car le tirage est sans remise.

1

ˆ

ˆ

ˆ1ˆ

ˆ

.principale composante ieme-k lasur barycentreleur de coordonnee laˆ

femme...) (homme, tiquecaracteris certaine uneayant individusˆ

n

nn

n

nn

nnc

c

n

k

kk

k

Page 57: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

Individus supplémentaires

Représentation on les ajoute a la représentation sur les plans principaux. Pour calculer leur coordonnée sur un axe fixé, on écrit

ou les sont les coordonnées centrées-réduites d'un individu supplémentaire.

Ces individus serviront d'échantillon test pour vérifier les hypothèses tirées de l'ACP sur les individus actifs.

j

kj

p

j

jkk

z

uzuzc

ˆ

ˆ,ˆˆ1

Page 58: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'ACP en trois transparents (1)

Données les données représentent les valeurs de p variables mesurées sur n individus ; les individus peuvent avoir un poids. En général on travaille sur des données centrées réduites Z (on retranche la moyenne et on divise par l'écart type).

Matrice de corrélation c'est la matrice R de variance covariance des variables centrées réduites. Elle possède p valeurs propres:

Facteurs principaux uk ce sont les vecteurs propres orthonormés de R (de dimension p) associes aux valeurs propres k. Leur j-ieme composante ukj est le poids de la variable j dans la composante k.

Composantes principales ck ce sont les vecteurs Zuk de dimension n. Leur i-ieme coordonnée cki est la valeur de la composante k pour l'individu i. Les ck sont decorrelees et leur variance est :

jcV k

p

)(

0...321

Page 59: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'ACP en trois transparents (2)

Nombre d'axes on se contente souvent de garder les axes interprétables de valeur propre supérieure a 1. La qualité de la représentation retenue est mesure par la part d'inertie expliquée par ces composantes.

Cercle des corrélations il permet de visualiser comment les variables sont corrélées (positivement ou négativement) avec les composantes principales. A partir de la, on peut soit trouver une signification physique a chaque composante, soit montrer que les composantes séparent les variables en paquets. Seules les variables bien représentées (situées près du bord du cercle) doivent être interprétées.

Variables supplémentaires certaines variables peuvent être mises de cote lors de l'ACP et reportées séparément sur le cercle des corrélation (ou la représentation des individus pour les variables qualitatives).

Page 60: Cours dAnalyse de Données. But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables)

L'ACP en trois transparents (3)

Représentation des individus pour un plan principal donné, la représentation des projections des individus permet de conformer l'interprétation des variables. On peut aussi visualiser les individus aberrants (erreur de donnée ou individu atypique).

Contribution d'un individu a une composante c'est la part de la variance d'une composante principale qui provient d'un individu donne. Si cette contribution est très supérieure aux autres, on peut avoir intérêt a mettre l'individu en donnée supplémentaire.

Qualité globale de la représentation c'est la part de l'inertie totale Ig qui est expliquée par les axes principaux qui ont été retenus. Elle permet de mesurer la précision et la pertinence de l'ACP.

Qualité de la représentation d'un individu elle permet de vérifier que tous les individus sont bien représentes par le sous-espace principal choisi; elle s'exprime comme le carre du cosinus de l'angle entre l'individu et sa projection orthogonale.