Ch3 Analyse Factorielle en Composantes Principales

Embed Size (px)

Citation preview

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    1/45

    Module C106

    Analyse et fouille de donnes

    Analyse en Composantes Principales (ACP)

    IntroductionEtude dans R p

    Etude dans R nPratique de l'ACPReconstitution du tableau des donnes

    Exercices

    Grard-Michel Cochard

    [email protected]

    mailto:[email protected]:[email protected]://g%7C/moduleC106/ch3/Ch3.pdfhttp://g%7C/moduleC106/ch3/Ch3.pdf
  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    2/45

    Ch3 - Analyse factorielle en composantes principales

    1 - Introduction

    Les statistiques fournissent gnralement leurs conclusions brutes sous forme de tableaux de donnes. Ces tableaux sontmultidimensionnels et comportent de trs nombreuses donnes. Un regard sur de tels tableaux montre immdiatement la difficult d'entirer des enseignements pertinents. L'analyse en composantes principales (ACP) a pour objet d'en tirer des tendances. Plus concrtement,l'ACP se donne pour objectif de "rduire" le nombre de donnes afin d'en faciliter l'interprtation.

    Dans une ACP, un tableau de donnes est du type "individus x variables" et se prsente sous forme d'une matrice rectangulaire n lignes etp colonnes :

    Ceci conduit deux interprtations gomtriques possibles :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    3/45

    La matrice R peut tre analyse suivant les lignes qui reprsentent les individus ou suivant les colonnes qui reprsentent les variables. Unindividu est reprsent par un point dans un espace p dimensions et on peut, dans cet espace Rp rechercher les ressemblances entreindividus. Une variable est reprsente par un point dans un espace n dimansions et on peut rechercher dans cet espace Rn lescorrespondances entre variables..

    Dans le premier cas, les individus correspondent n points (avec p coordonnes) dans un espace R p. Entre les individus, on peut recherchers'il y a des ressemblances. Dans le second cas, les variables correspondent p points (ou p vecteurs n composantes) dans un espace R n.Entre les variables, on peut rechercher s'il y a des liaisons.

    Le problme de base est le suivant : le tableau contient nxp donnes; ce nombre peut tre trs grand et d'un tel tableau il est difficile detirer des informations pertinentes, do lobjectif suivant : Chercher une collection de donnes peu importantes en nombre permettant dereconstituer (le mieux possible) le tableau R

    Supposons que lon ait pu trouver 2 vecteurs u et v tels que R = u v T , alors, avec peu d'lments on peut en engendrer beaucoup .

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    4/45

    vecteur-colonne vecteur-colonne reconstitution du tableau R n composantes p composantes

    Le tableau R np lments est reconstitu partir de n (lments de u) et p (lments de v ) nombres :

    n + p -->np

    Malheureusement, il n'est pas possible de trouver u et v tels que R = uv T . Cependant il est possible de trouver u1 u2 . . . . . . . uq et v 1 v 2 . . . . . . . v q tels que R = u1 v 1T + u2v 2T + u3v 3T + ............ +uqv qT + E o E est une erreur suppose ngligeable. R est alors reconstitu par q.(n+p) nombres.

    exemple 1 : n = 1000 individus et p = 100 variables : R possde 100 000 lments ; avec lapproximation q = 10, on rduit 11 000 lments

    Prcisons maintenant les notations que nous allons employer . L'tude doit porter sur la forme du nuage de points et non sur sa position parrapport lorigine. C'est pourquoi il est intressant de pratiquer un changement d'origine: nouvelle origine = centre de gravit du nuage

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    5/45

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    6/45

    soit

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    7/45

    2 - Etude dans R p

    Notion d'axe factoriel

    En travaillant dsormais avec les coordonnes Y ij , on a toujours un nuage de n points-individus. On recherche si les n points se situent dans un sous-espacevectoriel R q de R p (q p).

    R q est sous-tendu par q vecteurs ua orthogonaux dfinissant q axes. Chaque axe est dfini par q coordonnes, soit qp nombres. Chaque point du nuage est dfinidans R q par q coordonnes, soit nq nombres. Donc au total, le nuage est dfini par nq + qp = (n + p)q nombres

    Il y a plusieurs faons (une infinit en fait) de trouver un systme d'axes dans R q. Nous choisirons les axes factoriels : ce sont les axes qui ajustent au mieux lenuage de points (et orthogonaux 2 2) . Ils sont dfinis par les vecteurs orthonorms

    u1 , u2 , ...................,uq

    car u est unitaire

    car u et u

    sont orthogonaux ( )

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    8/45

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    9/45

    et

    donc M = (Yu)T (Yu) = uT YT Y u = uT Cu o C est proportionnelle la matrice des corrlations. En effet

    Cij =

    donc, en posant c ij = cor(Ri, R j), on a M = nuT cu o c reprsente la matrice des corrlations (matrice pxp).

    On dmontre que c possde p valeurs propres positives : on les numrote par ordre dcroissant :

    1 >2 >3 >... >p

    A chaque valeur propre correspond un vecteur propre u . Tous les vecteurs propres u sont orthogonaux.

    Rsultats mathmatiques (non dmontrs mais admis ici) :

    q le 1er axe factoriel est dtermin par le vecteur propre u 1 relatif la valeur propre 1 (la plus grande)q le 2me axe factoriel est dtermin par le vecteur propre u 2 relatif la valeur propre 2q le 3me axe factoriel est dtermin par le vecteur propre u 3 relatif la valeur propre 3 q etc........

    En dfinitive, la recherche des axes factoriels se rsume la recherche des valeurs et vecteurs propres de la matrice des corrlations c.

    Notons une proprit intressante : la matrice c ne possde que des "1" sur sa diagonale et on sait que Trace( c) = somme des valeurs propres. On doit donc avoir

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    10/45

    La valeur de la quantit

    appele inertie du nuage par rapport l'axe dfini par le vecteur ua dtermine l'importance de l'axe dans la description du phnomne. On l'exprime usuellementen pourcentage.

    Dans les axes factoriels principaux, les coordonnes des points individus sont donns par les colonnes de la matrice YU o U est la matrice obtenue en juxtaposantles coordonnes des vecteurs u :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    11/45

    exemple : reprenons l'exemple des notes d'lves :

    Calculons la matrice des corrlations :

    Le calcul des valeurs propres et vecteurs propres peut s'oprer avec le logiciel Scilab :

    les valeurs propres sont, par ordre dcroissant (et arrondies deux dcimales)

    1 = 2,862 = 1,153 = 0,984 = 0,015 = 0,00

    On constatera que la somme vaut bien 5. Les inerties correspondantes aux axes factoriels principaux de 1 5 sont respectivement 57,20 %, 23,00 %, 19,60 %,2,00 % et 0,00 %. Les trois premiers axes correspondent une inertie de 99,80 %. Autrement dit, les faits sont bien dcrits par ces trois axes ce qui signifieque l'on peut prendre q = 3.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    12/45

    Les vecteurs propres correspondants sont :

    Il est intressant de voir la disposition des points par rapport aux axes factoriels (rappelons que ces axes doivent passer au mieux travers le nuage des points).Prenons par exemple, la projection du nuage sur le plan ( u1, u2). Pour obtenir les coordonnes des points individus dans le plan considr, il faut effectuer leproduit matriciel suivant :

    Individus supplmentaires

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    13/45

    Les individus supplmentaires sont ajouts aprs analyse. On ne recommence donc pas l'analyse mais on peut intgrer les nouveaux invidus en calculant leurscoordonnes rduites et en les introduisant dans les diagrammes.

    En particulier, on peut introduire des individus de "rfrence" ou illustratifs.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    14/45

    - Etude dans R n

    ans R n on considre un nuage de p points. Les axes factoriels, dont les vecteurs unitaires sont nots ici v , sont recherchs deanire analogue au procd dcrit pour R p. On cherche rendre maximale la quantit

    M' = (Yv) T (Yv) = v T YYT v

    our cela, on diagonalise la matrice YYT

    qui est une matrice carre nxn. Les valeurs propres sont : 1 >2 >3 > ... >n. Lescteurs propres associs sont : v 1 v 2 v 3 ... v n . . Ils dfinissent les axes factoriels.

    elation entre R n et R p

    n se limite q min(n,p). Soit entier q. v est le vecteur propre de YYT associ la valeur propre :

    YYT v = v

    Multiplions gauche par YT : YT( YYT v ) = YT v ou ( YT Y)( YT v )= ( YT v ) ou encore c( YT v ) = ( /n)( YT v ) avec c,atrice des corrlations, ce qui montre que YT v est vecteur propre de c avec la valeur propre /n

    .

    onc = n et YT v =ku o k est un coefficient de proportionnalit.

    es vecteurs u et v sont unitaires, donc

    =u u = (1/k2)v YY

    v = (1/k2)v ( YYv ) = (1/k

    2)v ( v ) = ( /k2)v v = /k

    2 = n /k2

    o et, par suite

    ou

    Partons de l'quation aux valeurs propres cu = u , soit YT Yu = nu et multiplions gauche par Y :

    YT Y u ) = n Yu ou ( YYT )( Y u ) = n ( Yu ) ce qui montre que Y

    u est vecteur propre de YY

    T avec la valeur propre ,

    onc Yu correspond un vecteur propre Yu = k'v et n

    =

    es vecteurs u et v tant unitaires,

    =v T v = (1/k'

    2) uT YT Y u = (1/k'

    2) uT ( YT Y u ) = (n/k'

    2) uT c u = (n /k'

    2)uT u = n / k' 2

    o et, par suite

    ou

    qui montre que les axes factoriels de R p et R n ( q) sont relis linairement.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    15/45

    xemple : reprenons l'exemple des notes des lves. Nous avions obtenu, pour l'tude dans l'espace des individus :

    1 = 2,86 2 = 1,15 3 = 0,98 4 = 0,01 5 = 0,00

    A l'aide des relations prcdentes, on peut dduire les valeurs propres :

    1 = 25,74 2 = 10,35 3 = 8,82 4 = 0,09 5 = 0,00 (arrondies 2 dcimales)

    insi que les vecteurs propres v :

    es coordonnes des variables dans les axes factoriels dfinis par les vecteurs v sont donnes par

    n calculant YT v , on retrouve ces coordonnes :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    16/45

    ous savons d'autre part que ce qui fournit le moyen de calculer z j partir de u :

    xemple : reprenons le prcdent exemple et reprsentons graphiquement les coordonnes des points variables dans le planv 1, v 2).

    ercle des corrlations

    es coordonnes centres et rduites possdent une proprit intressante : Tout point variable de R n se trouve sur uneypersphre de rayon donn.

    our expliquer cette proprit, il suffit de calculer la "longueur" du "segment Mj o Mj est un point variable j de coordonnesYj1, Y j2 , ... Y jn). L'expression euclienne de cette longueur (ou distance euclidienne) est simplement (dfinition par le carr) :

    ce qui signifie que tous les points M j sont sur une hypersphre de rayon n.

    a dfinition de la distance est toutefois diffrente ici. La distance entre les deux points et M j de l'espace R n est dfinie parn carr

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    17/45

    o pi est le poids statistique affect chaque individu. Nous avions convenu de prendre des poids

    atistiques identiques, soit p i = 1/n de sorte que d 2(, M j) = dE2(,M j)/n = 1

    onc en prenant cette dfinition de la distance (c'est dire en divisant chaque coordonne Y ij par la racine carre de n), touss points se trouvent sur une hypersphre de rayon 1. En projection sur un plan passant par , les projections des pointsariables seront donc l'intrieur d'un cercle de rayon 1. Du fait de la dfinition de la distance, ce cercle est appele cercle desrrlations.

    xemple : reprenons l'exemple prcdent (en divisant les coordonnes par racine carre de 9, soit 3 :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    18/45

    4 - Pratique de l'ACP

    Le logiciel Tanagra

    Tanagra est un logiciel libre, ouvert et gratuit propos par Ricco RAKOTOMALALA. Il est trsimple utiliser et bien qu'il exite quantit d'autres logiciels, nous prendrons celui-ci commeutil d'analyse. On trouve Tanagra l'adresse suivante : http://eric.univ-lyon2.fr/~ricco/anagra/fr/tanagra.html

    Tanagra peut fonctionner avec le tableur Excel ce qui est assez pratique car, en gnral, lesonnes initiales sont dans un tableur. Bien entendu, il faut d'abord installer Tanagra ce qui seait de manire trs usuelles : tlcharger le logiciel en cliquant sur tlchargement puis suretup (le logiciel setup_tanagra.exe est alors charg sur votre ordinateur ; le plavcer dans unpertoire adquat, par exemple C:\tanagra ) puis excuter le programme setup_tanagra.exe.

    Le logiciel Tanagra s'installe alors automatiquement. On supposera que l'on prend les optionsar dfaut ce qui donnera lieu un rpertoire tanagra dans C:\Program Files. On vrifiera queans ce rpertoire, on trouve bien la macro tanagra.xla.

    Maintenant, dans Excel, il faut installer la macro tanagra.xla ce qui se fait avec le menu "Outilsmacro complmentaires". Avec le bouton "Parcourir", il suffit de pointer sur la macro tanagra.la du rpertoire C:\Program Files\tanagra.La nmacro tant installe, on doit voir un menu

    Tnagra dans Excel. On pourra se rfrer http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/r_Tanagra_Excel_AddIn.pdf

    Nous allons dans la suite, reprendre l'exemple des sections prcdentes, celui des notesbtenues par des lves. On commence par lancer Tanagra partir du tableur Excel (notreichier s'appelle notation.xls). On prendra soin de slectionner auparavant la plage de donnes.

    http://eric.univ-lyon2.fr/~ricco/ricco.htmlhttp://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.htmlhttp://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.htmlhttp://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Excel_AddIn.pdfhttp://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Excel_AddIn.pdfhttp://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Excel_AddIn.pdfhttp://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Excel_AddIn.pdfhttp://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.htmlhttp://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.htmlhttp://eric.univ-lyon2.fr/~ricco/ricco.html
  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    19/45

    En cliquant sur Execute Tanagra, on lance Tanagra sans problme.

    La fentre de droite donne le rsultat du chargement des donnes :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    20/45

    Nous voyons en effet que notre tableau de donnes a bien t charg.

    Pour obtenir quelques rsultats statistiques, il faut utiliser le composant Define statuseprsent par l'icne .

    Nous allons dfinir les variables que l'on souhaite traiter et que l'on mettra dans la rubriquenput.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    21/45

    Puis nous visualisons les donnes en se plaant sur Define status 1 et en cliquant sur le boutonroit de la souris sur View.

    On constate que notre choix a bien t pris en considration :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    22/45

    On se place dans le menu "Statistics" (fentre du bas) et on fait glisser l'icne "Univariateontinuous stat" (nos variables sont continues) sur Define status 1 :

    On peut obtenir des rsultats plus dtaills en utilisant l'icne "More Univariate cont stat" :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    23/45

    Passons maintenant l'analyse factorielle en composantes principales : choisissons le menuFactorial analysis" dans la fentre du bas et faisons glisser l'icne "Principal Component

    Analysis" sur Define status 1. Dfinissons les paramtres de l'ACP (bouton droit, menuParameters"). On choisira 3 axes et le calcul de Cos2 et de CTR (nous expliquerons cesuantits plus loin) :

    Puis nous visualisons les rsultats des calculs (bouton droit, menu "View") :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    24/45

    Nous obtenons, dans la fentre de droite plusieurs rsultats :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    25/45

    Dans ce premier tableau, on obtient les valeurs propres de la matrice des corrlations ainsiue l'inertie relative chacun des axes factoriels.L'histogramme n'est trac que pour lesrois premiers axes. Les deux autres tableaux seront comme,ts plus loin.

    Les rsultats intermdiaires du calcul peuvent tre visualiss avec le menu "Dataisualization" (fentre du bas) et l'icne "View Data Set" ( faire glisser sur "Principal

    Component Analysis".

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    26/45

    Nous retrouvons notre tableau de donnes de dpart, puis, pour chacun des trois axesactoriels, les quantits PCA_1_Axis_i qui reprsentent les coordonnes des points infividusans le rfrentiel des trois premiers axes factoriels.

    es quantits PCA_1_CTR_i (voir plus loin)

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    27/45

    es quantits PCA_1_COS2_i (voir plus loin)

    Notons que l'on peut exporter toutes ces donnes vers un tableur en utilisant le menuComponent/Copy rsults">. Cette commande permet de copier en mmoire les rsultats de laentre de droite. Il suffit ensuite de les copier dans une feuille de calcul.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    28/45

    Passons maintenant aux reprsentations graphiques. Tout d'abord, reprsentons les individusans les trois premiers axes factoriels pris deux deux. Pour cel, on choisit le menu "Dataisualization" dans la fentre du bas et on fait glisser l'icne "Scatterplot with label" sur

    Principal Component Analysis :

    Dans la lgende, on choisit "Attribute label" et on prend les axes (PCA_1_Axis1,PCA_1_Axis_2), puis (PCA_1_Axis1, PCA_1_Axis_3), puis (PCA_1_Axis_2, PCA_1_Axis_3) :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    29/45

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    30/45

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    31/45

    On retrouve (au signe prs) les rsultats obtenus " la main". On notera que d'autreseprsentations graphiques sont galement possibles ce stade (avec les variables,

    PCA_1_CTR_i, PCA_1_COS2_i).

    Passons maintenant au cercle des corrlations. Nous le tracerons dans le plan des deuxremiers axes factoriels. Pour cel, nous slectionnons "Principal Component analysis" et nousxecutons "Define status" avec l'icne ce qui donne "Define status 2" avec lequel nousfinissons en Input les variables prcdentes et en Target les axes PCA_1_Axis_1 et

    PCA_1_Axis_2 :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    32/45

    On fait ensuite glisser l'icne "Data visualization/Correlation scatterplot" sur Define status. On obtient avec View :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    33/45

    sultat analogue (au signe prs) de celui obtenu dans la session prcdente.

    Les aides l'analyse

    Qualit de la reprsentation d'un individu

    Dans un plan dfini par deux axes factoriels et , un point individu se projette en P(i) dontes coordonnes sont ( Yu )i et ( Yu )i d'aprs les rsultats des se rsultats des sessionsrcdentes

    .

    La proximit de l'individu avec le plan ( , ) est mesure par le carr du cosinus que fait leecteur Wi avec sa projection WP(i). Plus le point i est proche du plan ( , ), plus le carr duosinus est proche de 1.

    Mais

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    34/45

    t donc

    Les cosinus carrs pour chaque axe sont donns dans Tanagra par PCA_1_COS2_i :

    Ainsi, pour le plan (1,2), les qualits de reprsentation des individus sont donns dans leableau suivant :

    Nous pouvons ainsi constater que Evelyne est trs loigne du plan (1,2) tandis qu'uneroximit peu prs quivalente du plan (1,2) des autres individus est galement constate.

    Contribution d'un individu l'inertie d'un axe factoriel

    Elle est dfinie par le rapport

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    35/45

    l rsulte de la dfinition prcdente que la somme de toutes les contributions des individus inertie d'un axe est gale 1 :

    Tanagra nous fournit le tableau de ces contributions pour chaque axe :

    l est noter que ce tableau fait figurer les CTR en pourcentages. La somme fait donc 100 (eton 1). Selon la dfinition mcanique de l'inertie I = md 2 (ici m = 1/n), o d est la distance d'unoint l'axe, on peut constater que les contributions importantes sont relatives desndividus loigns de l'axe :

    q Monique, Jean et Didier sont donc les plus contributifs l'inertie de l'axe 1.q Pierre et Evelyne bsont les plus contributifs pour l'axe 2.q Evelyne est la plus contributrice pour l'axe 3.

    Quid des variables

    La situation est analogue celle des individus. On peut galement calculer le cos 2 et le CTRfinis de manire analogue.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    36/45

    - Reconstitution des donnes

    otre but initial, ne l'oublions pas, tait de remplacer un GRAND tableau de donnes par un tableau plus petitermettant de reconstituer au mieux les donnes initiales.

    ACP ayant t effectue, on dispose donc

    q de la matrice Y des donnes centres rduitesq

    des vecteurs propres et valeurs propres de la matrice des corrlations : u et ( = 1,...,p)q

    du tableau des coordonnes des points individus

    partir de la relation

    ,

    ost-multiplions par u T :

    n fait l'approximation suivante : seuls les q premiers axes factoriels tels que

    soit notable (80% par exemple)

    ont pris en considration. On est conduit l'approximation

    avec Yu u T

    q vecteurs ncomposantes

    q vecteurs pcomposantes

    onc le tableau Y constitu de np nombres est (presque) reconstitu avec q(n+p) nombres.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    37/45

    xemple : reprenons notre exemple standard. En se limitant aux trois premiers axes (q = 3), nous avons :

    Les vecteurs propres (pour les trois premiers axes) sont :

    t les valeurs propres associes sont 1 = 2,86 2 = 1,17 3 = 0,98

    Reconstituons le tableau :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    38/45

    t on obtient

    qui reprsente une bonne approximation du tableau Y .

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    39/45

    Module C106 : Analyse et fouille des donnes

    Analyse en composantes principales (ACP)

    Exercice s

    auteurs : Annie Morin, Miage Rennes, Grard-Michel Cochard, Miage Amiens

    Date de la dernire modification : 7 octobre 2007

    xercice 1

    rois tableaux de matres ont t nots de 0 10 par six spectateurs. Les notes attribues sont dans leableau de donnes suivant (tableau transpos) :

    n dsire raliser une analyse en composantes principales norme de ce tableau de notes. On donne les deuxlus grandes valeurs propres - et les vecteurs propres unitaires associs - de la matrice des corrlations :

    Donnez les pourcentages d'inertie explique par chacun des trois axes factoriels.

    Calculez les coefficients de corrlation linaire entre chacune des trois variables et chacune des deuxremires composantes principales. Reprsentez le cercle des corrlations.

    Calculez et prsentez dans un tableau (en utilisant ventuellement le tableur Excel) :

    q le tableau centr rduit partir duquel on effectue l'ACP,

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    40/45

    q les deux premiers facteurs,q les valeurs des contributions des spectateurs aux deux premiers axes factoriels,q les valeurs des cosinus carrs des spectateurs sur les deux premiers axes factoriels.

    Calculez les coordonnes sur les deux premiers axes factoriels dun nouveau spectateur qui a communiques notes aprs la ralisation de lanalyse : 8 pour le tableau 1, 6 pour le tableau 2 et 5 pour le tableau 3.

    Quelle est sa position dans le premier plan factoriel ?

    Peut-on raliser une ACP non norme de ce tableau ? (justifiez votre rponse)

    xercice 2

    e tableau ci-dessous donne les rsultats obtenus partir de 10 essais de laboratoire concernant la charge deupture y d'un acier en fonction de sa teneur x en carbone :

    n essaiteneur en

    carbone x pour10000

    charge derupture y en kg

    1 72 902 60 703 68 724 66 78

    5 64 756 62 757 64 808 70 859 62 7010 74 100

    tudier ce tableau avec les mthode de l'analyse factorielle en composantes principales.

    ) On peut effectuer une analyse factorielle non norme dans le cas de cet exemple car les valeurs desariables sont de mme "unit".

    olution de l'exercice 1

    ) Les pourcentages d'inertie sont 100*1,65/3 = 54,87% pour la premier axe factoriel et 100*1/3 = 33,33%our le deuxime axe factoriel. Donc dans le plan dfini par les deux premiers axes factoriels, on a une inertiee 88,20 % ce qui permet une bonne approximation en projection du nuage de points.

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    41/45

    ) A partir des vecteurs propres, on peut calculer les composantes des vecteurs variables dans les axesactoriels :

    n se limitant aux deux premiers axes factoriels, on obtient la reprsentation suivante avec le cercle desorrlations :

    es corrlations de chaque variable avec les axes factoriels sont donnes dans le tableau ci-dessus. A partire ce tableau, on peut aussi calculer lers corrlations entre les variables :

    or(T1,T2) = 0,337*0,842 - 0,929*0,371 = -0,061

    or(T1,T3) = 0,337*0,907 - 0,929*0 = 0,306

    or(T2,T3) = 0,842*0,907 + 0,371*0 = 0,764

    n constate que seules les varaibles T2 et T3 prsentent une certaine corrlation.

    ) Effectuons avec un tableur la suite d'oprations classiques :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    42/45

    ) individu supplmentaire (8, 6, 5)

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    43/45

    (individu supplmentaire en vert)

    olution de l'exercice 2

    alcul de la matrice des corrlations :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    44/45

    e calcul des valeurs et des vecteurs propres de C est facile ici. La matrice C- 1 est :

    1 - 0,876

    0,876 1 -

    e dterminant de cette matrice est (1 - )2 - 0,767 et l'quation rsoudre est (1 - )2 = 0,767 ce quionduit aux solutions

    1= 1,876

    2= 0,124. ( 93

    . :

    uis les coordonnes des points individus dans les axes factoriels :

    es composantes des vecteurs variables dans les axes factoriels sont :

    n observe bien la forte corrlation entre les deux variables.

    e tableau Y peut tre reconstitu partir des coordonnes des points individus YU et du vecteur UT :

  • 7/28/2019 Ch3 Analyse Factorielle en Composantes Principales

    45/45