Chapitre 4:
ACP: Analyse en Composante Principale
28/04/2014 1Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
I. IntroductionL’analyse en composante principale
(ACP) est une méthode statistiqueessentiellement descriptive: sonobjectif est de présenter, sous uneforme graphique, le maximum del’information contenue dans un tableaude données.
28/04/2014 2Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Ce tableau doit être constitué, en ligne,par des individus:
(animaux, clients, ménage … etc ) surlesquels sont mesurées des variablesqualitatives ou pouvant êtreconsidérées comme telles (rendement,chiffre d’affaire etc … ) disposées encolonne.
28/04/2014 3Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Si sont lesvariables et n le nombred’individus. X est unematrice rectangulaire à nlignes et p colonnes:
28/04/2014 4Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
28/04/2014 5Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
VariableUne colonne du tableau
IndividuUne ligne du tableau
28/04/2014 6Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Le choix des individus doit être enaccord avec les objectifs désirés. Ilsseraient issus d’une population commeil peuvent être diversifiés.
Le choix des variables à introduiredevront caractériser aussi bien quepossible les phénomènes qu’on veutétudier
28/04/2014 7Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
1 Les problèmes qui peuvent être abordés par l’ACP:
L’ACP sert à:
a. Expliquer le rendement d’une culture; du chiffred’affaire d’une entreprise, PIB d’un pays, etc ….
b. Sélectionner les variables sensées expliquer unphénomène à l’étude.
c. Constituer des groupes d’individus qui se ressemblentaux vues d’un certain nombre de variablesquantitatives, pour caractériser les individus demêmes groupes.
28/04/2014 8Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
L’ACP permet d’obtenir des graphiques où l’on peutobserver, aussi objectivement que possible, lesressemblances et dissemblances des individus,
L’ACP est utilisée pour savoir
- Comment se structurent les variables.
- Et/ou comment se répartissent les individus.
28/04/2014 9Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
2. Principe de l’ACPSi un tableau de données a p variables quantitatives, on
dira que les individus peuvent être représentés dans unespace de dimension p.
Si p > 3, il est difficile voir impossible de voir ladiposition des individus dans un tel espace.
Le but de l’ACP est de trouver des espaces de dedimensions plus petites dans lesquels il soit possibled’y observer ‘« au mieux » les individus.
28/04/2014 10Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Pour des raisons évidentes de facilité devisualisation, les espaces retenus serontà une dimension (c’est-à-dire desdroites) ou, et ce sera le cas le plusfréquent, à deux dimensions (c’est-à-dire des plans)
28/04/2014 11Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
C’est ce qui se passe lorsque nous réalisonsdes photographies: on passe d’un espace dedimension 3 « où nous vivons » à un espaceà deux dimensions: la photos que nousréalisons.
Ce pendant, selon l’angle sous lequel, onprend notre sujet, toutes nos photosn’apporteront pas la même information surcelui-ci;
28/04/2014 12Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Exemple 1Un autre exemple est celui des couleurs des photos:Nous avons tous des milliers de photos sur nos PCs etcela prend beaucoup de place sur nos disques. Cela esten partie du au fait que chaque image est en couleur:rouge ,vert, bleu (RGB). Chaque pixel, chaque site(x,y), contient une information couleur sur l'intensitédu rouge, l'intensité du vert, l'intensité du bleu. Il estdonc possible de diviser par trois la taille d'une image,en ne conservant qu'un seul canal.
28/04/2014 13Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Figure: L'image dont on veut réduire l'espace couleur
28/04/2014 14Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
(a) (b) (c)Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ».(c) Image projetée sur l'axe « bleu ».
28/04/2014 15Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 16
- Les droites et les plans d’une ACP sont réalisés avecdes combinaisons linéaire des variables initialesqu’on appelle indices synthétiques.
- Parmi tous les indices synthétiques, l’ACPrecherche d’abord celui qui permet au mieux devoir les individus i.e celui pour lequel la variancedes individus est maximale: cet indice est appelépremière composante principale, ou encorepremier axe principale. Une certaine proportion dela variation totale des individus est expliquée (ouvisible) par cette composante principale.
28/04/2014 17Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Ensuite, une deuxième composanteprincipale est recherchée, et cecisous deux conditions:
- Avoir une corrélation nulle avec lapremière
- Avoir à son tour, la plus grandevariance.
28/04/2014 18Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Le processus continue jusqu’à l’obtention dela p ème composante principale, les partsd’information expliquées par chacune d’ellesdevenant de plus en plus faible.En résumé, la phase essentielle de l’ACP,
consiste à transformer les p variablesquantitatives initiales, toutes plus ou moinscorrélées entre elles, en p nouvelles variablesquantitatives, non corrélées, appeléescomposantes principales.
28/04/2014 19Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
3. Présentation des résultats de l’ACP
Tout logiquement, c’est le plan engendrépar les axes 1 et 2 qui sera examiné enpremier: par construction, c’est le plansur lequel le maximum del’information est visible, il est appelé le«plan principal» ou «plan 1-2».
28/04/2014 20Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Selon la part d’information prise encompte par ce plan, il sera nécessaireou non d’en examiner d’autres.
Sur ces plans, il sera nécessaire dereporter les directions des variablesinitiales, afin de connaitre celles quiont joué un rôle prépondérant dans laconstitution des composantesprincipales.
28/04/2014 21Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Mais il faudrait se méfier; deux individusproches sur un plan, pourraient ne pasl’être dans la réalité.
Il serait extrêmement utile de regarderquelque indicateurs complémentaires,calculé par tout bon logiciel et quipermet de juger de la qualité de lareprésentation de ces individus.
28/04/2014 22Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
4. Type de tableau pouvant êtretraités par l’ACP
Les variables doivent être quantitatives ou pouvantêtre considérées comme telles.
Selon la nature de ces variables, on peut distinguertrois grands types de tableaux:
28/04/2014 23Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
a. Les tableaux de mesures: les variables sontobtenues à partir de comptage (nombresd’enfants par ménage, nombre d’épis, … etc)ou sont obtenues à partir d’appareils de mesure(balance, humidimètre, … etc).
b. Les tableaux de notes: (note par exemple entre 0et 20) d’intensité d’une maladie, de niveau desatisfaction d’un produit … etc. ce sont desvariables aléatoires ordinales mais qui peuventêtre généralement assimilées à des variablesaléatoires continues.
28/04/2014 24Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
c. Les tableaux de rangs: Les variablessont des rangs; les n individus sontclassés de 1 à n, du meilleur au plusmauvais, du plus rapide au plus longpar exemple.
28/04/2014 25Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Remarque importante:En pratique, Les tableaux à analyser sont le
plus souvent de différentes natures (mixte);et c’est les variables les plus dispersées quiengendre les premières composantes. Pourremédier à cet inconvénient, il estrecommandé de donner la mêmeimportance à toute les variables en lesréduisant.
28/04/2014 26Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
L’ACP est réalisé soit:- sur les données centrées, les
variables qui sont les plusdispersées auront plus de poids.
- sur les données centrées et réduitespour donner la même importance àtoutes les variables
28/04/2014 27Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
28/04/2014 28Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Attention
Si l’opération de réduction diminuel’importance des variables les plusdispersées, elle peut inversement,augmenter l’importance des variablespeu dispersées.
Une variable qui aurait à peu près lamême valeur, se verrait attribuer unpoids important, alors que le bon sensconduirait à l’éliminer.
28/04/2014 29Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Les matrices à considérer pour une ACP sont alors lamatrices de variance-covariance V ou la matrice decorrélations R.
où V est la matrice de variance-covariance
28/04/2014 30Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
et
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 31
Exemple 2: BDD SPSS caractéristiques des dentifrices
Il s’agit d’une étude qui porte sur les avantagesfondamentaux recherchés par les consommateurslors de l’achat d’un dentifrice. Le sondage estréalisé dans 1 centre commercial auprès d’unéchantillon de 30 personnes, qui ont donné leuravis sur les affirmations suivantes, sur 1 échelle de 1(en total désaccord) à 7 (entièrement d’accord) même nombre d’échelons
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 32
-V1 : Il est important d’utiliser un dentifrice qui
prévient la formation des caries.
- V2 : Un dentifrice doit rendre les dents brillantes.
- V3 : Un dentifrice doit renforcer les gencives.
- V4 : Un dentifrice doit rafraîchir l’haleine.
- V5 : La prévention des caries n’est pas un avantage
important du dentifrice (sic).
- V6 : Un dentifrice doit avant tout donner de belles
dents
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 33
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 34
II. Lexique d’interprétation des paramètres
Pour transformer les p variables initialesinter-corrélées en p nouvelles variablesnon corrélées, appelées composantesprincipales, on procède en deux étapes:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 35
- La première consiste à élaborer:
- soit la matrice de variance covariance- soit la matrice de corrélation
La deuxième étape est la diagonalisation: Cetteopération impossible à exécuter à la main, fournitessentiellement deux matrices:
- Une matrice de vecteurs propres.- Une matrice diagonale de valeurs propres rangées dans
le sens dégressives:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 36
Facteurs principaux:
Pour une ACP sur données centrées et réduites: Lamatrices à considérer est la matrice de corrélation R devecteurs propres appelés facteurs principaux:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 37
Utilisation de l’information fournie par les valeurs propres:
On montre que qu’une valeur proprereprésente la variance des individus sur l’axecorrespondant. Chaque valeur propre peutêtre exprimée en valeur relative de lavariance totale est qui est donc la sommedes ces valeurs propres:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 38
Remarque
Dans le cas d’une ACP sur des donnéescentrées et réduites, chaque variable a pardéfinition une variance égale à un, donc lasomme des variances est égale au nombre deces variables initiales. Par conséquent, lerapport de chaque valeur propre à lasomme de toutes les valeurs propresfournit un renseignement intéressant: lapart de toute l’information initiale visiblesur chaque axe.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 39
Puis ce que les valeurs sont classées de la plusgrande à la plus petite, c’est sur le premieraxe principale que sera visible le maximumd’information en comparaison avecn’importe quel autre axe.
Etant donné que le deuxième axe principal estchoisi avec une corrélation nulle avec lepremier, c’est le plan principale que seravisible le maximum de l’information dunuage de point en comparaison avecn’importe quel autre plan.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 40
Quant à la matrice des vecteurs propres,elle est formée en colonne par lesvecteurs propres de la matrice MV, c’estles axes principaux.
Ces vecteurs propres contiennent lescoefficient des combinaisons linéaires:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 41
Les composantes principales sont alors les vecteursde
avec
Y étant le tableau des données centrées et D lamatrice diagonale:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 42
C’est-à-dire
Les sont les données centrées ou centrées etréduites
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 43
On montre que le vecteur propreassocié à la plus grande valeur propreexplique le maximum de toutel’information du nuage de points (lesdonnées) parmi tout les autres axes.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 44
Puis ce que les valeurs sont classées de la plusgrande à la plus petite, c’est sur le premier axeprincipale que sera visible le maximum del’information totale en comparaison avecn’importe quel autre axe.
Lorsque le deuxième axe principal est choisiavec une corrélation nulle avec le premier,c’est sur le plan principale que sera visible lemaximum de l’information du nuage de pointen comparaison avec n’importe quel autreplan.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 45
Nombre d’axe à retenir:
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 46
Dimension de l'espace des individus L'ACP visant a réduire ladimension de l'espace des individus, on veut conserver aussipeu d'axes que possible. Il faut pour cela que les variablesd'origine soient raisonnablement corrélées entre elles. Les seulscritères utilisables sont empiriques.
Interprétation des axeson s'efforce de ne retenir que des axes a propos desquels uneforme d'interprétation est possible (soit directement, soit enterme des variables avec lesquels ils sont très corrélées).
Critère de Kaiser (variables centrées réduites)on ne retient que les axes associes a des valeurs propressupérieures a 1, c'est-à-dire dont la variance est supérieure acelle des variables d'origine.Une autre interprétation est que la moyenne des valeurs propresétant 1, on ne garde que celles qui sont supérieures a cettemoyenne.
Éboulis des valeurs propresAutre façon de choisir le nombre de classes est dechercher un coude dans le graphe des valeurspropres
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 47
Retour à l’exemple 2,
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 48
Dans notre exemple 2, si l’on retient les valeurs propres > 1, alors nous devrionsretenir 2 axes factoriels.
Corrélation entre composantes et variables initiales
Quand on travaille sur les variables centrées-réduites, lacorrélation entre une composante principale ck et unevariable zj est
et donc le vecteur des corrélations de ck avec Z est
Commeon a finalement
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 49
Le cercle des corrélations r(zj;c2). Qu'est-ce que c'est?
c'est une représentation ou, pour deux composantes principales, par exemple c1et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) etd'ordonnée r(zj;c2).
Effet « taille »cela arrive quand toutes les variables sont corrélées positivement avec lapremière composante principale. Cette composante est alors appelée facteur detaille, la seconde facteur de forme.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 50
Les coefficients de corrélation entre variablesinitiales et facteurs (également appeléspoids factoriels ou loadings) : plus lacorrélation entre une variable et un facteurest élevée, plus cette variable apporte dusens au facteur. Idéalement pourl’interprétation, une variable contribuefortement à un facteur (valeur > à 0,5 ou 0,6en v.a.) et faiblement aux autres facteurs(valeurs < 0,3 en v.a).
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 51
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 52
Un dentifrice semble a priori être acheté pour 2 raisons principales : soit« santé » (caries/gencives) soit pour des attentes plus « sociales »(brillance/belles dents ou haleine fraîche).
Le facteur 2 est représenté par lesvariables brillance, haleine et bellesdents.
Le facteur 1 oppose caries/gencivesà prévention caries (qui est codéedans l’autre sens).
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 53
Représentation graphique des variables :
Représentation des individus sur le plan principal
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 54
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 55
Dans notre exemple 2, ceci présente peu d’intérêt. Cependant, si l’on avaitété renseigné sur la marque consommée par ces différents individus, cegraphe complémentaire aurait été beaucoup plus intéressant. Ajoutons 1colonne « conso » censée représentée la marque de dentifrice consomméepar l’individu interrogée. On code (affichage des variables valeurs)
1:Sanogyl
2:parogencyl
3:fluocaril
4:tonigencil
5:colgate
6:signal
7:rembrandt
8:ultrabrite
On réalise un nouveau graph, mais cettefois on va étiqueter les observations parmarque consommée.
Remarque : on peut de la même manièrefaire apparaître les variables de notre choixsur la graph.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 56
Marques
sociales
Marques santéMarques
généralistes
Les données considérées sont centrées, elles ne sont pas réduites.
Matrice de variance-covariance:
Matrice de vecteurs propres:
Matrice des valeurs propres
28/04/2014 57
On a
La proportion de l’information totale visible sur l’axeprincipale dépasse 90%.
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 58
28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 59
(a) (b) (c)
Figure: (a) : Image originale. (b) Image projetée sur le plan pricipal del'ACP. (c) Image projetée sur le premier axe principale.
VI. Variables supplémentaires et Individus supplémentaires.
a. Variables supplémentairesL’utilisation de variables supplémentaires s’imposent
quand on veut chercher s’l y a des liens (linéaires) entre unevariable qui représente un intérêt particulier, et d’autresvariables censées «l’expliquer».Une variable supplémentaire est donc une variable«à expliquer». Elle ne participe pas à la construction desaxes. Ce n’est qu’à cette condition que l’observation desliaisons entre la variable à expliquer et les variables activesest objective.
28/04/2014 60Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
b. Individus supplémentairesLes individus supplémentaires ne participent pas à laconstruction des axes. Mais peuvent être représentéssur les plans principaux.Ces individus serviront d'échantillon test pourvérifier les hypothèses tirées de l'ACP sur lesindividus actifs.
28/04/2014 61Pr. MERBOUHA Analyse des donnéesEconomie/Gestion
Recommended