35
UNIVERSITÉ LUMIÈRE LYON 2 FACULTÉ DE SCIENCES ÉCONOMIQUES ET DE GESTION M1 - Economie quantitative Analyse des données Polycopié 1 : Méthodes factorielles Année Universitaire 2013-2014 R. Abdesselam Courriel ; [email protected] http://eric.univ-lyon2.fr/~rabdesselam/Documents/

Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

UNIVERSITÉ LUMIÈRE LYON 2

FACULTÉ DE SCIENCES ÉCONOMIQUES

ET DE GESTION

M1 - Economie quantitative

Analyse des données

Polycopié 1 : Méthodes factorielles

Année Universitaire 2013-2014 R. Abdesselam

Courriel ; [email protected]

http://eric.univ-lyon2.fr/~rabdesselam/Documents/

Page 2: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 2 - R. Abdesselam

PRESENTATION

Description détaillée du cours

1. Analyse statistique des données uni-bidimensionnelles

- Introduction aux méthodes de sondage - Les types de questions (fermée, ouverte-textuelle) - codage - Méthodes descriptives ( tris à plat - tris croisés - Tamis – analyse bivariée) - Méthodologie et Techniques de dépouillement d’enquête - traitements statistiques

2. Analyse statistique des données multidimensionnelle

2.1 Méthodes d'analyse factorielle

- Analyse en Composantes Principales - Analyse Factorielle des Correspondances Simples - Multiples - Analyse Factorielle Discriminante - Analyse Discriminante Linéaire

2.2 Méthodes de classification automatique des données

- Classification non hiérarchique : nuées dynamiques - Analyse et interprétation d’une partition - Classification hiérarchique ascendante - descendante

Objectifs

Le but de ce cours est de donner aux étudiant(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l’interprétation correcte et l’utilisation pratique de celles-ci. Par conséquent, l’emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu’à facilité la compréhension des méthodes étudiées. Les méthodes les plus importantes sont présentées d’une manière aussi concrète que possible, sans que soient trop développés ni les fondements mathématiques, ni les questions de calcul numérique. Le logiciel SPAD sera utilisé mais aucune connaissance préalable de celui-ci n’est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d’hypothèse) de base est requise.

Chaque méthode est illustrée par des applications à des données réelles. L’utilisateur doit évidemment avoir une idée suffisamment précise des principes généraux et des conditions d’application de ces méthodes, mais il doit consacrer essentiellement son attention à la méthodologie d’enchaînement de ces méthodes et à l’interprétation des résultats obtenus.

L’analyse des données permet l’étude d’un problème dans sa globalité : multiplicité et interaction des critères, diversité de l’environnement. Elle permet la description, l’exploration, l’analyse d’importants tableaux de données. Bien adaptée aux études de terrain, c’est en particulier l’outil idéal des traitements d’enquêtes.

Les entreprises croulent littéralement sous le poids des données qu’elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d’informations pouvant être bénéfiques à l’entreprise si utilisées correctement.

Enfin, sous le vocable « Data mining » fouille de données, on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, faire de la segmentation ou bien de découvrir des associations pertinentes. L’analyse multidimensionnelle des données est à la base de plusieurs techniques de data maning et est utilisée dans plusieurs domaines de l’économie et de la gestion dont le marketing.

Page 3: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 3 - R. Abdesselam

Approche pédagogique

Sept séances de cours magistraux salle E233 – durée 3h30) et six séances de travaux dirigés (salle E233 – durée 1h30) comprenant des exemples d’application traités avec le logiciel SPAD.

MATERIEL PEDAGOGIQUE

Ressources diverses

(2) Polycopiés de cours, (1) polycopié de travaux dirigés ainsi que de nombreux fichiers de données réelles SPAD – Système pour l’Analyse de Données, version 7.4, Kit-Etudiant.

Références bibliographiques

Référence(s) de base

[1] Bouroche J.M., Saporta G. L'analyse des données, "Que sais-je?" N°1854 , PUF, 8ème

édition (2002).

Ce fascicule de poche constitue une excellente introduction à l’analyse statistique multidimensionnelle. Il met l’accent sur l’interprétation intuitive des idées et concepts en n’ayant presque aucun recours à la notation mathématique. Il accorde aussi beaucoup d’importance à l’interprétation correcte des résultats.

Autres références

[2] Caillez F., Pages J.P. Introduction à l'Analyse des Données SMASH (1975).

[3] Celeux G, Diday E, Govaert G, Lechevalier Y, Ralambondrany H. Classification automatique des données. Environnement statistique et informatique, Dunod (1989).

[4] Cibois P. L'analyse factorielle, "Que sais-je?" PUF (1983).

[5] Cibois P. L'analyse des données en sociologie. PUF (1984).

[6] Escofier B., Pagès J. Analyses factorielles simples et multiples 3ème

édition Dunod (1988).

[7] Fenneteau H., Bialès C. Analyse statistique des données. Ellipses (1993).

[8] Grangé D., Lebart L. Traitements statistiques des enquêtes. Dunod (1993).

[9] Han J. , Kamber M. : Data Mining Concepts and Techniques, (2001).

[10] Michael J.A. Berry, Gordon Linoff : Data Mining, Masson (1997).

[11] Moscarola J. Enquêtes et analyse de données. Vuibert Gestion (1990).

[12] Rodriguez Herrera R., Salles-Le-Gac D. Initiation à l’analyse factorielle des données – Fondements mathématiques et interprétations. Ellipses (2002).

[13] Saporta G. Probabilité, analyse des données et statistique Editions Technip (1990).

[14] Stanton A, Glantz K, Bryan K : Primer of applied regression and anlysis of variance, Mc Graw Hill, (2000).

[15] Volle M., Analyse des données. Economica (1978).

[16] Guide du logiciel SPAD version 6 Système pour l’Analyse des Données.

Adresses de sites Web à consulter :

[1] http://www.decisia.fr/SPAD_Presentation.html

[2] http://www.decisia.fr/index2.html

[3] http://dept.econ.yorku.ca/jasj/classes.html Cours C. Gourieroux, Econometric, Analysais of individual Risks

[4] http://dorakmt.tripod.com/mtd/glosstat.html glossaire statistique

CONTROLE DES CONNAISSANCES

Examen terminal - durée 2h - salle informatique.

Page 4: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 4 - R. Abdesselam

Préambule

Ce cours vise à présenter les méthodes d'analyses de données en mettant l'accent sur les outils d'interprétation, sans écarter pour autant l'exposé des principes de fonctionnement. Ces méthodes d'analyse sont aisées à mettre en oeuvre depuis le développement des moyens informatiques puissants de calcul, mais leur interprétation est souvent délicate.

On insistera donc sur leurs aspects intuitifs, à savoir leur principe général, leurs objectifs et les

techniques d’interprétation des résultats. De plus, chaque méthode est illustrée par des applications à des données réelles.

Bien évidemment, avant d'effectuer ces méthodes d'analyses multidimensionnelles sophistiquées, il

est recommandé de prendre contact avec les données au moyen des outils classiques de la statistique descriptive ou de ceux plus récents de la statistique exploratoire ( cf. Méthodologie et techniques de dépouillement d'enquête ).

Les objectifs

- mettre en évidence les principes de fonctionnement de ces méthodes sans recourir au formalisme mathématique (des ouvrages permettant d'approfondir les fondements mathématiques sont indiqués en bibliographie),

- montrer à partir d'exemples réels comment interpréter les résultats de ces analyses,

- donner une idée de l'intérêt mais aussi des dangers et limites de ces méthodes,

- l'enchaînement canonique de ces méthodes dans le cadre d'une analyse structurelle des données d'enquête.

Un peu d'histoire

Les prémices de ces méthodes ont été mises en place dans la première moitié de ce siècle par les travaux de Pearson (1904) et Hotelling (1933), aboutissant à l'Analyse en Composantes Principales (ACP, Principal Component Analysis, PCA, appelée aussi Factor Analysis dans certains logiciels) qui permet de traiter un tableau de variables quantitatives.

Dans les années 1968-1975, divers travaux tentent de mettre au point une technique équivalente pour traiter des tableaux de contingence ( tableau croisé de deux variables qualitatives ) : on peut citer les modèles de l'américain Goodman. Un français, Benzecri, trouve le moyen d'appliquer les principes de l'ACP à un tel tableau : c'est l'Analyse Factorielle des Correspondances (AFC). Il assortit ses travaux de considérations épistémologiques sur l'inutilité des hypothèses probabilistes (qui sont à la base des statistiques classiques : test, etc..) dans le traitement des données. Il prône une approche fondée sur le refus de ces hypothèses qui se présente comme une alternative aux approches statistiques classiques (essentiellement d'origine anglo-saxonne) et prend le nom d'Analyse de Données.

A la suite de ces travaux, une sorte d'école se développe en France. Diverses techniques sont mises au point dans ce cadre : Analyse Factorielle des Correspondances Multiples ( AFCM ou ACM ) ; Analyse Factorielle Discriminante (AFD); Segmentation ; Méthodes des Nuées Dynamiques ; etc. A la fin des années 80 la querelle entre partisans de l'Analyse de Données et statisticiens "classiques" s'est apaisée. Les premiers ont réintroduit des éléments de probabilités dans leurs techniques et les seconds ont fini par considérer que ces méthodes pouvaient parfois être utiles.

Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des

moyens d’exploitation informatique « intelligente » des données utilisant des modèles de prédiction variés. La traduction en français la plus proche est « fouille de données ». Il ne suffit pas d’avoir les données, encore faut-il savoir les traiter pour les synthétiser, les analyser, les rechercher, les mettre en perspective d’une action bien définie ou d’un objectif à atteindre. C’est ainsi que s’introduit naturellement le Data Mining qui est essentiellement dû à la conjonction des deux facteurs suivants :

Page 5: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 5 - R. Abdesselam

- l’accroissement exponentiel, dans les entreprises, de données liées à leur activité (données sur la clientèle, les stocks, la fabrication, la comptabilité, la gestion, les ressources humaines, etc.). Les entreprises ont vite compris qu’il serait dommage de ’ jeter’ ces données car elles contiennent des informations-clé (connaissances) sur leur fonctionnement, ces connaissances s’avérant stratégiques pour la prise de décision.

- Les progrès très rapides des matériels et logiciels informatiques, permettant de stocker des données et de les analyser pour un coût de plus en plus faible, tout en gérant des volumes de plus en plus importants.

L’analyse statistique exploratoire des données nécessite beaucoup de calculs et est inutilisable sans

moyens informatiques. Pour traiter ses données, le statisticien contemporain a le plus souvent recours aux grands logiciels très répandus SAS, SPAD, SPSS. Ces logiciels constituent des outils indispensables très puissants, voire de véritables environnements informatiques (SAS), permettant le traitement d'une grande variété de données.

Introduction

Plus de vingt-cinq années de pratique ont démontré la puissance des méthodes d'analyses de données ou techniques de statistique descriptive multidimensionnelle, pour acquérir de l'information synthétique sur des échantillons énormes ou les très grands ensembles de données complexes comme le sont les fichiers d'enquêtes. La souplesse des programmes de calcul et leur efficacité permettent d'y faire appel de façon répétée sur les mêmes données.

Lorsqu’on dispose d’un volumineux fichier de données, il est difficile d’appréhender globalement l’information contenue. Les méthodes statistiques classiques sont insuffisantes. En effet, la statistique descriptive nous enseigne seulement comment dégager des pourcentages et comment représenter l’intensité entre deux caractères, par exemple le PIB en fonction de la population d’un ensemble de pays ; la statistique inférentielle (mathématique), quant à elle, permet d’estimer des paramètres de distribution ( moyenne, variance, proportion, etc.) et de vérifier la validité d’hypothèses, notamment si deux séries de données correspondent à deux caractères corrélés. Toutes ces méthodes ne permettent pas d’extraire les informations d’un grand fichier, d’où l’on veut, en dépistant des concomitances répétées, déduire les relations statistiques entres diverses caractéristiques. L’analyse des données permet des études globales incluant toutes les caractéristiques de ces mêmes données ; ces études ont pour but de mettre en lumière les phénomènes importants en faisant le minimum d’hypothèses a priori sur les importances relatives des informations. Aujourd’hui, l’analyse des données est devenue un outil indispensable dans de nombreux domaines, par exemple l’aide à la décision, en finance, dans les études de marché ou dans l’étude du risque.

Les méthodes d'Analyse de Données sont rangées en deux grandes familles : les méthodes d'analyse factorielle et les méthodes de classification automatique.

Ces deux familles de méthodes ont pour objet de résumer l'information contenue dans les données. Elles sont plus complémentaires que concurrentes, et peuvent avec profit être utilisées conjointement sur un même tableau de données du type " individus ( objets ) x variables ( attributs )". On peut, dans certains cas, associer utilement une classification aux résultats d'une analyse factorielle.

Les méthodes d'analyse factorielle constituent un domaine important de l'analyse des données et relèvent de l'analyse linéaire. Elles sont diverses de part leurs différents domaines d'applications, mais leurs arrière-plans mathématiques sont très proches. Les méthodes factorielles ont pour objet de résumer l'information apportée par un ensemble de variables, par un nombre plus restreint de variables nouvelles appelées "facteurs".

Les méthodes de classification automatique porte sur l'ensemble des individus ( objets ) qu'il s'agit de regrouper en classes ou catégories jugées les plus homogènes possibles et cela au regard d'un critère.

On distinguera les variables selon leur type : quantitatives ou qualitatives et selon leur fonction dans l'analyse : actives ou illustratives ( supplémentaires ).

Page 6: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 6 - R. Abdesselam

1- Analyse en Composantes Principales

1-1 Généralités

L'Analyse en Composantes Principales1 (ACP) est une méthode statistique exploratoire permettent une

description essentiellement graphique de l’information contenue dans de grands tableaux de données. C’est aussi une méthode de structuration et de synthèse de données numériques. Elle permet de présenter un résumé descriptif, accompagné de représentations graphiques, d'un ensemble d'observations mesurées sur un ensemble de variables numériques. On utilisera cette méthode lorsqu'il s'agira de décrire et de "visualiser" au mieux l'information contenue dans un tableau de données quantitatives où n individus ( objets ) ont été évalués en fonction de p variables ( attributs ou caractéristiques ).

L'ACP est une méthode très efficace pour représenter des données corrélées entre elles. Elle est largement utilisée dans les études de marché, d’opinion et, de plus en plus, dans le domaine industriel.

1-2 Présentation de la méthode

Supposons que l'on analyse les variables PIB et Population d'un ensemble de pays. On peut construire un graphique représentant les individus ( 15 pays de UE ) :

En présence de deux variables, il est facile de représenter, dans un plan , l'ensemble des données . L'allure

du nuage de points permet, d'étudier l'intensité de la liaison "corrélation" entre ces deux variables, de situer les différents individus ( pays ) et éventuellement de les classer.

Supposons que l'on dispose d'une troisième variable "Taux d’inflation" : il devient alors difficile de tout avoir sur un graphique. Il faut recourir à la perspective ou faire deux graphiques ( PIB x Population et Taux d’inflation x Population par exemple ). Rajoutons une quatrième variable ‘’Taux de croissance’’, voire une cinquième ‘’Taux de chômage’’, etc. La représentation graphique des données devient alors impossible. Or ces variables sont corrélées entre elles : elles sont donc partiellement redondantes.

Question : peut-on déterminer un nombre restreint de variables, représentant les mêmes données et non corrélées entre elles ?

1 Principal Component Analysis (PCA).

Page 7: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 7 - R. Abdesselam

1-2 Objectif de la méthode

L'ACP consiste à synthétiser le nombre de variables observées, autrement dit elle va tenter de résumer l'information contenue dans le tableau de données, en un ensemble réduit de combinaisons linéaires des variables initiales, en veillant à minimiser la perte d'information du fait de cette réduction. Ces nouvelles variables synthétiques appelées "composantes principales ou facteurs ou encore macro-caractéristiques" possèdent donc les propriétés suivantes :

- les composantes principales, notées ( C1, C2, ..., Cq ), sont des combinaisons linéaires des variables

initiales ( X1, X2, , Xp ) : Cj = a1X1 + a2X2 + ... + apX

p

pour tout j = 1,q avec q p .

- elles sont non corrélées (les coefficients de corrélation linéaire des composantes prises deux à deux sont nuls) ce qui évite la redondance de l'information déjà résumée.

- la première composante porte ou résume plus d'informations que la seconde qui en porte plus que la troisième et ainsi de suite, de sorte qu'en se limitant aux 2 ou 3 premières composantes on dispose d'un bon résumé de l'information contenue dans les données.

En résumé, on peut dire que l’ACP consiste à transformer les variables initiales corrélées en de nouvelles variables, les composantes principales, combinaisons linéaires des variables initiales non corrélées entre elles, de variance maximale et les plus liées aux variables initiales : l’ACP est une méthode factorielle linéaire. Ainsi, on utilisera l’ACP pour faire apparaître :

- la structuration des variables actives, c’est-à-dire les systèmes de relation qui existent entre elles ; leurs association ou leurs oppositions.

- La répartition des individus les uns par rapport aux autres, en relation avec les variables traitées ; les individus qui présentent des caractéristiques communes ou antagonistes.

A noter que l’ACP est une méthode essentiellement descriptive, préalable à l’emploi d’autres méthodes

statistiques, telles que les méthodes de classification, de régression ou encore d’économétrie.

Moyens mathématiques

Les outils mathématiques utilisés sont ceux de l'algèbre linéaire et du calcul matriciel. Le principe est le suivant :

Diagonalisation

Matrice des corrélations > Matrice des valeurs propres

X1 X2 ... Xp C1 C2 ... Cp X1 1 r12 ... r1p C1 1 0 0 0

X2 r21 1 ... r2p C2 0 2 0 0

... ... ... ... ... ... 0 0 ... 0 Xp rp1 rp2 ... 1 Cp 0 0 0 p

( r12 = r( X1 , X

2) coefficient de corrélation linéaire entre les variables X

1 et X

2 )

On diagonalise la matrice des corrélations2 (matrice symétrique dont les éléments sont les coefficients de

corrélation linéaire entre les variables initiales prises deux à deux) (*).

- les vecteurs propres de cette matrice définissent les nouvelles variables recherchées; les composantes principales

- les valeurs propres associées, sont les variances des composantes principales (l'information résumée par chacune des composantes).

- les axes factoriels sont les droites engendrées par les vecteurs propres.

On peut montrer que les composantes principales ainsi définies, vérifient bien les propriétés recherchées : non corrélées entre elles, de variance décroissante, combinaisons linéaires des variables de départ. Cette dernière propriété permet de construire des graphiques représentant les individus aussi bien que les variables dans l'espace défini par les composantes.

2 On ne traite ici que le cas le plus courant. Le cas général part de la matrice des variances-covariances et d'une matrice des poids qui peut

varier. Ici on parle d'une ACP normée, les données sont centrées et réduites pour éliminer les effets de l'origine (moyennes) et des unités (variances) des variables.

Page 8: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 8 - R. Abdesselam

1-3 Points à retenir

- Matrice des corrélations : fournit des éléments de description des associations entre les variables actives. Sa lecture nous donne une première idée de l'intensité de la liaison linéaire entre les variables, mais l'analyse en composantes principales va permettre d'obtenir une synthèse de ces liaisons.

- Somme des valeurs propres : représente la variance ( l'inertie, l'information ) totale à résumer . Elle est égale au nombre de variables dans le cas d'une ACP normée.

- Valeur propre : la variance de la composante principale correspondante (l'information résumée par l'axe factoriel considéré).

- Pourcentage : le rapport de la valeur propre à l'inertie totale, ce qui mesure la quantité de l'information résumée par l'axe factoriel correspondant.

Variables et individus actifs : Interprétation interne

Variables actives

- Coordonnées : les coordonnées des variables initiales sur les axes factoriels engendrés par les composantes principales.

- Corrélations variables-facteurs : coefficients de corrélations entre les variables actives initiales et les composantes principales; ce qui mesure la qualité de la représentation des variables dans les plans factoriels.

Individus actifs

- Coordonnées : les coordonnées des individus sur les axes factoriels

- Contribution : mesure la qualité de représentation de l'individu sur l'axe factoriel considéré. C'est la part d'inertie ou d'information de l'individu à la détermination de l'axe factoriel correspondant

- Cosinus carré : détermine la qualité de représentation de l'individu sur l'axe factoriel considéré. La qualité de la représentation d'un individu dans un plan est définie par la somme des cosinus carrés correspondant aux deux axes factoriels définissant le plan.

Variables et individus supplémentaires : Interprétation externe

Les éléments supplémentaires éventuels n’interviennent pas dans les calculs de détermination des composantes principales ; par contre, ils sont très utiles a posteriori pour enrichir l’interprétation de ces composantes.

Variables supplémentaires

On peut également représenter dans l'analyse, des variables mixtes ( quantitatives et/ou qualitatives ) supplémentaires ou illustratives. L'utilisation de ces variables qui n'ont pas participé à la détermination des axes factoriels apporte des éclairages différents, il s'agit alors d'une interprétation externe.

- Les variables quantitatives illustratives se représentent aisément dans le cercle des corrélations à partir de leurs corrélations avec les composantes principales.

- Quant aux variables qualitatives, on utilise en général le principe barycentrique qui consiste à faire figurer le centre de gravité ( point moyen ) de chaque modalité.

Individus supplémentaires

- On peut également projeter des individus supplémentaires, à partir de leurs coordonnées relatives aux variables initiales. N'ayant pas servi à la détermination des axes, les contributions des individus illustratifs sont nulles.

Page 9: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 9 - R. Abdesselam

1-4 Qualité des représentations - Interprétation des résultats

Les projections sur les plans principaux sont des représentations déformées de la réalité et il convient de prendre des précautions quant à l'interprétation des résultats. On peut décomposer la lecture des résultats d'une ACP en plusieurs étapes qui sont les suivantes :

- L'histogramme des valeurs propres permet de vérifier la qualité du résumé sur les différents axes factoriels. Le nombre d'axes à retenir est un problème délicat et qui n'a pas de solution rigoureuse.

Il n'y a pas de règle précise fixant un seuil à partir duquel on éliminerait l'analyse ou décidant du nombre d'axes à étudier ( en analyse des données, tout est affaire d'interprétation ). Souvent on tient compte de la forme de l'histogramme pour déterminer le nombre d'axes à interpréter :

+--------+----------+----------------------------------------------------------------------------------+

| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |

| | CUMULE | 2 axes factoriels | +--------+----------+----------------------------------------------------------------------------------+

| 1 | 63.03 | ******************************************************************************** |

| 2 | 93.23 | *************************************** |

| 3 | 98.54 | ******* |

| 4 | 100.00 | ** |

+--------+----------+----------------------------------------------------------------------------------+

+--------+----------+----------------------------------------------------------------------------------+

| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |

| | CUMULE | 3 axes factoriels | +--------+- ---+----------------------------------------------------------------------------------+

| 1 | 49.79 | ******************************************************************************** |

| 2 | 75.97 | ************************************** |

| 3 | 98.27 | ********************************* |

| 4 | 100.00 | ******** |

+--------+----------+----------------------------------------------------------------------------------+

Pour rester intéressants, les axes doivent fournir une information plus importante que chaque variable initiale. On peut également retenir les axes dont le taux d'inertie (exprimé en %) serait à peu près égal à 100/p , où p est le nombre de variables actives initiales.

Dans le cas d'une ACP normée, on retient les axes factoriels dont la valeur propre est supérieure à un. En effet en données centrées-réduites les variables initiales ont des variances égales à un et on cherche des combinaisons linéaires de variance maximale donc supérieures.

- Les corrélations variables-facteurs permettent de donner un sens aux axes factoriels et de vérifier la qualité de représentation des variables dans les plans factoriels. Si une variable n'est corrélée avec aucun des axes d'un plan, on ne peut guère tenir compte de cette variable dans ce plan. On s’interessera aux coefficients les plus forts en valeur absolue et proches de 1.

- les valeurs-tests : Si l'on projette les modalités de variables qualitatives illustratives, les valeurs-tests constituent un indice de la qualité de représentation de ces modalités sur les plans factoriels. On considère que si la projection d'une modalité sur un axe est due au hasard, elle réalise une loi normale centrée réduite. Si la valeur-test est supérieure à 1.96 en valeur absolue sur au moins l'un des deux axes, on considère que cette projection n'est pas due au hasard et que l'on peut en tenir compte. Autrement dit, la position de cette modalité ( catégorie ) illustrative, dans le plan factorielle, est significativement différente de l'origine.

- les cosinus carrés : Lorsque l'on étudie la représentation des individus, les cosinus carrés entre individus et axes factoriels permettent de déterminer les individus qui sont bien ou mals représentés dans chaque plan. Le plus simple est de fixer arbitrairement un seuil (0.4 , 0.5 ou plus) et de ne tenir compte, dans une première phase d'interprétation, que des individus dont le cosinus carré dépasse ce seuil, avant de réintégrer progressivement les autres.

- contribution : On retiendra que les individus dont la contribution à l'axe factoriel est au moins égale à la moyenne des valeurs des contributions sur cet axe.

- Le graphique des variables ( cercle de corrélations dans le cas d'une ACP normée ) permet de visualiser les proximités entre variables en terme de corrélation. C'est une synthèse graphique de la matrice des corrélations des variables actives : les directions des variables donnent le sens des corrélations. La distance par rapport au centre du graphique visualise la qualité de représentation dans le plan ( plus une variable est proche du centre, plus mauvaise est sa représentation ).

Page 10: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 10 - R. Abdesselam

- Le graphique des individus permet de visualiser les proximités entre individus qui s'interprétent en terme de similitudes de comportement vis-à-vis des variables. L'étude de la forme du nuage des individus permettra de distinguer d'éventuels regroupements et de différencier des individus ou des groupes d'individus selon leurs réponses à l'ensemble des variables actives.

Remarques :

La superposition de ces deux graphiques ( variables - individus ) est dénuée de sens car ces nuages de points ne font pas partie d'un même espace. Bien qu’il existe une manière de représenter simultanément individus et variables appelée « biplot », nous préconisons de représenter séparément les deux ensembles pour éviter des confusions.

Si les graphiques sont ce que l'on regarde en premier le plus souvent, il faut tenir compte des divers indicateurs qui permettent d'éviter les pièges de l'interprétation de ce qui ne constitue qu'un résumé des données.

Rappelons que les éléments supplémentaires n’interviennent pas dans les calculs de détermination des axes factoriels ; par contre, ils sont très utiles a posteriori pour conforter et enrichir l’interprétation de ces axes.

L’interprétation interne consiste à étudier les résultats en se basant sur les variables et les individus actifs. L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe.

1.5 Exemple d'application

1.5.1 Données ( Principaux indicateurs économiques et financiers de UE-2000 )

On s'intérresse ici aux principaux indicateurs économiques et financiers des 15 pays de l’Union Européenne. Source : Publication de la banque de France - 14 septembre 2001- Document disponible sur le site internet de la banque de France : (http://www.banque-France.fr/fr/stat/main.htm). En plus des variables caractéristiques de la population et du Produit Intérieur Brut, présentées dans le dictionnaire des variables, on distingue deux principaux thèmes ou groupes de variables continues. Le premier se réfère aux finances publiques, le second à l’activité et l’emploi. Le tableau suivant résument les principales variables retenues pour donner une description d’ensemble des caractéristiques des 15 pays de l’Union Européenne.

Dictionnaire des variables ---------------------------------------------------------------------------

1 . Etat membre ( 3 MODALITES )

AUTR - Autre ZNEU - Zone Non Euro ZEUR - Zone Euro-EUM

2 . Population (%) UE-2000 ( CONTINUE )

POPU - Population (%) UE-2000

3 . Produit Intérieur Brut (%) UE-2000 ( CONTINUE )

PIB - Produit Intérieur Br

---------------------------------------------------------------------------

Thème ‘’Finances publiques’’ 4 . Recettes totales des APU en % du PIB ( CONTINUE )

RECE - Recettes totales des

5 . Dépenses totales des APU en % du PIB ( CONTINUE )

DEPE - Dépenses totales des APU

6 . Solde des finances publiques en % du PIB ( CONTINUE )

SDFP - Solde des finances publiques

7 . Dette brute des APU en % du PIB ( CONTINUE )

DETB - Dette brute des APU

---------------------------------------------------------------------------

Thème ‘’Activité-Emploi’’ 8 . Taux de chômage en % population active ( CONTINUE )

TCHO - Taux de chômage en %

9 . Ventes au détail en volume (%) ( CONTINUE )

VENT - Ventes au détail en

10 . Production industrielle hors bâtiment ( CONTINUE )

PIND - Production industrie

11 . Taux de croissance en volume du PIB ( CONTINUE )

TCRO - Taux de croissance e

---------------------------------------------------------------------------

Page 11: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 11 - R. Abdesselam

1.5.2 Résultats Dans cet exemple, l'objectif est de décrire les variables du thème ‘’finances publiques-2000’’ de l’ensemble des

15 pays de l’UE. A noter qu'on a considéré les variables continues du thème ‘’Activité-Emploi’’ et la variable nominale Etat membre comme variables supplémentaires ainsi que les deux pays hors UE (Etats-Unis et Japon) comme individus supplémentaires. Les résultats numériques et graphiques sont les suivants :

SELECTION DES INDIVIDUS ET DES VARIABLES UTILES

VARIABLES NOMINALES ILLUSTRATIVES

1 VARIABLES 3 MODALITES ASSOCIEES

------------------------------------------------------------------------------------------------------------------

1 . Etat membre ( 3 MODALITES )

------------------------------------------------------------------------------------------------------------------

VARIABLES CONTINUES ACTIVES

4 VARIABLES

------------------------------------------------------------------------------------------------------------------

4 . Recettes totales des APU ( CONTINUE )

5 . Dépenses totales des APU ( CONTINUE )

6 . Solde des finances publiques ( CONTINUE )

7 . Dette brute des APU ( CONTINUE )

------------------------------------------------------------------------------------------------------------------

VARIABLES CONTINUES ILLUSTRATIVES

4 VARIABLES

------------------------------------------------------------------------------------------------------------------

8 . Taux de chômage en % population active ( CONTINUE )

9 . Ventes au détail en volume (%) ( CONTINUE )

10 . Production industrielle hors bâtiment ( CONTINUE )

11 . Taux de croissance en volume du PIB ( CONTINUE )

------------------------------------------------------------------------------------------------------------------

INDIVIDUS

----------------------------- NOMBRE -------------- POIDS ---------------

POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF

RETENUS ............ NITOT = 17 PITOT = 17.000

SELECTION APRES FILTRAGE

ACTIFS ............. NIACT = 15 PIACT = 15.000

SUPPLEMENTAIRES .... NISUP = 2 PISUP = 2.000

-------------------------------------------------------------------------

Page 12: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 12 - R. Abdesselam

ANALYSE EN COMPOSANTES PRINCIPALES

STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES

EFFECTIF TOTAL : 15 POIDS TOTAL : 15.00

+-------------------------------------------------------+----------------------+----------------------+

| NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM |

+-------------------------------------------------------+----------------------+----------------------+

| 4 . RECE - Recettes totales des 15 15.00 | 45.77 5.43 | 34.70 56.80 |

| 5 . DEPE - Dépenses totales des 15 15.00 | 44.01 5.94 | 30.00 52.70 |

| 6 . SDFP - Solde des finances p 15 15.00 | 1.37 2.66 | -1.50 6.70 |

| 7 . DETB - Dette brute des APU 15 15.00 | 60.71 27.38 | 5.30 110.80 |

|-------------------------------------------------------|----------------------|-----------------------

| 8 . TCHO - Taux de chômage en % 14 14.00 | 6.53 3.45 | 2.60 14.10 |

| 9 . VENT - Ventes au détail en 15 15.00 | 3.91 2.51 | -0.40 9.10 |

| 10 . PIND - Production industrie 15 15.00 | 5.96 3.72 | 0.00 15.40 |

| 11 . TCRO - Taux de croissance e 15 15.00 | 4.46 2.33 | 2.90 11.50 |

+-------------------------------------------------------+----------------------+----------------------+

MATRICE DES CORRELATIONS

| RECE DEPE SDFP DETB

-----+----------------------------

RECE | 1.00

DEPE | 0.89 1.00

SDFP | 0.11 -0.32 1.00

DETB | 0.17 0.43 -0.59 1.00

-----+----------------------------

| RECE DEPE SDFP DETB

MATRICE DES VALEURS-TESTS

| RECE DEPE SDFP DETB

-----+----------------------------

RECE | 99.99

DEPE | 5.58 99.99

SDFP | 0.43 -1.27 99.99

DETB | 0.68 1.77 -2.64 99.99

-----+----------------------------

| RECE DEPE SDFP DETB

VALEURS PROPRES

APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 4.0000

SOMME DES VALEURS PROPRES .... 4.0000

HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+

| NUMERO | VALEUR | POURCENT.| POURCENT.| |

| | PROPRE | | CUMULE | |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

| 1 | 2.2063 | 55.16 | 55.16 | ******************************************************************************** |

| 2 | 1.3907 | 34.77 | 89.93 | *************************************************** |

| 3 | 0.3909 | 9.77 | 99.70 | *************** |

| 4 | 0.0121 | 0.30 | 100.00 | * |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

COORDONNEES DES VARIABLES SUR LES AXES 1 A 4

VARIABLES ACTIVES ----------------------------+------------------------------------+-------------------------------+-------------------------------

VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES

----------------------------+------------------------------------+-------------------------------+-------------------------------

IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0

----------------------------+------------------------------------+-------------------------------+-------------------------------

RECE - Recettes totales des | -0.75 -0.66 0.01 -0.07 0.00 | -0.75 -0.66 0.01 -0.07 0.00 | -0.50 -0.56 0.02 -0.66 0.00

DEPE - Dépenses totales des | -0.94 -0.30 -0.15 0.08 0.00 | -0.94 -0.30 -0.15 0.08 0.00 | -0.63 -0.25 -0.23 0.69 0.00

SDFP - Solde des finances p | 0.52 -0.76 0.38 0.03 0.00 | 0.52 -0.76 0.38 0.03 0.00 | 0.35 -0.65 0.61 0.29 0.00

DETB - Dette brute des APU | -0.70 0.54 0.47 0.00 0.00 | -0.70 0.54 0.47 0.00 0.00 | -0.47 0.46 0.76 -0.01 0.00

----------------------------+------------------------------------+-------------------------------+-------------------------------

Représentation des variables actives – Finances publiques

Cercle de corrélation

Page 13: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 13 - R. Abdesselam

COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS

INDIVIDUS ACTIFS (AXES 1 A 4)

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |

|---------------------------------------+-------------------------------+--------------------------+--------------------------|

| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 |

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

| France 6.67 3.17 | -1.48 -0.15 -0.97 0.06 0.00 | 6.7 0.1 16.0 1.8 0.0 | 0.70 0.01 0.30 0.00 0.00 |

| Allemagne 6.67 1.26 | -0.13 0.88 -0.63 -0.28 0.00 | 0.0 3.7 6.8 42.7 0.0 | 0.01 0.61 0.31 0.06 0.00 |

| Autriche 6.67 1.24 | -0.80 0.42 -0.65 0.07 0.00 | 2.0 0.8 7.1 2.8 0.0 | 0.52 0.14 0.34 0.00 0.00 |

| Belgique 6.67 3.91 | -1.47 0.91 0.95 0.03 0.00 | 6.6 4.0 15.5 0.6 0.0 | 0.55 0.21 0.23 0.00 0.00 |

| Espagne 6.67 2.53 | 0.93 1.28 -0.19 -0.04 0.00 | 2.6 7.8 0.6 1.0 0.0 | 0.34 0.64 0.01 0.00 0.00 |

| Finlande 6.67 5.09 | 0.61 -2.02 0.79 -0.01 0.00 | 1.1 19.6 10.7 0.0 0.0 | 0.07 0.80 0.12 0.00 0.00 |

| Grèce 6.67 4.88 | -2.06 0.65 0.41 0.16 0.00 | 12.9 2.0 2.8 14.5 0.0 | 0.87 0.09 0.03 0.01 0.00 |

| Irlande 6.67 11.91 | 3.33 0.57 0.70 0.08 0.00 | 33.5 1.5 8.3 3.7 0.0 | 0.93 0.03 0.04 0.00 0.00 |

| Italie 6.67 3.67 | -1.14 1.18 0.97 -0.19 0.00 | 3.9 6.7 16.0 20.5 0.0 | 0.36 0.38 0.26 0.01 0.00 |

| Luxembourg 6.67 7.17 | 2.15 -1.54 -0.41 -0.08 0.00 | 14.0 11.4 2.9 3.2 0.0 | 0.64 0.33 0.02 0.00 0.00 |

| Pays-bas 6.67 0.45 | 0.65 0.04 0.16 0.05 0.00 | 1.3 0.0 0.5 1.4 0.0 | 0.93 0.00 0.06 0.01 0.00 |

| Portugal 6.67 2.35 | 0.52 1.24 -0.73 0.09 0.00 | 0.8 7.4 9.1 4.8 0.0 | 0.11 0.66 0.23 0.00 0.00 |

| Danemark 6.67 3.14 | -0.92 -1.47 -0.39 0.00 0.00 | 2.6 10.3 2.5 0.0 0.0 | 0.27 0.68 0.05 0.00 0.00 |

| Royaume-Uni 6.67 1.86 | 1.32 0.26 -0.19 0.07 0.00 | 5.3 0.3 0.6 2.7 0.0 | 0.94 0.04 0.02 0.00 0.00 |

| Suède 6.67 7.36 | -1.50 -2.25 0.17 -0.02 0.00 | 6.8 24.3 0.5 0.3 0.0 | 0.31 0.69 0.00 0.00 0.00 |

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

Représentation des individus actifs (pays UE-15) Premier plan principal

VARIABLES ILLUSTRATIVES

----------------------------+------------------------------------+-------------------------------+-------------------------------

IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0

----------------------------+------------------------------------+-------------------------------+-------------------------------

POPU - Population (%) UE-20 | -0.14 0.42 -0.26 -0.55 0.00 | -0.14 0.42 -0.26 -0.55 0.00 |

PIB - Produit Intérieur Br | -0.03 0.25 -0.33 -0.60 0.00 | -0.03 0.25 -0.33 -0.60 0.00 |

TCHO - Taux de chômage en % | -0.26 0.27 0.14 -0.45 0.00 | -0.26 0.27 0.14 -0.45 0.00 |

VENT - Ventes au détail en | 0.21 -0.05 0.33 0.63 0.00 | 0.21 -0.05 0.33 0.63 0.00 |

PIND - Production industrie | 0.25 -0.30 0.41 -0.04 0.00 | 0.25 -0.30 0.41 -0.04 0.00 |

TCRO - Taux de croissance e | 0.76 -0.18 0.27 0.12 0.00 | 0.76 -0.18 0.27 0.12 0.00 |

----------------------------+------------------------------------+-------------------------------+-------------------------------

Représentation des variables illustratives Premier plan principal

Page 14: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 14 - R. Abdesselam

INDIVIDUS ILLUSTRATIFS (AXES 1 A 4)

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |

|---------------------------------------+-------------------------------+--------------------------+--------------------------|

| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 |

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

| Etats-Unis 6.67 12.98 | 3.02 1.84 0.68 0.11 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.70 0.26 0.04 0.00 0.00 |

| Japon 6.67 15.07 | -1.59 3.54 -0.11 0.11 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.17 0.83 0.00 0.00 0.00 |

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

COORDONNEES ET VALEURS-TEST DES MODALITES AXES 1 A 4

+---------------------------------------------+-------------------------------+------------------------------------+----------+

| MODALITES | VALEURS-TEST | COORDONNEES | |

|---------------------------------------------|-------------------------------|------------------------------------|----------|

| IDEN - LIBELLE EFF. P.ABS | 1 2 3 4 0 | 1 2 3 4 0 | DISTO. |

+---------------------------------------------+-------------------------------+------------------------------------+----------+

| 1 . Etat membre |

| AUTR - Autre 0 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.00 0.00 0.00 0.00 0.00 | 0.00 |

| ZNEU - Zone Non Euro 3 3.00 | -0.5 -1.8 -0.4 0.3 0.0 | -0.37 -1.15 -0.13 0.02 0.00 | 1.48 |

| ZEUR - Zone Euro 12 12.00 | 0.5 1.8 0.4 -0.3 0.0 | 0.09 0.29 0.03 0.00 0.00 | 0.09 |

+---------------------------------------------+-------------------------------+------------------------------------+----------+

Représentation des individus illustratifs sur le premier plan principal Modalités de la variable nominale ‘Etat membre’

1.5.3 Quelques interprétations des résultats

Les tableaux des statistiques sommaires et des corrélations des variables "finances publiques des 15 pays de l’UE" nous fournissent les premières informations :

- Statistiques descriptives ( moyenne, écart-type, minimum, maximum ) des variables actives et illustratives continues.

- lorsque l'ordre de grandeur des variances des variables actives et/ou les unités de mesure de ces variables sont différentes, il est dès lors indispensable de normer les données c’est-à-dire choisir une ACP normée.

- la variable ‘‘Recettes totales des APU3’’ est fortement corrélée positivement avec la variable ‘’Dépenses totales des APU’’ alors que la variable ‘’Solde des finances publiques’’ est corrélée négativement avec la variable ‘’Dette brut des APU’’. La matrice des valeurs-tests présente les résultats des tests statistiques des coefficients de corrélation des variables actives.

- Seuls les deux premiers facteurs significatifs de l’analyse sont conservés. Les taux d'inertie expliquée correspondent à 55,16% et 34,77% de l'information globale représentée respectivement par le premier et deuxième facteur. Le plan constitué de ces deux facteurs principaux décrit environ 90% de l'information totale contenue dans les quatre variables actives initiales.

3 APU - Administrations publiques : Ensemble des unités institutionnelles dont la fonction principale est de produire des services non marchands ou d’effectuer des

opérations de redistribution du revenu et des richesses nationales. Elles tirent la majeure partie de leurs ressources de contributions obligatoires. Le secteur des administrations publiques comprend les administrations publiques centrales, les administrations publiques locales et les administrations de sécurité sociale.

Page 15: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 15 - R. Abdesselam

Représentation graphique des variables – finances publiques:

Le graphique "cercle de corrélations" donne une représentation des caractéristiques finances publiques des 15 pays de l’UE sur les deux premiers axes factoriels. Les données étant ici centrées réduites, les coordonnées de ces caractéristiques sur les axes sont les coefficients de corrélations entre les variables et les composantes principales. Ainsi, sur le premier plan principal,

- le premier facteur est corrélé négativement avec les dépenses, les recettes et la dette brute des APU, et positivement avec le solde des finances publiques.

- le deuxième facteur est significativement corrélé négativement avec le solde des finances publiques et les recettes, et positivement avec la dette brut des APU.

Seule la variable illustrative "Taux de croissance en volume du PIB" du thème ‘’Activité-Emploi’’ qui a été projetée a posteriori dans le plan factoriel, est corrélée avec le premier axe factoriel.

Représentation graphique des individus ( pays de l’UE-15 ) :

L’interprétation interne de la représentation des individus s’effectue toujours à partir de celle des variables

actives. Ainsi, relativement à l’ensemble des pays de l’UE et sur le premier plan factoriel, - le premier facteur oppose les pays dont les recettes, les dépenses et la dette brute sont élevées avec un

solde des finances publiques significativement faible c’est le cas de la Grèce, Suède, France ou encore de la Belgique, aux pays comme l’Irlande et le Luxembourg dont le solde des finances publiques est élevé alors que les recettes, les dépenses et la dette brute sont significativement faibles. De plus, ces pays ont plutôt un taux de croissance en volume du PIB élevé par rapport à celui de l’ensemble des pays de l’UE ( interprétation externe – variables illustratives ).

- Quant au deuxième facteur, il oppose les pays ayant un solde des finances publiques et des recettes significativement élevés et une faible dette brute des APU ( Suède, Finlande, Luxembourg et le Danemark ), aux pays caractérisés par une dette brute importante et un solde des finances publiques et des recettes faibles c’est le cas notamment de l’Espagne, de l’Italie et du Portugal.

L’origine ( fictive ) des axes représente un pays qui aurait pour caractéristique ‘’finances publiques’’ la

moyenne des quatre variables actives étudiées.

Page 16: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 16 - R. Abdesselam

2 Analyse Factorielle des Correspondances

Le domaine d'application de l'Analyse Factorielle des Correspondances4 (AFC), développée par

Benzécri (1969), est différent de celui de l'ACP. Alors que cette dernière s'applique aux tableaux de mesures

et au traitement de données quantitatives, l'AFC est une méthode adaptée à la description d'un tableau de contingence et permet d'étudier les éventuelles relations existant entre les deux variables qualitatives de ce tableau.

Le tableau de contingence ou de dépendance est un tableau croisé des effectifs des modalités de deux variables qualitatives ou nominales.

La validité de l'AFC s'étend à tout tableau de données à condition que les données recensées dans ce

tableau soient toutes positives et homogènes. On peut ainsi traiter des tableaux de mesures exprimées dans la même unité, des tableaux d'échanges, tableaux de notes, tableaux de rangs, etc..

2-1 Objectif de la méthode

Décrire la dépendance entre deux variables qualitatives ( nominales ).

L'observation de deux caractères qualitatifs sur un ensemble d'individus permet de construire un tableau de contingence.

Par exemple, pour les 81491 créateurs-repreneurs d’entreprises, créées ou reprises au cours du

premier semestre 1994 ( Source : Insee - Les Créations d’entreprises du premier semestre 1994 - Système productif n°97-98 - mars 96 ), si on veut décrire les éventuels liens entre les secteurs d'activités et les qualifications professionnelles du dernier emploi, le tableau ci-dessous donne la répartition des 81491 créateurs-repreneurs d’entreprises selon ces deux caractères.

Secteur Qualification professionnelle du dernier emploi

d’activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif Total

I.Agro.Alimentaire 291 129 112 508 529 148 1717

Industrie 1109 1250 773 1528 1195 570 6425

Construction 1186 1011 1011 1956 4482 1107 10753

Commerce 4865 4316 3316 7927 3275 3928 27627

Transport 401 337 256 1247 557 312 3110

H.C.Restaurants 1374 684 528 3095 859 1083 7623

Serv. Entreprises 2833 5382 1654 3179 387 1670 15105

Serv. Ménages 1306 1117 1655 3265 560 1228 9131

Total 13365 14226 9305 22705 11844 10046 81491

Tableau de contingence

Peut-on donner une réponse graphique à la question : Est-il raisonnable de penser qu'il existe une liaison ( correspondance ) entre les secteurs d'activités des entreprises créées-reprises et la qualification professionnelle du créateur-repreneur ?

Remarquons tout d'abord qu'un tableau de contingence peut se lire de deux manières différentes : selon ses lignes ou selon ses colonnes. On peut répondre à la question posée en appliquant les principes de l'Analyse en Composantes Principales. L'AFC se présente alors comme 2 ACP particulières selon que l'on s'intéresse aux lignes ( secteurs d’activités ) ou aux colonnes (qualification professionnelle) du tableau de contingence.

2.1.1 Première analyse : ACP des profils-lignes ( secteurs d’activités )

Si on s'intéresse aux secteurs d’activités des entreprises créées-reprises, on construit le tableau des profils-lignes en ramenant le total ligne du tableau de contingence à 1 (100%), on évite ainsi les effets de marges. On détermine ainsi pour chaque secteur d’activité la répartition des créateurs-repreneurs selon la qualification professionnelle de leur dernier emploi. Par exemple, c’est dans le secteur de la construction que les ouvriers (41.68%) ont créé ou repris le plus d’entreprises que tous les autres ou encore ce sont les cadres (9.40%) qui ont créé ou repris le moins d’entreprises dans ce secteur (interprétation par rapport au profil moyen : tous secteurs d’activités confondus).

4 Factorial Correspondence Analysis (FCA).

Page 17: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 17 - R. Abdesselam

Secteur Qualification professionnelle du dernier emploi

Activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif Total

I.Agro.Alimentaire 16.95 7.51 6.52 29.59 30.81 8.62 100

Industrie 17.26 19.46 12.03 23.78 18.60 8.87 100

Construction 11.03 9.40 9.40 18.19 41.68 10.29 100

Commerce 17.61 15.62 12.00 28.69 11.85 14.22 100

Transport 12.89 10.84 8.23 40.10 17.91 10.03 100

H.C.Restaurants 18.02 8.97 6.93 40.60 11.27 14.21 100

Serv. Entreprises 18.76 35.63 10.95 21.05 2.56 11.06 100

Serv. Ménages 14.30 12.23 18.13 35.76 6.13 13.45 100

Profil moyen 16.40 17.46 11.42 27.86 14.53 12.33

Tableau des profils-lignes (%)

Nous allons considérer les lignes de ce tableau comme des individus et les colonnes comme des

caractères. On fait ensuite l'ACP de ce tableau avec une métrique particulière, (métrique du Khi²) pour calculer les distances entre profils, et des poids proportionnels aux effectifs des lignes. Cela revient en fait à procéder comme pour l'ACP normée en remplaçant la matrice des coefficients de corrélation linéaire par une matrice adaptée aux caractères qualitatifs. On obtient ainsi une analyse et des représentations graphiques des secteurs d’activités dans des plans factoriels appropriés.

2.1.2 Deuxième analyse : ACP des profils-colonnes ( qualification professionnelle )

Si on veut s'intéresser aux qualifications professionnelles des créateurs-repreneurs, on construit le tableau des profils-colonnes en ramenant le total colonne du tableau de contingence à 1 (100%).

Secteur Qualification professionnelle du dernier emploi profil

Activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif moyen

I.Agro.Alimentaire 2.18 0.91 1.20 2.24 4.67 1.47 2.11

Industrie 8.30 8.79 8.31 6.73 10.09 5.67 7.88

Construction 8.87 7.11 10.87 8.61 37.84 11.02 13.20

Commerce 36.40 30.34 35.64 34.91 27.65 39.10 33.90

Transport 3.00 2.37 2.75 5.49 4.70 3.11 3.82

H.C.Restaurants 10.28 4.81 5.67 13.63 7.25 10.78 9.35

Serv. Entreprises 21.20 37.83 17.77 14.00 3.27 16.62 18.54

Serv. Ménages 9.77 7.85 17.79 14.38 4.73 12.22 11.20

Total 100 100 100 100 100 100 100

Tableau des profils-colonnes (%)

On peut ainsi savoir pour chaque catégorie professionnelle comment se répartissent les secteurs d’activités des entreprises créées-reprises. Ainsi, on constate que les cadres ont créé ou repris plus d’entreprises dans les secteurs des services aux entreprises (37.83%) et de l’industrie (8.79%), et moins dans les autres secteurs (interprétation par rapport au profil moyen : toutes qualifications confondues).

On procède de la même façon avec le tableau des profils-colonnes en prenant les colonnes pour individus et les lignes pour caractères. On obtient ainsi une analyse et une représentation graphique des qualifications professionnelles.

Remarques :

1- La mise en correspondance et le rôle symétrique que fait jouer la métrique du Khi² pour les modalités lignes et colonnes du tableau de contingence, fait que l'ACP des profils-lignes est équivalente à l'ACP des profils-colonnes : les composantes principales d'une analyse se déduisent de celles de l'autre et les valeurs propres des deux analyses sont identiques.

2- Le nombre d'axes factoriels est toujours inférieur ou égal au min(p-1 , q-1) où p et q sont les nombres de modalités des deux caractères qualitatifs.

3- Dans la pratique, on effectue qu'une seule des 2 ACP, les résultats de l'autre analyse se déduisent par des formules de transition. Il est possible de superposer les graphiques (moyennant un changement d'échelle) des 2 ACP pour visualiser, dans les plans factoriels, les liaisons entre les profils-lignes et les profils-colonnes ( représentation simultanée ).

4- Les principes de représentation et les indices de qualité associés dans le cadre de l'Analyse en Composantes Principales restent inchangés.

Page 18: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 18 - R. Abdesselam

2.2 Exemple - Résultats

2.2.1 Données ( Les créations-reprises d'entreprises )

Enquête réalisée par l'Insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier semestre 1991. Nous avons soumis à l'analyse des correspondances le tableau de contingence donnant la qualification professionnelle et le secteur d'activité des 81491 créateurs-repreneurs d'entreprises.

2.2.2 Interprétation de quelques résultats

Les résultats et les règles de lecture des représentations graphiques de cette méthode demandent à être interprétés avec prudence.

Les deux tableaux de profils permettent de répondre aux questions suivantes :

Tableau des profils-lignes : "Quelle est la qualification professionnelle du dernier emploi du créateur ou repreneur de chaque secteur d'activité ?

Tableau des profils-colonnes : "Quel est le secteur d'activité des entreprises créées ou reprises par chaque qualification professionnelle ?

La proximité entre deux points "secteur d'activité" signifiera une similitude des profils "qualification

professionnelle’’. Il en est ainsi pour les hôtels-cafés-restaurants et les services aux ménages, par exemple (cf. tableau des profils-lignes).

La proximité entre deux points "qualification professionnelle" signifiera une similitude des profils "secteur

d'activité". C'est ce que l'on constate pour les professions intermédiaires et les artisans-commerçants-chefs d'entreprise (cf. tableau des profils-colonnes).

La proximité entre les hôtels-cafés-restaurants et les services aux ménages s'explique notamment par le

fait que dans ces deux secteurs, la proportion d'entreprises créées ou reprises par les employés (13.63% , 14.38%) est supérieure à la moyenne (9.35% , 11.20%), et une proportion d'entreprises créées ou reprises par les cadres (4.81% , 7.85%) inférieure à la moyenne.

Page 19: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 19 - R. Abdesselam

Enfin, on notera que les proximités entre profils s'interprètent toujours par référence au profil moyen, et

que les proximités les plus aisées à interpréter se situent toujours à la périphérie du graphique.

Analyse de la dépendance

L’Analyse Factorielle des Correspondances (AFC) de la table de contingence conduit à cinq axes factoriels représentant toute l’information à résumer c’est-à-dire l’association symétrique, entre les qualifications professionnelles et les secteurs d’activité des créateurs et repreneurs d’entreprises, mesurée

par le phi-deux de Pearson (² = 0.1794).

Dans le cas de l’indépendance des deux variables, hypothèse d’indépendance des lignes et des colonnes du tableau de contingence ci-dessous, la mesure de l’association serait une réalisation d’un khi-deux de

Pearson à 35 degrés de liberté ( KHI2 = 14619.49 ), noté ²calculé , dont la relation est ² = ²calculé / n, où

n = 81491 entreprises désigne la taille de l’échantillon. L’hypothèse d’indépendance est évidemment rejetée vu que PROBA ( KHI2 > 14619.49 ) = 0.0001 < 5% (risque d’erreur) .

EDITION DU TABLEAU CROISE

TABLEAU 1 EN LIGNE : Secteur d’activité POIDS TOTAL : 81491

EN COLONNE : Qualification professionnelle du dernier emploi

POIDS | A.C.C.Entps. | Cadre | P.Intermédia | Employé | Ouvrier | E.S.Qualific | ENSEMBLE

% COLONNE | | | | | | |

% LIGNE | | | | | | |

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 291 | 129 | 112 | 508 | 529 | 148 | 1717

I.Agro.Alimentaire | 2.18 | 0.91 | 1.20 | 2.24 | 4.67 | 1.47 | 2.11

| 16.95 | 7.51 | 6.52 | 29.59 | 30.81 | 8.62 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 1109 | 1250 | 773 | 1528 | 1195 | 570 | 6425

Industrie | 8.30 | 8.79 | 8.31 | 6.73 | 10.09 | 5.67 | 1 7.88

| 17.26 | 19.46 | 12.03 | 23.78 | 18.60 | 8.87 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 1186 | 1011 | 1011 | 1956 | 4482 | 1107 | 10753

Construction | 8.87 | 7.11 | 10.87 | 8.61 | 37.84 | 11.02 | 13.20

| 11.03 | 9.40 | 9.40 | 18.19 | 41.68 | 10.29 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 4865 | 4316 | 3316 | 7927 | 3275 | 3928 | 27627

Commerce | 36.40 | 30.34 | 35.64 | 34.91 | 27.65 | 39.10 | 33.90

| 17.61 | 15.62 | 12.00 | 28.69 | 11.85 | 14.22 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 401 | 337 | 256 | 1247 | 557 | 312 | 3110

Transport | 3.00 | 2.37 | 2.75 | 5.49 | 4.70 | 3.11 | 3.82

| 12.89 | 10.84 | 8.23 | 40.10 | 17.91 | 10.03 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 1374 | 684 | 528 | 3095 | 859 | 1083 | 7623

H.C.Restaurants | 10.28 | 4.81 | 5.67 | 13.63 | 7.25 | 10.78 | 9.35

| 18.02 | 8.97 | 6.93 | 40.60 | 11.27 | 14.21 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 2833 | 5382 | 1654 | 3179 | 387 | 1670 | 15105

Serv. Entreprises | 21.20 | 37.83 | 17.77 | 14.00 | 3.27 | 16.62 | 18.54

| 18.76 | 35.63 | 10.95 | 21.05 | 2.56 | 11.06 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 1306 | 1117 | 1655 | 3265 | 560 | 1228 | 9131

Serv. Menages | 9.77 | 7.85 | 17.79 | 14.38 | 4.73 | 12.22 | 11.20

| 14.30 | 12.23 | 18.13 | 35.76 | 6.13 | 13.45 | 100.00

---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

| 13365 | 14226 | 9305 | 22705 | 11844 | 10046 | 81491

ENSEMBLE | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00

| 16.40 | 17.46 | 11.42 | 27.86 | 14.53 | 12.33 | 100.00

------------------------------------------------------------------------------------------------------------

KHI2 = 14619.49 / 35 DEGRES DE LIBERTE / 0 EFFECTIFS THEORIQUES INFERIEURS A 5

PROBA ( KHI2 > 14619.49 ) = 0.000 / V.TEST = 99.10 ------------------------------------------------------------------------------------------------------------

ANALYSE DES CORRESPONDANCES BINAIRES

VALEURS PROPRES

APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.1794

SOMME DES VALEURS PROPRES .... 0.1794

HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

| NUMERO | VALEUR | POURCENT.| POURCENT.| |

| | PROPRE | | CUMULE | |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

| 1 | 0.1244 | 69.33 | 69.33 | ******************************************************************************** |

| 2 | 0.0442 | 24.65 | 93.97 | ***************************** |

| 3 | 0.0075 | 4.19 | 98.16 | ***** |

| 4 | 0.0025 | 1.41 | 99.57 | ** |

| 5 | 0.0008 | 0.43 | 100.00 | * |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

COORDONNEES, CONTRIBUTIONS DES FREQUENCES SUR LES AXES 1 A 5

FREQUENCES ACTIVES

+------------------------------------------+-------------------------------+--------------------------+--------------------------+

| FREQUENCES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |

|------------------------------------------+-------------------------------+--------------------------+--------------------------|

| IDEN - LIBELLE COURT P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |

+------------------------------------------+-------------------------------+--------------------------+--------------------------+

| ACCE - A.C.C.ENTREPRISE 16.40 0.02 | 0.13 0.00 0.06 0.06 0.05 | 2.1 0.0 6.6 20.5 54.4 | 0.64 0.00 0.12 0.13 0.10 |

| CADR - CADRES 17.46 0.28 | 0.39 0.36 0.02 -0.03 -0.01 | 21.1 49.8 1.3 5.8 4.5 | 0.54 0.45 0.00 0.00 0.00 |

| PINT - PROF.INTERMEDIAIRE 11.42 0.07 | 0.09 -0.06 -0.23 -0.02 0.02 | 0.7 0.8 82.3 1.3 3.4 | 0.12 0.05 0.83 0.00 0.00 |

| EMPL - EMPLOYES 27.86 0.06 | 0.04 -0.24 0.05 -0.05 -0.01 | 0.4 36.7 9.3 24.7 1.1 | 0.03 0.90 0.04 0.03 0.00 |

| OUVR - OUVRIERS 14.53 0.67 | -0.80 0.17 0.01 -0.01 0.00 | 75.4 9.5 0.1 0.4 0.0 | 0.96 0.04 0.00 0.00 0.00 |

| ESQU - E.SQUALIFICATION 12.33 0.03 | 0.05 -0.11 -0.01 0.10 -0.05 | 0.2 3.2 0.3 47.3 36.6 | 0.09 0.44 0.01 0.37 0.09 |

+------------------------------------------+-------------------------------+--------------------------+--------------------------+

Page 20: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 20 - R. Abdesselam

COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS

AXES 1 A 5

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |

|---------------------------------------+-------------------------------+--------------------------+--------------------------|

| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

| IAAlimentaire 2.11 0.27 | -0.49 -0.02 0.14 -0.04 0.09 | 4.1 0.0 5.4 1.1 21.5 | 0.89 0.00 0.07 0.00 0.03 |

| Industrie 7.88 0.03 | -0.08 0.13 -0.02 -0.04 0.07 | 0.4 3.0 0.4 5.0 57.7 | 0.19 0.56 0.01 0.05 0.19 |

| Construction 13.20 0.60 | -0.75 0.21 -0.03 0.00 -0.02 | 59.1 13.2 1.5 0.0 9.9 | 0.92 0.07 0.00 0.00 0.00 |

| Commerce 33.90 0.01 | 0.05 -0.07 -0.01 0.06 0.00 | 0.7 4.1 0.9 41.6 0.1 | 0.23 0.48 0.02 0.28 0.00 |

| Transport 3.82 0.11 | -0.16 -0.20 0.12 -0.16 -0.03 | 0.8 3.6 7.6 36.7 5.5 | 0.23 0.39 0.14 0.23 0.01 |

| HCRestaurants 9.35 0.13 | -0.01 -0.31 0.17 0.00 -0.01 | 0.0 20.8 38.0 0.1 0.7 | 0.00 0.76 0.24 0.00 0.00 |

| S.Entreprises 18.54 0.31 | 0.47 0.30 0.03 -0.02 -0.01 | 32.8 36.7 2.1 2.3 4.0 | 0.71 0.28 0.00 0.00 0.00 |

| S.Ménages 11.20 0.13 | 0.15 -0.27 -0.17 -0.05 -0.01 | 2.2 18.5 44.1 13.3 0.6 | 0.18 0.56 0.23 0.02 0.00 |

+---------------------------------------+-------------------------------+--------------------------+--------------------------+

Créateurs / Repreneurs d’entreprises Qualification – Activité de l’entreprise

Représentation de l’association – Premier plan principal

Représentation graphique

La dépendance entre le secteur d'activité et la qualification professionnelle du dernier emploi peut être décrite par le premier plan principal qui résume environ 94% de l'information globale.

- Le premier axe oppose les secteurs de la construction et de l'industrie agroalimentaire, caractéristiques des ouvriers, au secteur des services aux entreprises représentatif des cadres.

- Quant au deuxième axe, il oppose les employés qui ont le plus créé ou repris d'entreprises dans les

services aux ménages et les hôtels-cafés-restaurants, aux cadres qui caractérisent les entreprises créées ou reprises dans le secteur des services auprès des entreprises.

Enfin, pour éviter des interprétations abusives de proximités graphiques illusoires, comme en Analyse en

Composantes Principales, il est recommandé de consulter le tableau des contributions "contributions absolues" et le tableau des cosinus carrés des angles entre les points et avec les axes factoriels "contributions relatives".

Page 21: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 21 - R. Abdesselam

3 Analyse Factorielle des Correspondances Multiples

L'analyse de plus de deux variables qualitatives s'effectue à l'aide d'une extension de l'AFC que l'on appelle Analyse Factorielle des Correspondances Multiples

5 (AFCM ou ACM). C'est l'une des méthodes les

plus utilisées en analyse des données, ses principaux domaines d'applications sont le traitement des questionnaires et l'exploitation des enquêtes par sondages.

Du point de vue de l'analyse des données une variable qualitative est une question; ses modalités sont les différentes réponses possibles. Les variables utilisées sont nécessairement qualitatives. Cependant, il est toujours possible de transformer une variable quantitative en une variable qualitative ordinale ( classes d'âges, tranches de salaires, etc. ). Il est possible de positionner des variables continues en élément

supplémentaire ( sans transformation au préalable en variable qualitative par découpage en classes ).

3.1 Objectif de la méthode

Décrire et étudier les liaisons entre plusieurs variables qualitatives.

L'AFCM consiste à effectuer une Analyse Factorielle des Correspondances sur un tableau disjonctif

complet ( logique ) ou à un tableau de Burt. Le tableau de Burt est calculé directement à partir du codage condensé ou disjonctif complet. On trouve

dans ce tableau tous les tableaux de contingence croisant les variables deux à deux. Sur la diagonale se trouvent les variables croisées avec elles-mêmes, et donc les effectifs correspondant à chaque modalité. Par exemple, dans l'enquête portant sur les créations d'entreprises au cours du premier semestre 1991, on a relevé six variables qualitatives ( questions ) totalisant 29 modalités.

( Source : Insee - Les Créations d’entreprises du 1er semestre 1994 - Système productif n°97-98 - mars 96 ).

Tableau disjonctif complet (logique) :

Individu -25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.ména

I001 1 0 0 0 1 0 0 0 0 1 I002 0 1 0 0 0 0 0 1 0 0

.... .. .. .. .. .. .. .. .. .. ..

I81491 0 0 1 0 0 1 0 0 1 0

Tableau de Burt :

-25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.ména

-25ans 7019 0 0 4778 2241 ... ... ... 749 1103 25-39 0 42678 0 30307 12371 ... ... ... 7900 5069

40ans+ 31794 21657 10137 ... ... 6456 2959

homme 56742 0 ... ... ... 10572 4536 femme 24749 ... ... ... 4533 4595

... ... ... ... ... ...

... ... ...

... ... ...

... 0 0 s.entps 15105 0 s.ména 9131

On peut montrer que les résultats de l'AFCM obtenus à partir d'un tableau disjonctif ou d'un tableau de Burt,

considéré comme un tableau de données, sont équivalents. Pour des raisons évidentes d'économie de calcul, les logiciels utilisent généralement le tableau de Burt.

5 Multiple «Factorial» Correspondence Analysis (MCA).

Page 22: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 22 - R. Abdesselam

3.2 Exemple - Résultats

3.2.1 Données ( Source : Insee - Les Créations d’entreprises du premier semestre 1994 - Système productif n°97-98 - mars 96 ).

Enquête réalisée par l'Insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier semestre 1991. Nous avons soumis à l'analyse des correspondances multiples six variables qualitatives ( questions ), quatre actives et deux illustratives, totalisant 29 modalités (19 actives et 10 illustratives).

Variables actives :

Classes d'âge des créateurs-repreneurs ( moins de 25 ans, entre 25 et 39 ans, 40 ans et plus )

Sexe ( homme, femme )

Qualification professionnelle ( artisan/commerçant/chef entreprise, cadre, prof.intermédiaire, employé, ouvrier, étudiant/sans qualification )

Diplôme le plus élevé ( pas diplôme/cep, bepc, cap/bep, bac technique, bac général, bts/dut, deug/équivalent, bac+3 et plus )

Variables illustratives :

Situation préalable ( actif, chômeur/non actif )

Secteurs d'activités ( industrie agro-alimentaire, industrie, construction, commerce, transport, hôtel/café/restaurant, services aux entreprises, services aux ménages )

Les variables actives utilisées dans cet exemple représentent la signalétique des créateurs-repreneurs

d'entreprises ( classes d'âges, sexe, qualification professionnelle, diplôme le plus élevé ). En général, ces questions décrivent plus ou moins objectivement les créateurs-repreneurs. Les deux autres variables ( situation préalable, secteurs d'activités des entreprises créées ou reprises ), constituant le sujet même de l'enquête, sont représentés en éléments supplémentaires ou illustratifs.

Page 23: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 23 - R. Abdesselam

Remarques :

- Il serait maladroit de mélanger, par exemple, des informations de type socio-économique ( âge, sexe, profession, etc. ) et des opinions ou des comportements. Comment interpréterait-on alors la proximité entre deux individus ? Si deux individus sont éloignés, est-ce à cause de leurs opinions différentes ou parce qu'ils ont des profils socio-économiques opposés ?

- On notera que l'analyse exploratoire met en jeu de façon essentielle les dépendances entre les questions actives. Par contre les variables illustratives ( qualitatives ou quantitatives ) sont introduites l'une après l'autre, sans tenir compte de leur éventuelle dépendance.

3.3.2 Résultats et interprétation

ANALYSE DES CORRESPONDANCES BINAIRES

VALEURS PROPRES

APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 1.0011

SOMME DES VALEURS PROPRES .... 1.0011

HISTOGRAMME DES 15 PREMIERES VALEURS PROPRES

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

| NUMERO | VALEUR | POURCENT.| POURCENT.| |

| | PROPRE | | CUMULE | |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

| 1 | 0.1463 | 14.61 | 14.61 | ******************************************************************************** |

| 2 | 0.1232 | 12.31 | 26.92 | ************************************************************************** |

| 3 | 0.0883 | 9.82 | 36.74 | *************************************************************** |

| 4 | 0.0832 | 8.31 | 45.05 | *********************************************************** |

| 5 | 0.0708 | 7.07 | 52.12 | *************************************************** |

| 6 | 0.0644 | 6.43 | 58.55 | ************************************************* |

| 7 | 0.0627 | 6.26 | 64.82 | ************************************************ |

| 8 | 0.0625 | 6.25 | 71.06 | *********************************************** |

| 9 | 0.0587 | 5.86 | 76.92 | ********************************************** |

| 10 | 0.0563 | 5.62 | 82.55 | ********************************************* |

| 11 | 0.0507 | 5.06 | 87.61 | **************************************** |

| 12 | 0.0477 | 4.77 | 92.37 | ***************************** |

| 13 | 0.0362 | 3.61 | 95.99 | *********************** |

| 14 | 0.0252 | 2.52 | 98.51 | ***************** |

| 15 | 0.0149 | 1.49 | 100.00 | *********** |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

Compte tenu de la nature particulière du tableau disjonctif qui conduit à un nuage très éparpillé, les pourcentages d'information apportés par chaque axe sont en général très faibles ce qui surprend le néophyte. Il n'y a là rien d'inquiétant mais cela rend un peu plus délicat le choix du nombre pertinent d'axes factoriels à retenir.

Les règles de lecture sont semblables à celles de l'AFC. Seuls les calculs de contributions cumulées pour les modalités de chaque question active ont été ajoutés.

D’après les résultats graphiques et numériques précédents, on interprétera l’analyse des deux premiers facteurs en s’aidant des tableaux des contributions et des cosinus carrés.

Le premier plan factoriel résume environ 27% de la dépendance entre les caractères signalétiques des créateurs-repreneurs, elle peut être interprétée de la façon suivante :

- Le premier axe caractérise surtout la qualification professionnelle du dernier emploi des créateurs-repreneurs ainsi que leurs diplômes, il oppose les jeunes ouvriers et employés d'un niveau CAP/BEP, aux cadres artisans-commerçants et chefs d'entreprise plus âgés et plus diplômés (DEUG et BAC+3).

- Le deuxième axe caractérise davantage la qualification professionnelle du dernier emploi ainsi que le sexe des créateurs-repreneurs. Il oppose les femmes étudiantes ou sans qualification d'un niveau BAC général aux ouvriers diplômés d'un CAP/BEP.

Le deuxième graphique montre la projection des modalités de réponses des deux caractères illustratifs sur le premier plan principal de l’analyse de la signalétique des créateurs-repreneurs d'entreprises. Pour l’interprétation des modalités de ces caractères, on s’aidera du tableau des valeurs-test. Ainsi,

- Le premier axe oppose donc les jeunes ouvriers et employés d'un niveau CAP/BEP qui étaient inactifs ou chômeurs et qui ont créé ou repris des entreprises dans les secteurs de l'industrie agroalimentaire, des transports et des hôtels-cafés-restaurants, aux cadres artisans-commerçants et chefs d'entreprise plus âgés et plus diplômés (DEUG, BAC+3) qui étaient actifs et qui ont créé ou repris dans le secteur des services aux entreprises.

- Le deuxième axe oppose les femmes étudiantes ou sans qualification d'un niveau BAC général, qui ont créé ou repris des entreprises de services aux ménages, aux ouvriers diplômés d'un CAP/BEP, qui ont créé ou repris des entreprises dans les secteurs de la construction et de l'industrie.

Page 24: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 24 - R. Abdesselam

4 Analyse Factorielle Discriminante

L'Analyse Factorielle Discriminante6 (AFD) et les techniques associées ont pris une grande importance

ces dernières années. Appliquées essentiellement dans le domaine médical pour l’aide au diagnostic, elles sont maintenant utilisées dans des domaines très variés : en économie, en reconnaissance des formes, dans les banques et les assurances avec les techniques de scoring, dans le domaine biomédical, du management pour décider de l'avenir d'une entreprise en fonction de ses diverses mesures comptables, de la vente pour sélectionner les clients potentiels les plus intéressants, etc.

L’objectif de l’analyse discriminante dite « décisionnelle » est de définir une règle permettant de classer un individu dans un groupe particulier, parmi les groupes possibles. Cette affectation à un groupe donné se fait sur la base des caractéristiques (variables) observées sur cet individu. Elle permet aussi de mettre en évidence les liaisons existant entre un caractère qualitatif à expliquer (à discriminer) et un ensemble de caractères explicatifs quantitatifs (discriminants).

En analyse discriminante, on distingue a priori deux ou plusieurs groupes d’individus sur lesquels on mesure un ensemble de caractères communs. L’analyse va alors chercher à mettre en évidence ce qui différencie ces groupes.

4.1 Objectif de la méthode

En réalité, le but précis de l’analyse discriminante dépend du contexte. Dans la plupart des cas, l’aspect diagnostic est essentiel. On vise avant tout une bonne prédiction des groupes a priori. La bonne affectation, dans le futur, d’individus de provenance inconnue est le but principal. Elle se différencie des méthodes de classification

7, dans la mesure où les classes (groupes) sont définies au départ de l’analyse. On distingue

donc deux objectifs pour l'analyse discriminante :

- Objectif descriptif : rechercher quels sont les caractères qui permettent de séparer le mieux possible les classes (groupes) d'individus et donner des représentations graphiques qui rendent compte au mieux de cette séparation.

- Objectif décisionnel : Un nouvel individu (anonyme) se présente, pour lequel on ne connaît que les valeurs des caractères descriptifs discriminants, il s'agit alors de décider dans quelle classe il faut l'affecter.

L'analyse discriminante tente alors de résoudre le problème de l'affectation à une classe d'un individu caractérisé par de nombreux caractères explicatifs. Les fonctions linéaires discriminantes seront les combinaisons linéaires de ces caractères, dont les valeurs séparent au mieux des classes connues a priori.

Par exemple, certains résultats réalisés sur un ensemble d'entreprises caractérisé par une série de mesures comptables (C.A., différents ratios, frais de publicité, etc.) et dont on connaît leur situation actuelle (bonne, stable, critique), on se propose de "prédire" (ou de décider) l'avenir d'une nouvelle entreprise connaissant ses résultats sur le même ensemble de mesures comptables.

A partir de ces informations, l'analyse discriminante va prévoir la situation la plus probable de cette nouvelle entreprise.

Exemple : Caractéristiques de 200 entreprises.

Le caractère qualitatif à discriminer "Situation de l'entreprise" comprend ici trois modalités (bonne, stable, critique) et les caractères explicatifs quantitatifs sont les mesures comptables : Chiffre d’affaires annuel (M.F.), nombre de Salariés, nombre de points de Vente, ..., frais de Publicité (M.F.).

Caractères explicatifs Caractère à expliquer Mesures comptables Situation de l’entreprise

Ets C.A. S V P Bonne Stable Critique Classe

E001 6860 325 152 414 1 0 0 1 E002 2925 353 117 234 0 0 1 3

... ... ... ... ... ... ... ... ... E200 5775 412 124 295 0 1 0 2

Tableau des données

Le tableau ci-dessous contient les valeurs moyennes des mesures comptables des 200 entreprises sur

chacune des trois situations.

6 Factorial Discriminant Analysis (FDA, descriptive discriminant analysis, canonical variate analysis). 7 Cluster analysis, classification.

Page 25: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 25 - R. Abdesselam

Mesures comptables

Classes C.A. S V P Effectif Poids

Bonne 5465 330 346 396 66 0.330 Stable 4325 341 219 127 84 0.420

Critique 3675 326 182 221 50 0.250

Tableau des centres des classes

Ainsi, d'un point de vue de la discrimination, l'analyse factorielle discriminante, en décrivant l'échantillon

d'apprentissage composé de 200 entreprises, permet de répondre aux questions préalables suivantes :

- Est-il possible de réaliser la discrimination à partir des caractères descriptifs (mesures comptables) choisis ?

- Comment se comportent les caractères descriptifs vis-à-vis des trois classes à discriminer ? - Quelles sont les caractères ou les groupes de caractères les plus discriminants ?

Peut-on donner une réponse graphique à la question : Dans quelle mesure la situation d'une entreprise dépend-t-elle des mesures comptables ?

0n peut répondre à la question posée en appliquant les principes de l'Analyse en Composantes Principales au tableau des centres des classes. l'AFD se présente alors comme une ACP particulière.

4.2 Analyse en Composantes Principales des centres des classes :

On considère alors les centres des classes comme des individus et les colonnes comme des variables. On fait ensuite l'ACP de ce tableau avec une métrique particulière, (distance de Mahalanobis) pour calculer les proximités entre les centres des classes, et des poids proportionnels aux effectifs des classes. On obtient ainsi, une analyse et des représentations graphiques sur des plans factoriels appropriés qui permettent de séparer au mieux les centres des classes.

Les résultats d'une AFD peuvent alors se visualiser sur les plans factoriels appelés plans discriminants et se formuler par des critères d'inertie :

- maximiser l'inertie interclasses : séparer au mieux les centres des classes afin d'exalter les différences entre classes.

- minimiser l'inertie intra-classes : les individus appartenant à une même classe soient le plus concentrés possible autour du centre de la classe afin que l'étendue dans les classes soit bien délimitée.

Les principes de représentation et les indices de qualité sont les mêmes que ceux de l'Analyse en

Composantes Principales.

Remarques :

- Cas de deux classes, on retrouve les résultats de l'analyse discriminante linéaire classique rencontrée fréquemment lors des applications. C'est aussi un cas particulier de la régression multiple, où la

variable à expliquer ne prend que deux valeurs (modalités), chacune d'elles caractérisant une classe. - Quand le nombre de variables descriptives est très élevé relativement à la taille de l'échantillon, il est

souvent indispensable de passer par une phase de sélection des "meilleurs" caractères discriminants afin d'obtenir une discrimination satisfaisante. Certains logiciels d'analyse de données proposent des méthodes hiérarchiques de sélection des caractères, basées sur des critères de mesure du "pouvoir" discriminant de ces caractères. Ce sont des techniques de discrimination pas à pas analogues à la régression stepwise où on introduit au fur et à mesure les caractères explicatifs dans une formule de discrimination.

- L'Analyse Factorielle Discriminante sur un ensemble de variables qualitatives explicatives (discriminantes) et une AFD sur les composantes principales (quantitatives) de l'AFCM des variables explicatives.

Page 26: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 26 - R. Abdesselam

4.3 Discrimination en 2 classes - Exemple - Données ( Le marché belge des petites voitures )

On s'intéresse ici à un échantillon de voitures de moins de 3,80 mètres. On dispose du prix en milliers de francs belges, de la consommation urbaine, de la cylindrée, de la vitesse maximum, du volume maximum du coffre, du rapport poids/puissance et de la longueur de 27 voitures.

L'objectif est de mettre en évidence les caractéristiques qui différencient ces voitures concurrentes. On désire déterminer dans quelle mesure la marque du constructeur est liée aux caractéristiques mesurées

par les six caractères quantitatifs ( prix en milliers de francs belges, consommation urbaine, cylindrée, vitesse maximum, volume maximum du coffre et le rapport poids/puissance ). Le caractère qualitatif à discriminer, marque du constructeur ( Française, Etrangère ), prend ici deux modalités.

Disposant des caractéristiques de trois nouvelles petites voitures, anonymes quant à leur marque, on se

propose de visualiser ces voitures dans les plans discriminants de l'analyse et ainsi tenter de prévoir la marque de leur constructeur. Ces trois voitures seront considérées dans l'analyse comme individus supplémentaires.

AFD : Marché des petites voitures en Belgique

SELECTION DES INDIVIDUS ET DES VARIABLES UTILES

VARIABLES NOMINALES ACTIVES

1 VARIABLES 2 MODALITES ASSOCIEES

---------------------------------------------------------------------------------------------------------

8 . Marque du constructeur ( 2 MODALITES )

---------------------------------------------------------------------------------------------------------

VARIABLES CONTINUES ACTIVES

6 VARIABLES

---------------------------------------------------------------------------------------------------------

1 . Prix ( CONTINUE )

2 . Consommation urbaine ( CONTINUE )

3 . Cylindrée ( CONTINUE )

4 . Vitesse ( CONTINUE )

5 . Volume maximum du coffre ( CONTINUE )

6 . Rapport poids/puissance ( CONTINUE )

7 . Longueur ( CONTINUE )

---------------------------------------------------------------------------------------------------------

INDIVIDUS

----------------------------- NOMBRE -------------- POIDS ---------------

POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF

RETENUS ............ NITOT = 30 PITOT = 30.000

SELECTION APRES FILTRAGE

ACTIFS ............. NIACT = 27 PIACT = 27.000

SUPPLEMENTAIRES .... NISUP = 3 PISUP = 3.000

-------------------------------------------------------------------------

STATISTIQUES USUELLES DES VARIABLES

TRIS A PLAT DES VARIABLES NOMINALES

------ EFFECTIFS -------

ABSOLU %/TOTAL %/EXPR. HISTOGRAMME DES POIDS

9 . Marque du constructeur

MFRA - Française 10 37.04 37.04 ******************

METR - Etrangère 17 62.96 62.96 *****************************

ENSEMBLE 27 100.00 100.00

-----------------------------------------------------------------------------------------------------

Exemple ADL : Marché des petites voitures en Belgique

Dans le cas de deux groupes, l’analyse discriminante classique est formellement équivalente à une régression. Appliquée sur les coordonnées factorielles de l’analyse en composantes principales des caractéristiques des voitures, l’analyse discriminante de Fisher fournit le modèle de discrimination c’est-à-dire la combinaison linéaire des variables qui séparent au mieux les deux groupes de voitures.

Page 27: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 27 - R. Abdesselam

SELECTION DES INDIVIDUS ET DES VARIABLES UTILES

VARIABLES NOMINALES ACTIVES

1 VARIABLES 2 MODALITES ASSOCIEES

----------------------------------------------------------------------------------------------------

9 . Marque du constructeur ( 2 MODALITES )

----------------------------------------------------------------------------------------------------

VARIABLES CONTINUES ACTIVES

7 VARIABLES

----------------------------------------------------------------------------------------------------

1 . Prix ( CONTINUE )

2 . Consommation urbaine ( CONTINUE )

3 . Cylindrée ( CONTINUE )

4 . Vitesse ( CONTINUE )

5 . Volume maximum du coffre ( CONTINUE )

6 . Rapport poids/puissance ( CONTINUE )

7 . Longueur ( CONTINUE )

----------------------------------------------------------------------------------------------------

INDIVIDUS

----------------------------- NOMBRE -------------- POIDS ---------------

POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF

RETENUS ............ NITOT = 30 PITOT = 30.000

SELECTION APRES FILTRAGE

ACTIFS ............. NIACT = 27 PIACT = 27.000

SUPPLEMENTAIRES .... NISUP = 3 PISUP = 3.000

-------------------------------------------------------------------------

ANALYSE DISCRIMINANTE A 2 GROUPES

MODELE 1

DEFINITION

:----- MODELE : V9 =V1--V7

GESTION DES DONNEES MANQUANTES AUCUNE VALEUR MANQUANTE DETECTEE

ANALYSE DISCRIMINANTE LINEAIRE SUR L'ECHANTILLON : DE BASE

ENTRE LES 2 GROUPES : Française ET Etrangère

VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur

Page 28: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 28 - R. Abdesselam

Statistiques sommaires :

Tests de comparaison de deux moyennes selon chaque variable discriminante.

DESCRIPTION DES ECHANTILLONS

EFFECTIFS 10 17

MFRA METR T PROB

--------------------------------------------------------

MOY 340.220 307.112 0.984 0.335

PRIX E.TY ( 95.476)( 71.570)

MAXI 506.300 500.100

MINI 259.600 219.300

--------------------------------------------------------

MOY 7.000 7.218 0.471 0.641

CONS E.TY ( 1.305)( 0.987)

MAXI 9.300 9.200

MINI 5.600 6.100

--------------------------------------------------------

MOY 1177.100 1158.882 0.216 0.831

CYLI E.TY ( 241.183)( 178.511)

MAXI 1597.000 1461.000

MINI 954.000 903.000

--------------------------------------------------------

MOY 151.400 155.941 0.502 0.620

VITE E.TY ( 27.431)( 17.718)

MAXI 200.000 200.000

MINI 115.000 131.000

--------------------------------------------------------

MOY 1062.400 806.706 2.243 0.034

VOLU E.TY ( 123.670)( 333.652)

MAXI 1200.000 1200.000

MINI 915.000 202.000

--------------------------------------------------------

MOY 20.090 17.800 1.041 0.308

RPPU E.TY ( 7.052)( 3.941)

MAXI 33.100 23.400

MINI 10.200 11.000

--------------------------------------------------------

MOY 3.637 3.615 0.752 0.459

LONG E.TY ( 0.062)( 0.077)

MAXI 3.700 3.700

MINI 3.500 3.400

--------------------------------------------------------

STATISTIQUES USUELLES DES VARIABLES : TRIS A PLAT DES VARIABLES NOMINALES

------ EFFECTIFS -------

ABSOLU %/TOTAL %/EXPR. HISTOGRAMME DES POIDS

9 . Marque du constructeur

MFRA - Française 10 37.04 37.04 ******************

METR - Etrangère 17 62.96 62.96 *****************************

ENSEMBLE 27 100.00 100.00

--------------------------------------------------------------------------------------------------

Résultats de l’analyse discriminante : RESULTATS DE LA DISCRIMINATION LINEAIRE DE FISHER

TABLEAU DES EFFECTIFS DES GROUPES

GROUPES D'AFFECTATION

MFRA METR

GROUPES D'ORIGINE -------------------------

MFRA 8 2

METR 0 17

-------------------------

TABLEAU DE CLASSEMENT

POURCENTAGES DES CLASSEMENTS

BIEN CLASSES MAL CLASSES TOTAL

GROUPES D'ORIGINE --------------------------------------------------

MFRA 8.00 2.00 10.00

( 80.00) ( 20.00) (100.00)

--------------------------------------------------

METR 17.00 0.00 17.00

(100.00) ( 0.00) (100.00)

--------------------------------------------------

TOTAL 25.00 2.00 27.00

( 92.59) ( 7.41) (100.00)

LISTE DES INDIVIDUS MAL CLASSES

GROUPE MFRA : PE1 RE7

GROUPE METR : IL N'Y A AUCUN INDIVIDU MAL CLASSE

Page 29: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 29 - R. Abdesselam

Interprétation des résultats :

Les résultats du tableau de classement, indiquent un résumé du classement en terme de probabilité en utilisant la fonction discriminante.

Nous obtenons les pourcentages de bonne et de mauvaise classifications. Ainsi, sur 10 voitures de marque française, 8 ont été classés comme voitures de marque française et 2 comme étant de marque étrangère pour un pourcentage d’erreur ( % mal classés ) de 20%. Sur les 17 voitures de marques étrangères, toutes ont été classés comme tel et aucune voiture n’a été classée comme étant de marque française donc pour un pourcentage d’erreur de 0%. En tout, le pourcentage d’erreur total est de 7,41%. Le pourcentage total de mal classés est la moyenne des % mal classés ‘’intra classe’’ relativement aux probabilités a priori des classes (37% et 63% cf.tri à plat ou statistiques de la vriable à discriminer– option probabilités a priori ).

L’option probabilités a priori de chaque groupe doit être utilisée si les groupes sont de tailles différentes. Ce qui donnera alors la même importance à chaque groupe.

Efficacité de l’analyse discriminante :

Un bon classement est associé à un taux d’erreur faible. Il s’agit donc de comparer le risque d’erreur associé à une prédiction sans utiliser l’analyse discriminante avec un risque d’erreur associé à une prédiction en utilisant l’analyse discriminante. Sans analyse discriminante, nous avons 1 chance sur 2 d’effectuer un mauvais classement.

L’échantillon total ou d’apprentissage est généralement subdivisé en deux échantillons : l’échantillon de

base est utilisé pour caractériser le modèle de discrimination et l’échantillon test pour juger de la qualité de la discrimination faite en appliquant la méthode d’affectation aux individus, connus a priori, de cet échantillon et en dénombrant le pourcentage d’individus bien classés.

Un autre aspect important, souvent oublié, est la conséquence (monétaire ou autre) d’un mauvais classement. Par exemple,

- un médecin désire classer ses patients selon le risque (faible, élevé) qu’ils ont de développer un cancer. Dans cette situation, classer un patient comme étant à faible risque, alors qu’en réalité il est à risque élevé, est beaucoup plus préjudiciable pour la santé du patient que l’inverse (classer un patient à risque élevé alors qu’il est à risque faible). L’analyse discriminante sera efficace, pour certaines situations, si le taux d’erreur pour un type de mauvais classement est faible.

- Ou encore, un gérant de banque qui veut classer ses emprunteurs potentiels selon 2 catégories (risqué, peu risqué). Pour le gérant, c’est beaucoup plus embarrassant de classer une personne dans la catégorie peu risqué lorsque le risque de cette personne est élevé que l’inverse. Si le pourcentage d’erreur de ce mauvais classement est faible, on peut dire dans ce cas que l’analyse discriminante est efficace.

Les résultats de la fonction discriminante, de la « régression équivalente » ainsi que des variables explicatives, qui discriminent significativement les deux groupes, sont donnés dans le tableau suivant.

FONCTION LINEAIRE DISCRIMINANTE

VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA

........ VARIABLES FONCTION REGRESSION TYPES STUDENT

NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)

(SEUIL= 0.39)

..............................................................................................

1 Prix 0.195 0.1988 0.0306 0.0067 4.57 0.000

2 Consommation urbaine -0.095 -4.0235 -0.6201 0.2180 2.84 0.010

3 Cylindrée 0.043 0.0004 0.0001 0.0014 0.05 0.963

4 Vitesse -0.101 -0.7739 -0.1193 0.0377 3.17 0.005

5 Volume maximum du co 0.413 0.0040 0.0006 0.0005 1.14 0.270

6 Rapport poids/puissa 0.206 -0.9570 -0.1475 0.0929 1.59 0.129

7 Longueur 0.150 -15.1890 -2.3411 2.1097 1.11 0.281

CONSTANTE 152.184906 23.645252 10.7812 2.1932 0.0409

..............................................................................................

R2 = 0.70447 F = 6.47020 PROBA = 0.001

D2 = 9.46492 T2 = 59.59396 PROBA = 0.001

Page 30: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 30 - R. Abdesselam

Qualités du modèle discriminant :

1. Pourcentages de bien classés : Le pourcentage total de bien classés est 92.59% : le modèle est très satisfaisant. Attention, ce taux, calculé sur l’échantillon ayant servi à estimer les paramètres, est

nécessairement trop optimiste. Il faudrait normalement le comparer à celui obtenu sur

l’échantillon test !!!

La comparaison entre analyse discriminante et la régression logistique est possible mais demande un peu d’attention et surtout la constitution préalable d’un échantillon test.

2. Le modèle dans son ensemble est-il significatif ?

Globalement, les variables explicatives introduites dans le modèle discriminent : en effet, ici, le modèle

dans son ensemble est significatif car la probabilité ( PROBA = 0.001 ) est inférieure à = 5% , risque

d’erreur classique choisi. Relations entre les modèles discriminant et régression multiple équivalente :

- les coefficients des modèles sont proportionnels - relations entre le T² (de Hotelling), le R² (coefficient de détermination), le D² (distance de

Mahalanobis) et le F (de Fisher) :

La statistique de Fisher est liée au T² , D² et R² par les formules :

F(p , n – p – 1) = (n – p – 1) T² / (n – 2) p = (n – p – 1) n1 n2 D² / p n² = (n – p – 1) R² / p (1- R²)

avec (p , n – p – 1) degrés de liberté. n = n1 + n2 désigne la taille de l’échantillon de deux groupes d’effectifs respectfs n1 et n2 et p le nombre de variables explicatives.

D’autre part, Le T² et D² sont liés par l’équation :

T²(n - 2 , p) = n1 n2 ( n – 2) D² / n² = n² R² / n1 n2 (1- R²).

On en déduit l’expression de D² en fonction de R² : D² = n² R² / n1 n2 (1- R²)

3. Quelles sont les variables qui discriminent réellement les deux groupes ?

Les variables explicatives qui discriment les deux groupes sont celles dont la probabilité est inférieure au risque d’erreur choisi ( PROBA < = 5% ). Ainsi, parmi les sept variables introduites, seuls le prix, la

consommation urbaine et la vitesse discriminent donc différencient les deux groupes. Le signe du coefficient de la fonction linéaire discriminante permet de localiser les caractéristiques de chacun des groupes : le signe positif pour le groupe 1 et le signe négatif pour le groupe 2.

Ainsi, on peut conclure que les voitures de marque française « G1+ » sont significativement plus chères alors que les voitures de marque étrangère « G2- » se différencient par leur consommation urbaine et leur vitesse significativement plus élevées.

Affectation des individus de l’échantillon d’apprentissage :

Cette méthode fournit aussi une estimation de la probabilité d’appartenance d’un individu à un groupe sachant qu’il a été affecté à tel ou tel groupe.

LISTE DES AFFECTATIONS ET DES PROBABILITES CORRESPONDANTES

IND. ORIG AFFEC PROBA FONCT.

AFFEC FISHER

TO3 METR == 1.000 -10.015 I *..............................|............................ I

OP1 METR == 1.000 -9.278 I ..*............................|............................ I

SZ2 METR == 1.000 -8.656 I ....*..........................|............................ I

SZ3 METR == 1.000 -8.539 I .....*.........................|............................ I

TO1 METR == 0.999 -7.483 I ........*......................|............................ I

SE4 METR == 0.998 -6.886 I ..........*....................|............................ I

SE9 METR == 0.997 -6.283 I ...........*...................|............................ I

DA2 METR == 0.997 -6.219 I ............*..................|............................ I

FI3 METR == 0.995 -5.874 I .............*.................|............................ I

FO9 METR == 0.987 -4.835 I ................*..............|............................ I

VW3 METR == 0.982 -4.540 I .................*.............|............................ I

FO1 METR == 0.974 -4.149 I ..................*............|............................ I

AS2 METR == 0.973 -4.112 I ..................*............|............................ I

FI5 METR == 0.972 -4.064 I ..................*............|............................ I

NI1 METR == 0.942 -3.326 I .....................*.........|............................ I

FID METR == 0.907 -2.811 I ......................*........|............................ I

FI8 METR == 0.720 -1.475 I ..........................*....|............................ I

RE7 MFRA METR 0.704 -1.399 I ..........................*....|............................ I

PE1 MFRA METR 0.622 -1.030 I ............................*..|............................ I

PE6 MFRA == 0.706 0.346 I ...............................|*........................... I

RE8 MFRA == 0.921 1.917 I ...............................|.....*...................... I

CI4 MFRA == 0.953 2.474 I ...............................|......*..................... I

RE4 MFRA == 0.978 3.253 I ...............................|.........*.................. I

RE1 MFRA == 0.997 5.137 I ...............................|...............*............ I

PE9 MFRA == 1.000 7.681 I ...............................|......................*..... I

RE3 MFRA == 1.000 9.110 I ...............................|...........................* I

PE3 MFRA == 1.000 9.190 I ...............................|...........................* I

Page 31: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 31 - R. Abdesselam

Affectation des individus anonymes : Objectif décisionnel du modèle :

ANALYSE DISCRIMINANTE LINEAIRE SUR L'ECHANTILLON : ANONYME

ENTRE LES 2 GROUPES : Française ET Etrangère

VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur

LISTE DES AFFECTATIONS ET DES PROBABILITES CORRESPONDANTES

IND. ORIG AFFEC PROBA FONCT.

AFFEC FISHER

VS1 ? METR 0.998 -6.758 I *...........................................|............... I

VS2 ? MFRA 0.791 0.797 I ............................................|.....*......... I

VS3 ? MFRA 0.940 2.220 I ............................................|..............* I

Représentation graphique sommaire :

Les histogrammes des individus sont tracés, repérés par leur identification, sur le seul axe discriminant, pour les deux groupes à différencier.

HISTOGRAMMES 0

HISTOGRAMME OBTENU SUR GROUPE MFRA : G1 : + -9.4 -8.1 -6.8 -5.5 -4.3 -3.0 -1.7 -0.4 0.9 2.1 3.4 4.7 6.0 7.3 8.5

-10.0 -8.7 -7.5 -6.2 -4.9 -3.6 -2.3 -1.1 0.2 1.5 2.8 4.1 5.3 6.6 7.9 9.2

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

RE3

2 MAL CLASSES RE7 PE1 PE6 RE8 CI4 RE4 RE1 PE9 PE3 +---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 1 1 0 0 1 0 0 0 1 0 2

HISTOGRAMME OBTENU SUR GROUPE METR : G2 : - -9.4 -8.1 -6.8 -5.5 -4.3 -3.0 -1.7 -0.4 0.9 2.1 3.4 4.7 6.0 7.3 8.5

-10.0 -8.7 -7.5 -6.2 -4.9 -3.6 -2.3 -1.1 0.2 1.5 2.8 4.1 5.3 6.6 7.9 9.2

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

FO1

SZ3 DA2 VW3 FI5 AUCUN MAL CLASSE TO3 OP1 SZ2 TO1 SE4 SE9 FI3 FO9 AS2 NI1 FID FI8

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

1 1 2 1 1 2 1 0 2 3 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Comme la taille de l’échantillon est faible, on demande de valider la règle par des tirages «bootstrap». Les résultats de la discrimination sont ré-édités avec les estimations « bootstrap » : le biais et la précision des classements globaux sont édités avec les classements directs.

ANALYSE DISCRIMINANTE VIA ESTIMATIONS BOOTSTRAP : 10 TIRAGES ALEATOIRES

ESTIMATION BOOTSTRAP DE LA DIFFERENCE ENTRE UNE PROBABILITE DE CLASSEMENT ET SON ESTIMATION

(ENTRE * * : L'ECART-TYPE BOOTSTRAP ASSOCIE L'ESTIMATION DE LA DIFFERENCE)

FRAN ETRA

GROUPES D'ORIGINE ------------------------

FRAN -8.00 8.00

* 7.89* * 7.89*

ETRA 4.12 -4.12

* 4.84* * 4.84*

------------------------

FRAN ETRA

ESTIMATIONS BOOTSTRAP DES EFFECTIFS ET POURCENTAGES

ENTRE ETOILES : ECART-TYPE DES POURCENTAGES

RAPPEL DU CALCUL DE BASE BOOTSTRAP

EFFECTIFS ET (POURCENTAGES) | EFFECTIFS ET (POURCENTAGES)

BIEN CLASSES MAL CLASSES | BIEN CLASSES MAL CLASSES TOTAL

GROUPES -----------------------------------------------------------------------

FRAN 8.00 2.00 | 7.20 2.80 10.00

( 80.00) ( 20.00) | ( 72.00) ( 28.00) (100.00)

| * 9.94* * 9.94*

------------------------------------------------------------------------

ETRA 17.00 0.00 | 16.30 0.70 17.00

(100.00) ( 0.00) | ( 95.88) ( 4.12) (100.00)

| * 1.86* * 1.86*

------------------------------------------------------------------------

TOTAL 25.00 2.00 | 23.50 3.50 27.00

( 92.59) ( 7.41) | ( 87.04) ( 12.96) (100.00)

| * 3.40* * 3.40*

Page 32: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 32 - R. Abdesselam

ESTIMATIONS BOOSTRAP POUR LA FONCTION DISCRIMINANTE

VARIABLES . CORRELATIONS . COEFFICIENTS

................ VARIABLES . FONCTION

NUMERO . NOM . F.L.D . DISCRIMINANTE

MOYENNE ECART-TYPE MOYENNE ECART-TYPE MOY/E-T

.......................................................................

1 PRIX 0.075 0.142 0.329072 0.116958 2.8136

2 CONS -0.158 0.152 -6.390500 3.320573 1.9245

3 CYLI -0.075 0.101 0.000796 0.021419 0.0372

4 VITE -0.228 0.201 -1.244145 0.404979 3.0721

5 VOLU 0.361 0.123 0.003431 0.003458 0.9920

6 RPP 0.313 0.179 -1.433466 1.178268 1.2166

7 LONG 0.043 0.116 -29.143648 12.849764 2.2680

CONSTANTE 259.699646 94.038246 2.7616

.......................................................................

Sélection des meilleures variables discriminantes

Cette méthode (FUWILD) permet de rechercher, par l’algorithme de Furnival et Wison, Les m meilleurs ajustements de taille k variables discriminantes, (k = 1 à p = nombre de variables explicatives et m = 3 par défaut). Le R² (carré de la corrélation multiple par défaut ) ou le R² ajusté, ou le CP de Mallows sont les critères possibles de sélection des ajustements. Ils peuvent être changés dans l’onglet « paramètres ».

Page 33: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 33 - R. Abdesselam

RECHERCHE DES AJUSTEMENTS OPTIMAUX

MODELE 1

DEFINITION

:----- MODELE

V9 = V1--V7

APUREMENT DES INDIVIDUS ACTIFS AYANT UNE DONNEE MANQUANTE POUR LA VARIABLE ENDOGENE

INDIVIDUS ACTIFS RETENUS POUR LES CALCULS: 27

INDIVIDUS ACTIFS EXCLUS POUR LES CALCULS: 0

GESTION DES DONNEES MANQUANTES.

LES VALEURS MANQUANTES SONT REMPLACEES PAR LES MOYENNES INTRA-GROUPES

POUR LES INDIVIDUS ANONYMES ELLES SONT REMPLACEES PAR LES MOYENNES GENERALES

----------------------------------------------------------------------------------------------------------

GRP NUM. MOYENNE MOYENNE NB. VALEURS

VAR. INTRA GROUPE GENERALE MANQUANTES LIBELLE DE LA VARIABLE

----------------------------------------------------------------------------------------------------------

1 1 340.220 319.374 0 Prix - (MF- Belges)

1 2 7.000 7.137 0 Consommation urbaine (litre)

1 3 1177.100 1165.630 0 Cylindrée (cm3)

1 4 151.400 154.259 0 Vitesse maximum (km/h)

1 5 1062.400 901.407 0 Volume maximum du coffre

1 6 20.090 18.648 0 Rapport Poids/Puissance

1 7 3.637 3.623 0 Longueur du véhicule (mètre)

2 1 307.112 319.374 0 Prix - (MF- Belges)

2 2 7.218 7.137 0 Consommation urbaine (litre)

2 3 1158.882 1165.630 0 Cylindrée (cm3)

2 4 155.941 154.259 0 Vitesse maximum (km/h)

2 5 806.706 901.407 0 Volume maximum du coffre

2 6 17.800 18.648 0 Rapport Poids/Puissance

2 7 3.615 3.623 0 Longueur du véhicule (mètre)

----------------------------------------------------------------------------------------------------------

LES MEILLEURS AJUSTEMENTS DU MODELE

ANALYSE DISCRIMINANTE LINEAIRE

VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur

GROUPES : Française ET Etrangère

1 VARIABLE + CONSTANTE, DDL(STUDENT) = 25

AJUSTEMENT 1

R**2= 0.168 F(R2)= 5.0313 PROBA= 0.0340 V-TEST= 2.12

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0014 2.24 0.034 2.12 VOLU Volume maximum du coffre

2 VARIABLES + CONSTANTE, DDL(STUDENT) = 24

AJUSTEMENT 1

R**2= 0.503 F(R2)= 12.1374 PROBA= 0.0002 V-TEST= 3.52

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0209 4.88 0.000 4.03 PRIX Prix - (MF- Belges)

-0.0768 4.74 0.000 3.94 VITE Vitesse maximum (km/h)

AJUSTEMENT 2

R**2= 0.339 F(R2)= 6.1666 PROBA= 0.0066 V-TEST= 2.48

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0103 3.29 0.003 2.96 PRIX Prix - (MF- Belges)

0.1582 3.31 0.003 2.98 RPP Rapport Poids/Puissance

AJUSTEMENT 3

R**2= 0.224 F(R2)= 3.4614 PROBA= 0.0464 V-TEST= 1.68

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0096 2.58 0.016 2.40 PRIX Prix - (MF- Belges)

-0.6638 2.40 0.024 2.25 CONS Consommation urbaine (litre)

3 VARIABLES + CONSTANTE, DDL(STUDENT) = 23

AJUSTEMENT 1

R**2= 0.612 F(R2)= 12.0965 PROBA= 0.0001 V-TEST= 3.86

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0252 5.97 0.000 4.59 PRIX Prix - (MF- Belges)

-0.5141 2.54 0.018 2.36 CONS Consommation urbaine (litre)

-0.0709 4.80 0.000 3.95 VITE Vitesse maximum (km/h)

4 VARIABLES + CONSTANTE, DDL(STUDENT) = 22

AJUSTEMENT 1

R**2= 0.648 F(R2)= 10.1383 PROBA= 0.0001 V-TEST= 3.77

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0226 5.10 0.000 4.10 PRIX Prix - (MF- Belges)

-0.6113 2.95 0.007 2.68 CONS Consommation urbaine (litre)

-0.0585 3.52 0.002 3.10 VITE Vitesse maximum (km/h)

0.0008 1.51 0.146 1.45 VOLU Volume maximum du coffre

Page 34: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 34 - R. Abdesselam

5 VARIABLES + CONSTANTE, DDL(STUDENT) = 21

AJUSTEMENT 1

R**2= 0.685 F(R2)= 9.1464 PROBA= 0.0001 V-TEST= 3.73

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0272 5.23 0.000 4.14 PRIX Prix - (MF- Belges)

-0.6293 3.13 0.005 2.81 CONS Consommation urbaine (litre)

-0.1044 3.13 0.005 2.81 VITE Vitesse maximum (km/h)

0.0008 1.67 0.109 1.60 VOLU Volume maximum du coffre

-0.1323 1.57 0.131 1.51 RPP Rapport Poids/Puissance

6 VARIABLES + CONSTANTE, DDL(STUDENT) = 20

AJUSTEMENT 1

R**2= 0.704 F(R2)= 7.9446 PROBA= 0.0002 V-TEST= 3.57

COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE

0.0308 5.10 0.000 4.04 PRIX Prix - (MF- Belges)

-0.6166 3.09 0.006 2.76 CONS Consommation urbaine (litre)

-0.1197 3.35 0.003 2.95 VITE Vitesse maximum (km/h)

0.0006 1.17 0.257 1.13 VOLU Volume maximum du coffre

-0.1490 1.76 0.094 1.67 RPP Rapport Poids/Puissance

-2.3346 1.14 0.269 1.11 LONG Longueur du véhicule (mètre)

CROISSANCE DU R**2 EN FONCTION DU NOMBRE DE VARIABLES

0.037 (R**2 MIN) (R**2 MAX) 0.704

Courbe du R2 selon le nombre de variables

Nombre devariables du

modèle

Valeur du R2

7

6

5

4

3

2

1

0.06 0.12 0.19 0.25 0.32 0.38 0.45 0.51 0.58 0.64 0.70

Les résultats fournis sont en faveur du choix du modèle à k = 3 variables (prix, consommation et

vitesse), car on atteint un palier dans la croissance du R². On pourrait donc refaire la discrimination en ne choisissant que ces trois variables.

5 Présentation des résultats d'une analyse factorielle

La partie publiable des résultats d'une analyse factorielle ne représente en général qu'une petite fraction des calculs effectués, on publiera surtout les graphiques factoriels offrant un panorama exceptionnel et qui rendent un peu plus vivante la lecture de certains tableaux de résultats. Les rubriques ci-dessous doivent nécessairement accompagner chaque analyse :

Dimension du tableau de données : nombres de variables et d'individus dans le cas d'une ACP, nombres de lignes et de colonnes dans le cas d'une AFC d'un tableau de contingence, nombres de variables discriminantes et de modalités de la variable à discriminer dans le cas d'une AFD.

Nature et codage des données : préciser le type des variables, s'agit-il de mesures numériques continues (quantitatives), de codage disjonctif, de codage ordinal (qualitatives), s'agit-il d'effectifs, de

pourcentages.

Liste des variables : avoir une idée de l'importance de chacun des thèmes, du caractère représentatif de l'ensemble des variables destiné à être synthétisé. On ne peut juger de la pertinence d'un facteur sans connaître cette liste. Même si elle figure sur le graphique, il est bon de l'avoir sous les yeux séparément, accompagnée des caractéristiques statistiques correspondantes (moyennes, écart-types, minimum, maximum, etc..).

Page 35: Analyse des données · 2015. 12. 18. · Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des moyens d’exploitation informatique

M1 : Economie Quantitative – Analyse des Données - 35 - R. Abdesselam

Variables actives et illustratives (ou individus actifs et illustratifs) : les variables actives interviennent simultanément dans l'analyse, elles servent à calculer un système de distances entre les individus, qui permettra de déterminer les axes factoriels. Par contre les variables illustratives ou supplémentaires interviennent une par une après la détermination de ces axes, elles ne contribuent pas à l'analyse, on les visualise tout simplement sur les axes factoriels des variables actives. Il est donc nécessaire de bien distinguer les deux ensembles de variables.

Liste des valeurs propres et des taux d'inertie (information résumée) : les valeurs propres elles-mêmes ne sont utiles que dans le cas d'une AFC : une valeur propre voisine de 1 indique que la représentation simultanée est de bonne qualité. Les taux d'inertie peuvent aider à juger de la signification statistique des facteurs.

Aides à l'interprétation (contributions absolues et relatives) : il n'est pas indispensable de publier les listes exhaustives de ces paramètres, en général trop encombrantes. Quelques contributions absolues (qui indiquent comment une variable participe à la construction d'un axe) pourront être citées pour étayer l'éventuelle caractérisation de l'axe. Les contributions absolues trop fortes ( de l'ordre de 40 à 50% par exemple) sont en général suspectes : elles traduisent un certain déséquilibre de la synthèse. Les contributions relatives peuvent être fortes : elles traduisent dans ce cas la caractérisation exclusive de l'axe par une variable.

Les graphiques : un certain nombre de procédures élémentaires permettent de clarifier la lecture des plans factoriels :

- on allégera le graphique en éliminant les variables dont la position n'est pas "significative", en général situées près de l'origine des axes,

- on joindra par des contours polygonaux les modalités ordonnées de façon naturelle (classes de revenus, classes d’âges, nombre d'enfants, etc.).

Règles d'interprétation générales : rappelons qu'en analyse des correspondances, les deux ensembles jouent des rôles identiques : l'origine des axes est aussi bien le centre de gravité des points-lignes que des points-colonnes. Par contre en ACP, l'origine n'est centre de gravité que pour les individus; les variables peuvent être ainsi sur un même demi-axe : on parlera alors de facteur de taille. Pour les deux méthodes, les seules proximités dont l'interprétation est strictement licite sont les proximités entre éléments d'un même ensemble. Ces proximités sont d'autant plus "significatives" que l'on s'éloigne de l'origine des axes vers la périphérie du graphique. En ce qui concerne les proximités croisées en AFC, on interprétera par exemple, la position d'un point-ligne par rapport à celles de tous les points-colonnes ou vice versa. L'interprétation sera ici encore d'autant plus claire que le point sera davantage éloigné de l'origine des axes.