160
Rapport du stage effectu´ e au laboratoire HEUDIASYC UMR CNRS 6599 pr´ esent´ e par Moustapha DOUMIATI pour obtenir le diplˆ ome Master de recherche en informatique Fouille de donn´ ees pour l’analyse des performances d’unit´ es op´ erationnelles d’un groupe industriel dans le domaine de l’environnement Encadr´ e par : Pr. Thierry DENOEUX Astride AREGUI

Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Embed Size (px)

Citation preview

Page 1: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Rapport du stage effectue au laboratoireHEUDIASYC UMR CNRS 6599

presente parMoustapha DOUMIATI

pour obtenir le diplomeMaster de recherche en informatique

Fouille de donnees pour l’analyse des performancesd’unites operationnelles d’un groupe industriel dans le

domaine de l’environnement

Encadre par :Pr. Thierry DENOEUX

Astride AREGUI

Page 2: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

2

Page 3: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Remerciements

Je remercie vivement en premier lieu mon responsable du stage, le pro-fesseur Thierry Denoeux, pour toute l’aide et les nombreux conseils qu’il m’aprodigues tout au long de ce travail.

Je tiens a remercier la doctorante Astride Aregui, pour m’avoir soutenu,encourage et conseille tout au long de ce travail.

Je souhaite adresser mes sinceres remerciement a Messieurs Billard, Bel-pois, Jacq et Madame Blanc, les membres de l’entreprise qui n’ont jamaishesite a me donner toute information technique necessaire concernant lesjeux de donnees.

Je voudrais montrer toute ma reconnaissance et ma gratitude a tous lesmembres de ma famille au Liban, qui ont toujours ete la pour m’encourageret me remotiver lorsque le coeur n’y etait plus.

Je remercie mes amis du bureau Krystina, Xu, et Dao avec qui j’ai passedes beaux moments pleins de travail. Je remercie plus specifiquement monami Dao Tien-tuan qui m’a aide a apprendre Latex.

Bien sur, je tiens a montrer toute ma gratitude envers les personnes quiont pu m’aider, m’encourager et me soutenir pendant cette annee de travail,d’autant plus que c’etait ma premiere annee en France. J’en oublie certaine-ment mais je leur dit encore merci pour tout.

Page 4: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Liste des abreviations

ACP Analyse en Composantes principalesBU Business UnitCAH Classification Ascendante HierarchiqueCM Centres MobilesE Environnemental ReportingECD Extraction des Connaissances a partir des DonneesKDD Knowledge Discovery in Data BaseNA Not a numberNS Not on ServiceP Performance Ratio Report

4

Page 5: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Notations

Nous donnons ici la liste des notations utilisees dans notre rapport.

k Nombre des classes ou des partitionsxi Individu numero iµi Poids correspondant a l’individu igi Barycentre de la classe ig Barycentre du nuage des pointsd(i,j) Distance entre l’objet i et l’objet jCi Classe ou partition numero i

xji Valeur prise par l’individu i pour la variable j

xt Transpose du vecteur xRp Espace des variablesI InertieD Critere d’agregation (Distance entre classes)|Ci| Cardinal des elements de la classe iΩ Ensemble des individuswij Poids de connexion dirigee du neurone j vers le neurone if Fonction de transfert du neuroneλ Valeur propre associee a une matriceWi Vecteur poids du neurone iVi Voisinage du neuroneα(t) Taux d’apprentissage du neuroneui,j Degre d’appartenance de l’objet i a la classe jγ Coefficient de reglage flou

5

Page 6: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Resume

Chaque annee l’entreprise SUEZ environnement envoie a ses filiales desquestionnaires afin d’evaluer leurs performances. Aujourd’hui, SUEZ environ-nement nous fournit deux bases de donnees correspondant aux annees 2001,2002, 2003 et 2004 et souhaite les exploiter pour en extraire de l’information.La premiere base de donnees met en relation les filiales et leurs reponses auxquestions (indicateurs) et la deuxieme met en relation les filiales et des ratioscalcules a partir des indicateurs.

Le cadre de notre projet fait partie d’un processus appele Extractiondes Connaissances a partir des Donnees (ECD). Ce processus comporte troisphases principales :

– Pretraitement de donnees ;– Fouille des donnees ;– Interpretation des experts.

Au cours de notre projet, nous avons essaye de repondre aux questions del’entreprise et de mettre en evidence :

– Une typologie des indicateurs.– Une typologie des filiales.

Notre rapport est structure en trois parties :

1. Une partie bibliographique dans laquelle nous avons explique les me-thodes et les algorithmes utilises dans notre analyse ;

2. Une partie pratique ou nous ne nous sommes interesses qu’a la basede donnees filiales/indicateurs afin de ne pas compliquer notre rapport.Dans une premiere partie, nous decrivons les donnees et leur pretraite-ment, puis nous avons mis en evidence des typologies des indicateurset des filiales ;

3. Enfin, une partie annexe.

Notez que nous avons tente d’interpreter les resultats obtenus en termesde metier, grace a l’aide des membres de l’entreprise.

6

Page 7: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Table des matieres

1 Introduction 11

I Fondements theoriques 15

2 Analyse en Composantes principales (ACP) 162.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 Representations geometriques des donnees . . . . . . . . . . . 162.3 Analyse du nuage des individus . . . . . . . . . . . . . . . . . 172.4 Ajustement du nuage des individus . . . . . . . . . . . . . . . 182.5 Choix du nombre d’axes a conserver . . . . . . . . . . . . . . . 182.6 Composantes Principales . . . . . . . . . . . . . . . . . . . . 192.7 Contribution relative d’un axe a un individu . . . . . . . . . . 192.8 Analyse dans l’espace des individus . . . . . . . . . . . . . . . 192.9 Individus supplementaires . . . . . . . . . . . . . . . . . . . . 202.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Classification automatique : Notions de bases 213.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.2 Introduction a la classification automatique . . . . . . . . . . 213.3 Classification par methode de partitionnement . . . . . . . . . 23

3.3.1 Algorithme des centres mobiles net(k-moyennes) . . . . 233.3.2 La classification floue . . . . . . . . . . . . . . . . . . . 253.3.3 Algorithme des k-medoıdes . . . . . . . . . . . . . . . . 26

3.4 Classification ascendante hierarchique (CAH) . . . . . . . . . 273.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7

Page 8: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

4 Cartographie associative 304.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2 Le neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2.1 Schema fonctionnel du neurone formel . . . . . . . . . 304.2.2 Apprentissage du reseau neuronal formel . . . . . . . . 31

4.3 Apprentissage competitif . . . . . . . . . . . . . . . . . . . . . 324.4 Cartographie associative . . . . . . . . . . . . . . . . . . . . . 33

4.4.1 Cartes organisatrices de Kohonen . . . . . . . . . . . . 344.4.2 Application de l’algorithme de Kohonen . . . . . . . . 344.4.3 Comparaison avec l’ACP . . . . . . . . . . . . . . . . . 354.4.4 Interpretation de la classification par les cartes de Ko-

honen . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

II Base de donnees filiales/indicateurs 37

5 Description, representation et pretraitement des donnees dela base filiales/indicateurs 385.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.2 Description des donnees . . . . . . . . . . . . . . . . . . . . . 385.3 Representation mathematique des donnees . . . . . . . . . . . 39

5.3.1 Correction et codage des donnees . . . . . . . . . . . . 405.3.2 Choix du logiciel . . . . . . . . . . . . . . . . . . . . . 405.3.3 Caracteristiques des individus . . . . . . . . . . . . . . 40

5.4 Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . 435.4.1 Selection des individus et des variables . . . . . . . . . 435.4.2 Nouvelle representation des donnees . . . . . . . . . . . 455.4.3 Transformation et normalisation des donnees . . . . . . 465.4.4 Algorithme de centres mobiles pour l’imputation des

valeurs manquantes . . . . . . . . . . . . . . . . . . . . 465.5 Evolution des filiales par annee . . . . . . . . . . . . . . . . . 475.6 Valeurs atypiques . . . . . . . . . . . . . . . . . . . . . . . . . 485.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Analyse des donnees par ACP 526.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2 Methodologie de l’analyse effectuee . . . . . . . . . . . . . . . 526.3 Analyse des donnees du secteur A (Water Production) . . . . 536.4 Analyse des donnees du secteur B (Water Distribution) . . . . 586.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

8

Page 9: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

7 Classification automatique des indicateurs 647.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.2 Methodologie de classification des indicateurs . . . . . . . . . 65

7.2.1 Creation de table de proximite . . . . . . . . . . . . . . 657.2.2 Classification a partir des facteurs . . . . . . . . . . . . 657.2.3 Methode de re-etiquetage des classes pour la formation

des formes fortes . . . . . . . . . . . . . . . . . . . . . 657.2.4 Strategie de classification des indicateurs par secteur . 667.2.5 Signe de relation entre les indicateurs . . . . . . . . . . 67

7.3 Classification des indicateurs du secteur A . . . . . . . . . . . 677.4 Classification des indicateurs du secteur C . . . . . . . . . . . 757.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

8 Segmentation des filiales par secteur 838.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 838.2 Creation du tableau des donnees . . . . . . . . . . . . . . . . . 838.3 Segmentation des filiales du secteur A . . . . . . . . . . . . . . 848.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

9 Interpretation des resultats en termes de metiers 879.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.2 Interpretation de la typologie des indicateurs du secteur A . . 879.3 Interpretation de la typologie des indicateurs du secteur C . . 889.4 Interpretation de la typologie des indicateurs du secteur D . . 889.5 Interpretation de la typologie des indicateurs du secteur E . . 889.6 Interpretation de la typologie des filiales . . . . . . . . . . . . 899.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

10 Conclusion generale et perspective 90

III Annexe 91

A Liste des Contract Reference 92

B Presentation des secteurs 94

C Analyse des donnees du secteur C 102

D Analyse des donnees du secteur D 109

E Analyse des donnees du secteur E 116

9

Page 10: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

F Classification des indicateurs du secteur B 123

G Classification des indicateurs du secteur D 129

H Classification des indicateurs du secteur E 136

I 145I.1 Segmentation des filiales du secteur B . . . . . . . . . . . . . . 145

J 147J.1 Segmentation des filiales du secteur C . . . . . . . . . . . . . . 147

K 149K.1 Segmentation des filiales du secteur D . . . . . . . . . . . . . . 149

L 151L.1 Segmentation des filiales du secteur E . . . . . . . . . . . . . . 151

M Description, representation et Pretraitement des donnees dela base filiales/ratios 153M.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153M.2 Description des donnees . . . . . . . . . . . . . . . . . . . . . 153M.3 Caracteristiques des filiales . . . . . . . . . . . . . . . . . . . . 154M.4 Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . 156M.5 Valeurs atypiques . . . . . . . . . . . . . . . . . . . . . . . . . 158

10

Page 11: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 1Introduction

Le cadre de notre etude est le domaine de l’environnement de l’eau. Notreobjectif consiste a comprendre les relations existantes entre differents indi-cateurs concernant plusieurs secteurs de ce domaine. Ainsi, la constructiond’une base de connaissances exploitable par les differents indicateurs demeureune necessite evidente pour comprendre cette liaison. L’entreprise SUEZ en-vironnement dispose aujourd’hui de deux bases de donnees sur ces indicateurset souhaite les exploiter afin d’en extraire de la connaissance. Nous utiliseronsdans ce rapport des termes de metiers, couramment utilises en anglais memedans les filiales francaises, sans les traduire.

Les travaux de ce projet font partie d’un processus, issu de la conver-gence de plusieurs disciplines (statistiques, intelligence artificielle, analyse dedonnees, reconnaissance de formes,. . .), connu surtout sous le nom de fouillede donnees (ou Data Mining). La fouille de donnees constitue le coeur duprocessus d’Extraction des Connaissances a partir des Donnees (ECD) ou enanglais Knowledge Discovery in Data base (KDD).

Le processus d’ECD consiste en l’analyse de bases de donnees (souventtres grandes) afin de decouvrir des relations insoupconnees et de resumer lesdonnees d’une maniere a la fois comprehensible et utile. C’est le « proces-sus d’identification de modeles pertinents, nouveaux, potentielle-ment utiles, et comprehensibles extraits d’un volume considerablede donnees ».

Ainsi l’ ECD est un processus interactif (l’utilisateur est dans la boucledu processus) et iteratif. Ce processus intervient dans plusieurs applications :

– detection des fraudes, gestions des stocks ;

11

Page 12: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

– la bioinformatique ;– le benchmarketing (qui sera le domaine traite dans notre projet)[1, 2].

Le processus d’extraction de connaissances illustre dans la figure 1.1consiste en une sequence iterative composee des etapes suivantes :

– Selection : Permet de selectionner les donnees pertinentes pour latache de fouille de donnee a accomplir. En fait, l’entreprise SUEZ envoiea ses filiales des enquetes ou des questionnaires de type P « PerformanceRatio Report », ou de type E « Environmental Reporting », et parfoisles deux types questionnaires. Dans notre cas, nous n’avons conserveque les individus (filiales) qui recoivent des questionnaires de type P afind’eviter toute redondance dans notre base de donnees et de diminuer lenombre de valeurs manquantes, les questionnaires de type P sont plusgeneraux ;

– Pretraitement : Cette phase traite la presence de bruits, d’erreurs etde donnees manquantes. Nous parlons alors de nettoyage de donnees ;

– Transformation : Les donnees sont transformees ou consolidees dansun format approprie a la tache de fouille de donnees choisie. Nous par-lons surtout de normalisation et de standardisation des donnees ;

– Data Mining : Dans cette phase, des methodes mathematiques sontutilisees afin d’extraire des modeles et des regles ;

– Interpretation, evaluation : Enfin, cette etape identifie les modelesinteressants representant les connaissances, en se basant non seulementsur des mesures d’interet mais aussi sur l’avis de l’expert.

La Fouille de Donnees est donc la plus importante composante de l’ECD.Alors qu’habituellement les statisticiens travaillent sur des bases de donneesde taille raisonnable, en echantillonnant parfois la population, les utilisateursde la fouille de donnees desirent quant a eux garder un maximum d’infor-mation et travaillent donc sur l’ensemble des donnees disponibles. Cette vo-lonte engendre un certain nombre de difficultes dans l’analyse de tableaux dedonnees[1, 2]. Les principales taches de la fouille de donnees sont :

1. Classification : Elle permet de predire si une instance de donnee (in-dividu) est membre d’un groupe ou d’une classe predefinie (la classe estl’ensemble de donnees qui sont similaires au sens d’un certain criteredonne) ;

2. Segmentation (en anglais Clustering) : C’est un partitionnementlogique de la base de donnees en clusters (groupes d’instances ayant lesmemes caracteristiques) en se basant sur un apprentissage non super-vise (classes inconnues). Nous parlons alors de ”classification automa-

12

Page 13: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 1.1 – Processus d’extraction de connaissance.

tique”;

3. Recherche d’association : Correlation (ou relation) entre les attri-buts (les variables) ;

4. Recherche de sequence : C’est la recherche de liaisons entre evene-ments sur une periode de temps ;

5. Detection des donnees atypiques (outliers) : Detection des ins-tances ayant les caracteristiques les plus differentes des autres.

Dans notre projet, nous nous interessons surtout aux taches 2, 3 et 5 puisquele cadre de notre travail est de trouver des liaisons entre les indicateurs, alorsles classer sans aucune connaissance a priori.

Afin d’eviter toute confusion, il est indispensable de differencier les troistermes suivants :

– Donnee : valeur d’une variable pour un objet.– Information : resultat d’analyse sur les donnees.– Connaissance : information utile pour l’entreprise.

L’analyse de ces donnees est precieuse pour le progres du fonctionnementde l’entreprise. Parmi les outils statistiques utilises pour l’analyse de don-

13

Page 14: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

nees, nous pouvons citer les methodes factorielles comme l’ACP (Analyseen Composantes Principales, cf. chapitre 2), les methodes de classificationautomatique et de segmentation des donnees (cf. chapitre 3). Nous avonssouligne divers problemes que l’on est amene a resoudre avant d’utiliser detelles methodes, il s’agit du pretraitement des donnees : detections des erreursde saisies et des donnees atypiques, traitement des donnees manquantes, nor-malisation et standardisation des donnees (cf. chapitre 5).

Les travaux de ce rapport seront presentes en dix chapitres, dont le pre-mier est une introduction generale et les autres sont structures en deux par-ties, et enfin une partie annexe :

– Partie Theorique :– Dans le deuxieme chapitre, nous presentons une petite introduction

a l’ACP montrant son fonctionnement et son but ;– Dans le troisieme chapitre, nous illustrons quelques methodes utili-

sees dans la classification automatique des donnees ;– Le quatrieme chapitre presente l’utilisation de la cartographie asso-

ciative dans la classification automatique : l’algorithme competitif,et l’algorithme de Kohonen ;

– Partie Pratique :– Le cinquieme chapitre presente le pretraitement que nous avons ef-

fectue sur les donnees de la base filiales/indicateurs ;– Le sixieme chapitre presente les relations entre les indicateurs et les

individus en se basant sur l’ACP ;– Le septieme chapitre presente les relations entre les indicateurs en se

basant sur des methodes de classification automatique ;– Le huitieme chapitre presente une typologie de segmentations des

filiales ;– Le neuvieme chapitre presente l’interpretation des groupes indica-

teurs et filiales trouves en terme de metier ;– Le dixieme chapitre est une conclusion generale de rapport.

14

Page 15: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Premiere partie

Fondements theoriques

15

Page 16: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 2Analyse en Composantes principales(ACP)

2.1 Introduction

Lorsqu’on etudie simultanement un nombre important de variables quan-titatives, comment en faire un graphique global ? La difficulte vient de ceque les individus etudies ne sont plus representes dans un plan, espace dedimension 2, mais dans un espace de dimension plus importante. L’objectifde l’Analyse en Composantes Principales (ACP) est de revenir a un espacede dimension reduite (par exemple 2 ou 3) en perdant le moins d’informationpossible. Il s’agit donc d’obtenir un resume le plus pertinent possible des don-nees initiales. L’ACP permet une etude globale des donnees et des variablesen utilisant des representations. L’interpretation repose principalement surl’examen des projections des points-individus et des points-variables sur lesplans formes par des couples d’axes factoriels.

Dans ce chapitre, nous allons introduire quelques idees de base concer-nant l’ACP. Pour plus d’information concernant l’ACP, nous utilisons commereferences [4, 5], d’ou nous avons tire les idees fondamentales.

2.2 Representations geometriques des donnees

L’ACP s’applique a des donnees quantitatives representees sous la formed’un tableau de donnees X a n lignes et p colonnes. Chaque ligne corresponda un individu (ou observation) i = 1, ..., n, et chaque colonne a une variablequantitative (ou descripteur) j = 1, ..., p qui prend des valeurs dans R. Le

16

Page 17: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

tableau individus variables X est alors une matrice reelle de la forme : x11 ... xj

1 ... xp1

x1i ... xj

i ... xpi

x1n ... xj

n ... xpn

.

Si Ω est un ensemble fini de n points x de Rp auxquels sont associes lespoids µx, ensemble de nombres reels positifs dont la somme est µ, l’ensembleN(Ω) = (x, µx), /x ∈ Ω sera appele nuage de points dans Rp. Le centre degravite du nuage est g = 1

µ

∑x∈Ω µxx, et son inertie est I =

∑x∈Ω µxd

2(g, x) .L’ACP trouve les directions de dispersion maximale du nuage des individuset du nuage des variables. Cela permet de trouver, pour le nuage des indivi-dus et pour le nuage des variables, des representations dans des sous-espacesde plus faible dimension que l’espace initial Rp et respectivement Rn, touten conservant un maximum de dispersion (ou d’inertie) du nuage.

Selon que le tableau X correspond aux valeurs directement recueillies etnon centrees pour les descripteurs, aux valeurs centrees (la moyenne sur lapopulation est nulle pour chaque variable) ou aux valeurs centrees et reduites(l’ecart-type sur la population est unitaire pour chaque variable), nous obte-nons l’ACP generale, l’ACP centree ou l’ACP normee. La methode d’analysedu tableau X reste la meme, mais la signification des resultats est differente.Dans la suite nous nous interessons a l’ACP normee ou la matrice X s’ecrit :

X = (R− gt.I)D−1r

avec :

Dr =√

n

σ1 0 ... 00 σ2 ... 00 0 ... σp

,

σj etant l’ecart type de la variable xj.

2.3 Analyse du nuage des individus

L’analyse du nuage des individus consiste a trouver des sous-espaces li-neaires tels que l’inertie (la dispersion) des projections des points individussur ces sous-espaces soit maximale, autrement dit que l’inertie expliquee soitmaximale. Nous recherchons successivement les sous-espaces de dimension 1,2

17

Page 18: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

et q < p. Pour un nombre de dimensions donnees, le sous-espace qui maximisela dispersion est egalement celui qui ajuste le mieux le nuage, c’est-a-dire quiminimise l’erreur faite lors de l’approximation du nuage initial par le nuagedes projections.

En general, il n’est pas justifie d’accorder lors de l’analyse plus de poidsa certains individus qu’a d’autres. Par la suite, chaque individu sera consi-dere avec un poids unitaire et nous utilisons comme metrique la distanceeuclidienne.

2.4 Ajustement du nuage des individus

D’apres le theoreme de decomposition d’une matrice, la recherche dessous-espaces est obtenue en diagonalisant la matrice X t •X, puis en ordon-nant les vecteurs propres dans l’ordre decroissant des valeurs propres et enfinen normalisant les vecteurs propres.

Les vecteurs propres uα sont les axes factoriels, et les inerties expliqueesou portees par ces axes sont egales aux valeurs propres λα correspondantes.Notons que ces vecteurs propres forment une base orthonormee.

2.5 Choix du nombre d’axes a conserver

Il est important de savoir a partir de quel ordre les differences entre lespourcentages d’inertie expliquee par les axes factoriels successifs ne sont plussignificatifs. Sachant que la part d’inertie expliquee par un axe est donneepar la valeur propre correspondante, une solution simple est d’examiner lacourbe de decroissance des valeurs propres (ou bien les pourcentages d’inertieexpliquee) pour determiner les points ou la pente de la courbe diminue (envaleur absolue) de facon brutale ; seuls les axes qui precedent ce changementde pente seront retenus. Par exemple sur la figure 2.1, seulement les 4 premiersaxes sont conserves.

Le pourcentage d’inertie expliquee par un sous-espace vectoriel Eα =(u1, ..., uα)est egale a λ1+...λα

Inertie totale× 100 . Ce pourcentage exprime la qualite

de representation si on tient compte de ce sous espace vectoriel.

18

Page 19: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 2.1 – Choix du nombre des axes a conserver.

2.6 Composantes Principales

Pour pouvoir obtenir les differentes representations du nuage dans desespaces de dimension reduite, il suffit de determiner les coordonnees de laprojection de tous les points du nuage sur chaque axe factoriel. Soit zα =(z1

α, ..., znα)t = X • uα ces n coordonnes pour l’axe α . Les composantes

principales s’expriment matriciellement par la relation Z = X • U ou U estla matrice des vecteurs propres normes.

2.7 Contribution relative d’un axe a un indi-

vidu

C’est le rapport entre l’inertie restante apres projection sur l’axe uα etl’inertie initiale qu’apporte l’individu i :

Cor(i, α) = (ziα)2

‖xi‖2.

2.8 Analyse dans l’espace des individus

Dans le tableau X la variable xj est representee par un vecteur de Rn.L’analyse du nuage des variables consiste a trouver des sous-espaces lineairesde Rn tels que la dispersion des projections des p points variables sur cesespaces soit maximale.

19

Page 20: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La recherche des sous-espaces est obtenue en diagonalisant la matriceX • X t, puis en ordonnant les vecteurs propres dans l’ordre decroissant desvaleurs propres et enfin en normalisant les vecteurs propres. Les vecteurspropres vα sont alors les axes factoriels.

Comme nous parlons de l’ACP normee, la coordonnee de la projection dupoint representant la variable xj sur l’axe factoriel d’ordre α qui est cj

α = xtjvα,

est egale au coefficient de correlation entre la variable initiale xj et la variableprincipale definie par les projections des points-individus sur l’axe factorield’ordre α.

2.9 Individus supplementaires

Il faut leur appliquer la meme transformation geometrique que celle qui aete appliquee a tous les individus initiaux. Rappelons que nous avons centreen colonne le tableau initial et divise chaque colonne par son ecart-type mul-tiplie par le racine carre du nombre d’individus actifs non supplementaires.Si ys = (y1

s , . . . , yps) est le vecteur ou l’observation initiale supplementaire, on

le transforme donc en :

xs = (y1s−g1√nσ1

, . . . , yps−gp√nσp

),

ou g est le vecteur barycentre des elements actifs et σj l’ecart-type d’unecolonne calcule sur les elements actifs. On appelle elements actifs, les n indi-vidus et les p variables de l’analyse avant l’introduction des elemnts supple-mentaires.

2.10 Conclusion

Ce chapitre a presente les notions de base de l’ACP. Plus tard, nousutilisons cette technique afin de pouvoir analyser et interpreter les donnees.

20

Page 21: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 3Classification automatique : Notions debases

3.1 Introduction

Comme nous l’avons indique dans l’introduction, le but initial est de notreprojet est de mettre en evidence les relations entre indicateurs ou variables.Il est a noter que la classification de variables est un sujet important, peuaborde dans les ouvrages classiques. En effet, dans le monde de la fouilledes donnees, les variables mesurees sont souvent tres nombreuses, et il estindispensable de les reduire ou de mieux les structurer en recherchant des ty-pologies. Les methodes de classification de variables permettent d’atteindreces objectifs.

Dans ce chapitre, nous definissons la classification automatique, et nouspresentons les algorithmes les plus utilises en classification automatique.

Dans un premier temps, nous presentons des methodes de classificationsexclusives ou nettes (un objet appartient a un groupe et a un seul) et puisnous abordons la classification non exclusive ou floue (un objet peut appar-tenir aux plusieurs groupes avec des degres d’appartenance).

3.2 Introduction a la classification automa-

tique

La classification automatique est une des methodes statistiques largementutilisees dans la Fouille de Donnees. Elle s’effectue dans un cadre d’appren-

21

Page 22: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

tissage non supervise, qui a pour but d’obtenir des informations sans au-cune connaissance prealable, contrairement a l’apprentissage supervise. Ellepeut etre combinee avec d’autres methodes de differentes facons, en pre-ou en post-traitement. En effet, elle permet de resumer l’information avanttransmission a une autre methode et ainsi permettre de mieux analyser lesdonnees. Elle peut aussi, suite a un pretraitement des donnees, etre utiliseepour mieux comprendre la quintessence de l’information contenue dans lesfichiers. La classification ou le regroupement en classes homogenes consistenta regrouper des points d’un espace quelconque en classes. Chaque classe peutensuite etre associee a un representant (sa moyenne, son barycentre, un pro-totype) ce qui conduit a une description simplifiee des donnees initiales. Ils’agit d’une demarche tres courante qui permet de mieux comprendre l’en-semble analyse. Ces applications sont nombreuses, surtout en statistique. Entant que branche de la statistique, la classification automatique a ete enor-mement etudiee depuis de nombreuses annees, en se basant principalementsur des distances. Parmi les algorithmes ainsi developpes, on retrouve lesk-moyennes, k-medoıdes,. . .On peut distinguer deux grandes familles de me-thodes de classification : les methodes de partitionnement simple etles methodes hierarchiques.

Les premieres cherchent une partition des objets, ou bien des variables,en un nombre de classes donne, comme l’algorithme de centres mobiles (k-moyennes). Deux criteres doivent etre satisfaits :

– Chaque groupe doit contenir au moins un objet, les classes vides nesont pas tolerees.

– Chaque objet doit appartenir a un seul groupe.Les autres methodes de classification, dites de classification hierarchique,consistent a creer une decomposition hierarchique d’un tableau de donnees.On peut envisager deux strategies : ascendante ou descendante. L’approcheascendante demarre avec chaque objet formant une classe distincte. On fu-sionne a chaque etape les deux classes les plus proches afin de ne plus obtenirqu’une seule classe, a moins qu’une condition de terminaison ne soit verifiee.L’approche descendante demarre avec tous les objets dans une seule et memeclasse. A chaque iteration, une classe est decomposee en classes plus petites,jusqu’a n’avoir plus qu’un seul objet dans chaque classe, ou eventuellementqu’une condition d’arret soit verifiee. Ici aussi, il est necessaire d’introduireune notion de similarite ou de dissimilarite entre les objets et les classes [1].

22

Page 23: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

3.3 Classification par methode de partition-

nement

Ce type de methodes repose generalement sur des algorithmes simples,et permet de traiter rapidement des ensembles d’effectif assez eleve en op-timisant localement un critere, generalement l’inertie intra-classe. Parmi cescelebres algorithmes on retrouve l’algorithme des Centres Mobiles (CM) dansses deux versions nette et floue, et l’algorithme des k-medoides.

3.3.1 Algorithme des centres mobiles net(k-moyennes)

L’algorithme des CM est une methode assez repandue, dont l’avantageest d’etre simple et efficace, mais qui conduit souvent a un optimum local.L’algorithme des centres mobiles peut se definir comme suit :

– Indiquer le nombre de classes a priori.– Choisir k individus qui forment les centres initiaux des k classes.– Tant qu’il n’y a pas convergence vers la stabilisation des centres :

1. Construction de la partition suivante en affectant chaque individua la classe du centre de laquelle il est le plus proche, ceci au sensde la distance euclidienne.

2. Les centres de gravite des nouvelles partitions deviennent les nou-veaux centres.

L’algorithme peut etre represente par la figure 3.1. Apres quelques iterations(generalement moins de 20), les centres ne bougent plus et la poursuite decet algorithme ne changera plus les resultats : l’algorithme a converge. No-tons enfin que cet algorithme existe sous deux versions : celle de MacQueenet celle de Forgy. L’algorithme de MacQueen recalcule les nouveaux centresdes qu’un objet a ete transfere d’une classe a une autre. A l’inverse, dansl’algorithme de Forgy, le calcul des centres de gravite intervient une fois quetous les objets ont ete reaffectees a la classe la plus proche. Souvent nousnous interessons a l’algorithme de Forgy.

Critere a optimiser

On considere qu’une partition est bonne si elle produit des groupes devariance interne faible. L’algorithme consiste a minimiser le critere suivant :Iintra =

∑km=1

∑i∈Cm

d2(xi, gm), k est le nombre de classes et gm est le centrede gravite de la classe m.

23

Page 24: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 3.1 – Illustration de l’algorithme des centres mobiles.

Le critere Iintra, qui est simplement la somme des inerties particulieresdes classes, est appele inertie intra-classes. La methode des centres mobilesconsiste a chercher la partition qui minimise Iinter pour avoir en moyennedes classes bien homogenes, ce qui revient a chercher le maximum de l’inertieinterclasse : Iinter =

∑km=1 pmd2(gm, g), ou g est le centre de gravite du nuage

de points initiaux et pm est le poids de la classe. Ce resultat est du a la relationliant l’inertie totale, qui ne depend que de la partition avec les inerties inter-classes et intra-classes : Itotal = Iintra + Iinter. Ceci peut etre represente parles figures 3.2 et 3.3.

Notion de formes fortes

L’algorithme des CM conduit a un optimum local du critere retenu : lechoix initial des centres influe sur la solution finale. Pour pallier cet inconve-nient, on effectue plusieurs passages de l’algorithme avec des initialisationsdifferentes. On retient les points qui restent groupes quel que soit le tiragede depart : on constitue ainsi des classes « stables » appelees formes fortes.Cette notion est tres utilisee pour juger de l’independance de la partitionretenue par rapport aux conditions initiales choisies [7].

24

Page 25: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 3.2 – Inertie totale = Inertieinter + Inertie intra.

Fig. 3.3 – Illustration des inertiesinter/intra classes.

Avantages et inconvenients de l’algorithme

L’algorithme CM est caracterise par les avantages suivants :– Possibilite de traiter des ensembles de taille importante ;– Simplicite et efficacite ;– Rapidite en convergence.Parmi ses inconvenients, nous citons :– Besoin de specifier le nombre de classes a priori ;– Initialisation arbitraire des centres au depart ;– Les points isoles sont mal geres ;– Peu robuste en presence des donnees atypiques.

3.3.2 La classification floue

Nous avons parle jusqu’a maintenant de la classification nette ou exclusiveou un objet appartient a une classe et une seule. Dans le cas de la classifica-tion non exclusive un objet peut appartenir a plusieurs classes ; c’est le casdes methodes de classification floue. La typologie floue est issue de la notionde sous-ensemble flou introduite par Zadeh en 1965 [7].

D’apres [7], Dunn (1974) a etendu l’algorithme des centres mobiles ala methode de typologie floue : on parle alors de l’algorithme des centresmobiles flous. L’idee retenue est l’appartenance partielle d’un objet a uneclasse en remplacant l’appartenance et la non appartenance de l’objet a unsous-ensemble par une appartenance graduelle indiquant la proximite de l’ob-jet a chaque classe. On emploiera donc une methode de classification floue

25

Page 26: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

des qu’on aura le sentiment qu’une partition formelle n’est pas adaptee, parexemple lorsqu’il existe des « ponts » entre classes. Les k classes floues sontcaracterisees par leurs fonctions d’appartenance respectives et tout objet pos-sede k degres d’appartenance. On note ui,j le degre d’appartenance de l’objeti a la classe j avec 1 ≤ j ≤ k et

∑j ui,j = 1. A p objets, on associera une

matrice U de dimension p × k, dont le terme (i,j) represente le degre d’ap-partenance de l’individu xi a la classe Cj [5, 7].

L’algorithme des centres mobiles flous

L’algorithme des CM flous est l’un des principaux algorithmes de la clas-sification floue. Nous parlons alors de classification non exclusive.

Les principales etapes de l’algorithme des centres mobiles flous sont lessuivants :

– La fixation arbitraire d’une matrice d’appartenance ;– Le calcul des centroıdes ;– le reajustement de la matrice d’appartenance suivant la position des

centroides.

En general, l’algorithme converge vers un optimum local. La technique debase est, comme pour l’algorithme des centres mobiles nets, la minimisationde l’inertie intra-classes

min∑

i,j ui,jd2(xi, gj)

ou γ est le coefficient de reglage flou (valeur conseillee entre 1 et 2).L’algorithme consiste a iterer les etapes suivantes :

1. Calcul des centres :

gj =∑

iuγ

i,jxi∑iuγ

i,j;

2. Calcul de la partition floue :

ui,j =

1

‖xi−gj‖2

γ−1∑j

1

‖xi−gj‖2

γ−1

.

3.3.3 Algorithme des k-medoıdes

Le calcul d’un centroıde (centre, ou barycentre d’une classe ou d’ungroupe) peut se reveler peu significatif dans certains cas. Il est alors plus

26

Page 27: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

judicieux de choisir comme centre du groupe un objet present dans le groupeet non pas un objet fictif. L’algorithme des k-medoıdes peut etre vu commeune adaptation de l’algorithme des CM. Le medoıde d’une classe peut etrecalcule en trouvant l’objet i de cette classe qui minimise

∑h∈Cj

d(i, h) ouCj est la classe qui contient l’objet i et d(i,h) la distance euclidienne entrel’objet i et l’objet h de la meme classe.

Cet algorithme peut etre alors decrit comme suit :

1. Initialisation : choisir arbitrairement un objet comme medoıde pourchaque cluster ;

2. Affecter chaque objet au medoıde le plus proche ;

3. Recalculer le medoıde de chaque cluster ;

4. Repeter les etapes 2 et 3 jusqu’a l’instant ou les medoıdes ne bougentplus.

Cet algorithme souffre des memes inconvenients que l’algorithme CM mais ila l’avantage d’etre plus robuste vis-a-vis des points atypiques [6].

3.4 Classification ascendante hierarchique (CAH)

Definition d’une hierarchie

Un ensemble H de parties non vides de l’ensemble W est une hierarchiesur W si :

– W ∈ H ;– ∀i ∈ W, i ∈ H ;– ∀h, h

′ ∈ H, h ∩ h′= ∅ ou h ⊂ h

′ou h

′ ⊂ h ;

Une hierarchie peut etre vue comme un ensemble de partitions emboıtees.Graphiquement, une hierarchie est souvent representee par une structure ar-borescente appelee arbre hierarchique ou dendrogramme.

Il existe deux types de familles de methodes : les methodes descendantesou diviseuses, et les methodes ascendantes ou agglomeratives. La premiereapproche, moins utilisee, consiste a partir d’une seule classe regroupant tousles objets, a partager celle-ci en deux. Cette operation est repetee a chaqueiteration jusqu’a ce que toutes les classes soient reduites a des singletons.La seconde, qui est la plus couramment utilisee, consiste a partir des ob-jets (chacun est dans sa propre classe), et a agglomerer iterativement lesclasses les plus proches, afin de n’en obtenir plus qu’une seule contenant tousles objets. S’il est assez aise de calculer une distance entre deux points, il est

27

Page 28: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 3.4 – Methode de Representation de la classification hierarchique.

moins evident de calculer une distance entre une classe et un point, ou encoreentre deux classes. Plusieurs distances classiques dites criteres d’agregationexistent. Les plus couramment utilises sont : les criteres du lien minimum,du lien maximum, du lien moyen et le critere de Ward qui resulte de la perted’inertie en regroupant deux classes C1 et C2 , et conduit a minimiser l’inertieintra classe. En fait, c’est le critere le plus souvent utilise. Le critere d’agre-gation de Ward se decrit comme suit :

Dward = |C1|×|C2||C1|+|C2|d

2(g1, g2),

avec :– d : distance euclidienne ;– |Ci| : cardinal de la classe Ci ;– gi : barycentre de la classe Ci.

A une hierarchie est associe un indice, fonction strictement croissante,qui a la particularite de prendre une valeur nulle pour toute classe singleton.Ainsi, pour les classes du bas de la hierarchie l’indice vaut 0, et pour les autresclasses, cet indice est defini en associant a chacune des classes construites ladistance qui separait les deux classes fusionnees pour former cette nouvelleclasse. Ci-dessous, nous decrivons les principales etapes de l’algorithme declassification ascendante hierarchique (CAH) :

1. Au depart, chaque objet est dans sa propre classe ;

2. On fusionne les deux classes les plus proches (selon le critere choisi) ;

3. On attribue a la nouvelle classe un indice egale a la distance qui separaitces deux classes ;

28

Page 29: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

4. On repete l’etape 2 jusqu’a n’avoir plus qu’une seule classe.

En analysant l’evolution du critere, il est possible de determiner un nombrede classes approprie. A l’inverse des methodes de classification par partition,nous n’avons donc pas besoin ici de la connaissance a priori du nombre declasses [1].

3.5 Conclusion

Dans ce chapitre, nous avons explique le principe de la classification au-tomatique tout en montrant son importance dans le monde de la fouille dedonnee. Nous avons de plus explique la difference entre la classification parpartition et la classification hierarchique tout en presentant les algorithmesles plus utilises. Enfin, nous avons developpe la classification floue qui ap-porte de bonnes solutions pour la classification dans le cas ou les frontieresentre les classes ne sont pas bien definies.

29

Page 30: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 4Cartographie associative

4.1 Introduction

La classification automatique en analyse de donnees et l’apprentissage nonsupervise par reseaux de neurones resolvent des problemes similaires. Ce cha-pitre concerne une introduction generale aux reseaux de neurones artificiels etl’application de l’algorithme de Kohonen dans le domaine de la classificationnon supervisee. Un reseau neuronal artificiel a la capacite d’apprendre desinformations, de generaliser et d’identifier des fonctions non lineaires multi-dimensionnelles. Nous presentons quelques concepts fondamentaux pour lacomprehension du fonctionnement des reseaux neuronaux et montrons leurimportance dans le domaine de la classification automatique.

4.2 Le neurone formel

Un reseau de neurones est un ensemble de neurones formels connectesentre eux. Il est forme d’une couche d’entree, une ou plusieurs couches cacheeset une couche de sortie. Son architecture peut etre represente comme dans lafigure 4.1. Pour bien comprendre son fonctionnement, examinons le neuroneformel.

4.2.1 Schema fonctionnel du neurone formel

Le neurone formel est un modele mathematique tres simplifie du neu-rone biologique. Il s’agit d’un automate relie a des automates voisins pardes connexions representees par des coefficients de ponderations (nombresreels). Il recoit en entree les signaux delivres par les neurones auxquels il est

30

Page 31: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 4.1 – Architecture d’un reseau neuronal formal.

connecte, et fournit en sortie un signal qui depend a la fois de ses signauxd’entree et des poids de ses differentes connexions. Cette sortie est le resultatd’une fonction f dite de transfert appliquee a la somme Ai =

∑j wijej + wi0.

Fig. 4.2 – Schema fonctionnel du neurone formel.

La fonction de transfert peut prendre differentes formes : fonction nonlineaire, fonction a seuil binaire, fonction lineaire a seuil, . . .. Elle representel’etat d’activation du neurone. La sortie du neurone Si est fonction de lasomme ponderee Ai, telle que Si=f(Ai).

4.2.2 Apprentissage du reseau neuronal formel

On entend par phase d’apprentissage la phase ou les parametres du re-seaux subissent des modifications suivant des regles appelees regles d’appren-tissage, jusqu’a stabilisation du reseau ; c’est-a-dire jusqu’a ce que la sortie

31

Page 32: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

desiree soit a peu pres obtenue. Mais afin de pouvoir effectuer l’apprentissagedu reseau, il est necessaire de creer une base de donnees dans un domainebien defini appelee base d’apprentissage et qui contiendra toutes les infor-mations a memoriser dans le reseau. On distingue en general deux modesd’apprentissage [8] :

– Apprentissage supervise : On fournira au reseau des exemples a memo-riser, pour les comparer par la suite avec les vecteurs obtenus a la sortiedu reseau lors de la phase d’apprentissage. La base d’apprentissage estalors constituee par un nombre suffisant de couples entree/sortie ;

– Apprentissage non supervise : Dans ce cas, on n’a pas besoin d’une basedes sorties desirees et le reseau evolue tout seul jusqu’a obtenir la sortiesouhaitee.

4.3 Apprentissage competitif

La forme la plus simple d’apprentissage competitif, dite « regle du gagnantprend tout », modifie seulement le vecteur poids du meilleur neurone (au sensd’un critere donne), a chaque etape de l’apprentissage. L’architecture de cereseau est representee sur la figure 4.3.

Fig. 4.3 – Architecture du reseau competitif.

A chaque presentation d’une entree x (un vecteur de l’exemple d’appren-tissage) et apres normalisation des vecteurs de poids, deux etapes sont effec-tuees :

32

Page 33: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

– Localisation du vecteur de poids gagnant W ∗k (correspondant au meilleur

neurone), qui verifie la condition :‖x−W ∗

k ‖ = mink ‖x−Wk‖.– Modification des vecteurs poids de l’unite gagnante :

W ∗k (t + 1) = Wk(t) + α(t)[x(t)−Wk(t)], 0 ≤ α(t) ≤ 1 est le taux d’ap-

prentissage.

Remarquons qu’en remplacant respectivement les mots « neurone » par« prototype » et « vecteur d’entree » par « individu », selon la terminologie del’analyse des donnees, il est evident que la regle d’apprentissage est la memeque celle utilisee par l’algorithme de centres mobiles (version de MacQueen).Dans ce cas precis, les reseaux de neurones ne nous semblent pas apporterde grandes nouveautes. En consequence, nous nous interessons a une versionplus developpee de l’apprentissage competitif.

4.4 Cartographie associative

L’apprentissage competitif, dans sa version la plus simple, ne tient aucuncompte d’interactions laterales entre les neurones. La cartographie associativeutilise cette idee d’interactions et postule des relations de voisinage a priorientre les unites. Ainsi chaque unite possede un ensemble d’unites voisines,qui constituent son voisinage. Le but de la cartographie associative consistea associer chaque vecteur d’entree a un neurone de la carte (couche competi-tive + definition de topologie sur cette couche). Autrement dit, des donneesproches (dans l’espace d’entree) vont avoir des representations proches dansl’espace de sortie et vont donc etre classes dans une meme classe ou dans desclasses voisines. Trois architectures sont couramment utilisees pour la carte :

– Cartes unidimensionnelles ou chaque neurone possede deux voisins.– Cartes bidimensionnelles a voisinage rectangulaire ou chaque neurone

possede quatre voisins.– Cartes bidimensionnelles a voisinage hexagonal ou chaque neurone pos-

sede six voisins.

Notons que si l’on dispose d’un espace muni d’une metrique d, on peutlui donner une structure d’espace topologique en definissant le voisinage Vk

de l’unite ou du neurone k comme l’ensemble des unites contenus dans uneboule de rayon η non nul centree en k.

33

Page 34: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 4.4 – Topologie des voisinages.

4.4.1 Cartes organisatrices de Kohonen

Kohonen a propose un algorithme d’apprentissage de carte associative.Cet algorithme peut se presenter comme suit [9] :

– Initialisation : l’architecture de la carte est specifiee, ce qui revient achoisir le nombre de neurones et a definir les relations de voisinages.Les vecteurs de poids sont initialises.

– Localisation du vecteur de poids gagnant W ∗k qui verifie la condition :

‖x−W ∗k ‖ = mink ‖x−Wk‖.

– Modification des vecteurs poids de l’unite gagnante et de ses voisines,∀k ∈ V ∗

k (voisinage de l’unite gagnante :W ∗

k (t + 1) = Wk(t) + α(t)[x(t) − Wk(t)], ou 0 ≤ α(t) ≤ 1 est le tauxd’apprentissage.

Kohonen conseille de demarrer avec un nombre de voisins important maisde le faire decroıtre au cours des iterations, afin d’ameliorer les performancesde l’algorithme et de bien organiser la carte. De plus, le nombre d’iterationsexecutees ne doit pas etre inferieur a 500 fois le nombre de neurones dans lacarte.

Plusieurs modifications marginales ont ete proposees pour cet algorithme,mais dans notre travail nous utilisons la version originale de Kohonen.

4.4.2 Application de l’algorithme de Kohonen

Les methodes non supervisees sont interessants et en particulier l’algo-rithme de Kohonen est de nos jours largement utilise. Il accomplit la doubletache de « projection » et de « classification ».

La principale caracteristique de la methode de Kohonen est la conserva-

34

Page 35: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

tion de la topologie : des observations « proches » dans l’espace d’origineprovoquent la reponse du meme neurone ou de deux neurones voisins dans lacarte. Apres apprentissage, un exemple d’entree sera represente par le neu-rone dont il se rapproche le plus. De point de vue de la classification, chaqueneurone de la couche competitive correspond a une classe. Chaque classe seraalors caracterise par le vecteur de poids du neurone correspondant de la carte.

4.4.3 Comparaison avec l’ACP

La carte de Kohonen construite a partir d’observations peut etre compa-ree aux projections lineaires realisees par l’ACP. Cependant, il est souventnecessaire de prendre en compte plusieurs projections bidimensionnelles del’ACP pour avoir une bonne representation des donnees, alors qu’une seulecarte de Kohonen suffit. Il est important de noter que si X est la matricedes donnees centrees, l’ACP est realisee via la diagonalisation de la matriceX t •X, alors que la carte de Kohonen est construite avec les observations dela matrice X [10].

4.4.4 Interpretation de la classification par les cartesde Kohonen

Le choix du nombre de classes est arbitraire et il n’existe pas de methodesure pour choisir la taille de la grille. Pour obtenir une bonne organisationdes cartes de Kohonen, il est preferable de travailler sur de grandes cartes.Mais on peut penser que le nombre significatif de classes sera souvent pluspetit que la taille de la grille. D’un autre cote, il n’est ni facile ni utile d’in-terpreter et de decrire un trop grand nombre de classes. Aussi d’apres [10],Cottrell et al. ont-ils propose de reduire le nombre de classes en utilisant uneCAH sur les vecteurs codes avec la distance de Ward. De cette maniere, deuxclassifications emboıtees sont definies, ce qui permet de distinguer les classesde Kohonen (ou « micro-classes ») et les « macro-classes » qui regroupentcertaines « micro-classes ».

L’avantage de cette double classification est qu’elle permet d’analyser lesdonnees a un niveau global « macro » qui met en evidence les caracteristiquesgenerales et a un niveau plus fin « micro » qui permet de determiner lescaracteristiques de phenomenes plus precis [10].

35

Page 36: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

4.5 Conclusion

Dans ce chapitre, nous avons montre l’importance des reseaux de neuronesdans le domaine de la classification. L’algorithme competitif dans sa versionsimple et les cartes organisatrices de Kohonen sont aujourd’hui courammentutilises en classification automatique.

36

Page 37: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Deuxieme partie

Base de donneesfiliales/indicateurs

37

Page 38: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 5Description, representation etpretraitement des donnees de la basefiliales/indicateurs

5.1 Introduction

Dans ce chapitre nous allons decrire les donnees de la base filiales/indicateursfournie par l’entreprise, puis nous effectuerons l’etape de pretraitement desdonnees : selection et nettoyage des donnees, valeurs manquantes, valeursatypiques,. . .A noter que la phase de pretraitement est une phase assez im-portante du processus ECD car elle influe fortement sur la suite de l’analysede donnees.

5.2 Description des donnees

Chaque annee, l’entreprise SUEZ environnement envoie a ses filiales, si-tuees dans differents pays, des enquetes comprenant des questions concernanthuit secteurs differents du domaine de l’eau potable et de l’eau usee (cf. ta-bleau 5.1).

L’entreprise recueille ses enquetes afin d’etablir une etude comparativeentre les filiales dans chaque secteur. Aujourd’hui, SUEZ met a notre dispo-sition les resultats des enquetes correspondant aux annees 2004, 2003, 2002 et2001. Notre objectif sera de les expoiter afin d’en extraire des relations entredifferents indicateurs. Ces indicateurs constituent les reponses aux questionsposees dans les questionnaires et sont decrits en annexe B.

38

Page 39: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Notons qu’il existe des questionnaires de type P (Performance Ratio Report)et des questionnaires de type E (Environmental Reporting). Notre etude seconcentre sur les questionnaires de type P et sur les cinq premiers secteurs.Les donnees sont constituees de fichiers Excel, mettant en relation les filiales,qui sont representees par leur Contract Reference (cf. annexe A) et les me-sures des indicateurs des differents secteurs. Un autre fichier, dit BusinessUnit et qui decrit en detail les caracteristiques des filiales est egalement misa notre disposition.

5.3 Representation mathematique des don-

nees

Les donnees se presentent sous forme de quatre tableaux, chaque tableaucorrespondant a une annee : respectivement 2004, 2003, 2002 et 2001. Chaquetableau met en relation n Contract Reference (lignes) ou individus, et pdescripteurs ou indicateurs. Chaque variable ou descripteur correspond a unindicateur de performance pour une tache donnee. Les indicateurs sont divisesen huit secteurs differents des domaines de l’eau potable et de l’eau usee.Chaque secteur est represente par un symbole et decrit par m descripteurs ouindicateurs. Le tableau 5.1 montre les differents secteurs ainsi que le nombred’indicateurs correspondants. Chaque tableau correspond a une annee et met

Secteur Symbole Nombre d’indicateursWaterProduction A 31

Water Distribution B 29Sewage Collection C 24Sewage Treatment D 27Customer Services E 49Corporate Support F 8

Overall Business Issues G 21Financial Indicators H 21

Tab. 5.1 – Presentation des differents secteurs.

en relation 71 individus et 213 indicateurs, formant une matrice de dimensions71× 213.

39

Page 40: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

5.3.1 Correction et codage des donnees

Dans les donnees brutes, la valeur de certains indicateurs est NA (Nota number), autrement dit « valeur manquante », ou NS (Not on service),autrement dit ”valeur inexistante”. Les interversions de ces notations sontcourantes lors de la saisie des donnees. Du point de vue du traitement desdonnees, cela constitue un probleme car nous cherchons souvent a estimerles valeurs manquantes mais il est inutile d’estimer une valeur qui n’est pasdefinie. Pour faire face a ce probleme, les informations sont croisees avec lefichier qui decrit les caracteristiques des BU (Business Unit), pour savoirsi l’individu effectue vraiment ce travail ou non, afin d’obtenir l’indicationcorrecte.

5.3.2 Choix du logiciel

Afin de traiter cette enorme quantite de donnees, il faut utiliser un logicielassez efficace, robuste et qui comprend de bons outils statistiques. Deux logi-ciels repondent a nos besoins : R et Matlab. Bien que R soit assez repandudans le monde de la statistique et qu’il soit un logiciel libre, nous choisissonsde travailler avec Matlab qui possede une bibliotheque assez riche.

Il est donc necessaire d’assurer la transformation des donnees recues sousforme des fichiers excels (.xls) en donnees Matlab (.mat).

5.3.3 Caracteristiques des individus

Il arrive souvent que certaines filiales (individus) n’effectuent pas lestaches qui correspondent a un secteur donne ; il est donc indispensable demesurer le pourcentage de ces individus dans chaque secteur. Ceci est repre-sente sur la figure 5.1 pour le secteur A (Water Production).

40

Page 41: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 5.1 – Pourcentage des individus ne travaillant pas sur un secteur.

Il est bien evident que ces pourcentages varient d’un secteur a autre. Nousremarquons toutefois que tous les individus traitent les secteurs F, G et H,ce qui est tout a fait normal car ce sont des secteurs d’informations generaleset financiers.

Il est interessant de representer les caracteristiques de chaque individu(valeurs existantes ou disponibles, valeurs manquantes, valeurs inexistantes)pour chaque secteur et pour chaque annee. Par exemple, la figure 5.2 re-presente les caracteristiques des individus dans le domaine A pour l’annee2004.

41

Page 42: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 5.2 – Caracteristique des individus du domaine A pour l’annee 2004.

42

Page 43: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Comment lit-on ces figures ? Pour une meilleure visualisation, nous pre-sentons sur la premiere figure les caracteristiques d’une partie des individus etsur la deuxieme figure celles de l’autre partie. Les indicateurs sont represen-tes sur l’axe des abscisses et les Contract Reference sur l’axe des ordonnees.Pour simplifier la representation nous eliminons les indices QA qui sont encommun pour tous les indicateurs du domaine Water Production ; 01 cor-respond donc a QA01. A l’intersection d’une ligne verticale avec une lignehorizontale, on affiche un carre dont la couleur varie en fonction de la valeur :valeur existante (couleur bleu), valeur manquante (couleur rouge foncee) ouvaleur inexistante (ou hors service, en couleur jaune). Par exemple, la valeurde l’indicateur QA01 pour l’individu 1 existe alors que la valeur de l’indica-teur QA26 manque. De plus, il est evident que l’individu portant le ContractReference 43 n’effectue pas le service A. A l’aide de cette representation,nous pouvons etudier les caracteristiques des individus pour n’importe quelsecteur et annee.

5.4 Valeurs manquantes

Les donnees de notre projet comportent differentes proportions de valeursmanquantes pour diverses raisons techniques. Quelle que soit la methoded’analyse employee, les donnees manquantes posent un probleme serieux cartoutes ces methodes necessitent des donnees completes. Il existe diversessolutions plus ou moins elaborees a ce probleme telles que, par exemple :remplacer les donnees manquantes par des zeros, par les moyennes (ou lamediane) sur les individus ou sur les variables, ou par l’estimation des kplus proches voisins,. . .Dans notre projet nous proposons de resoudre le pro-bleme des valeurs manquantes par l’utilisation d’une methode d’estimation(ou d’imputation) basee sur le principe de l’algorithme des Centres Mobiles(CM) decrit dans le chapitre 3.

5.4.1 Selection des individus et des variables

D’apres les representations des caracteristiques des individus, on peut voirque le pourcentage de valeurs manquantes varie d’un individu a un autre etd’un secteur a un autre.

43

Page 44: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 5.3 – Pourcentage des valeurs manquantes pour les individus du domaineA, pour l’annee 2004.

Fig. 5.4 – Pourcentage des valeurs manquantes pour les individus du domaineA, pour l’annee 2004.

44

Page 45: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Notons qu’une valeur negative denote les individus qui ne traitent pas cesecteur. Les figures 5.3 et 5.4 montrent bien la variation des pourcentages devaleurs manquantes d’un individu a un autre, par exemple : alors que 20 %des valeurs sont manquantes pour l’individu de Contract reference numero10, 60 % de valeurs sont manquantes pour l’individu 82 et 70 % des valeurssont manquantes pour l’individu 110.

En effectuant notre etude sur tous les secteurs et toutes les annees, nouspensons qu’il n’est pas pertinent de reconstituer les valeurs des indicateurspour les individus dont plus que 30 % des valeurs sont manquantes dansun secteur donne. Il n’est pas non plus pertinent d’exploiter des variables(indicateurs) dont plus de 50% des valeurs sont manquantes (approche heu-ristique).

5.4.2 Nouvelle representation des donnees

Apres l’etude des caracteristiques des individus dans un domaine ainsique l’etude du nombre de valeurs manquantes par individus et par secteur,nous avons choisi de reconstituer les valeurs manquantes en dressant huitnouveaux tableaux de donnees. Chaque tableau concerne un secteur et nonpas une annee et les donnees concernant chaque secteur (dans la periode de4 ans) seront stockees les unes au dessous des autres dans le tableau.

Apres elimination des individus dont plus que 30 % des valeurs sont man-quantes dans un secteur donne, des variables (indicateurs) dont plus de 50%des valeurs sont manquantes (comme indique au § 5.4.1) et des individus quine travaillent pas sur un secteur donne, nous obtenons huit tableaux, dontles caracteristiques sont resumees dans le tableau 5.2 :

Tableau de donnees du secteur individus× indicateursA 185× 30B 171× 27C 125× 24D 111×25E 127× 47F 218×8G 232× 21H 143× 19

Tab. 5.2 – Nouvelle representation des donnees.

45

Page 46: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

On peut remarquer qu’on ne perd que tres peu d’indicateurs apres l’eli-mination des indicateurs, dont plus que 50 % des valeurs sont manquantespour un secteur donne, alors que nous avons perdu un assez grand nombred’individus par secteur apres l’elimination des individus dont plus de 30% desvaleurs sont manquantes. Nous utilisons ces nouveaux tableaux dans la suitede notre projet et nous essayons d’estimer les valeurs manquantes separementpour chaque secteur.

5.4.3 Transformation et normalisation des donnees

Centrage : les donnees sont presentees sous la forme d’une matriceindividus × variables. Il est habituel de centrer les colonnes. Chaque va-riable est translatee de la valeur de sa moyenne empirique qui devient doncnulle.

Normalisation (reduction) de la variance : la variance de chaquevariable est ramene a 1.

La combinaison de ces deux operations est appelee normalisation z-scores.L’importance de cette normalisation reside dans le fait qu’elle reduit l’impor-tance de la dispersion des donnees pour de faibles intensites et qu’elle permetde travailler avec des attributs sans unites, ce qui permet de les comparerentre eux.

5.4.4 Algorithme de centres mobiles pour l’imputationdes valeurs manquantes

Le but est ici de resumer l’ensemble de n points dont nous disposonspar un autre ensemble de k prototypes (k < n) de meme dimension. Cettemethode de compression de donnee est connue sous le nom de « quantifi-cation vectorielle ». Chaque point sera alors represente par le prototype leplus proche. Nous utiliserons l’algorithme des CM (cf. chapitre 3) legerementmodifie afin de permettre la gestion des valeurs manquantes.L’algorithme de CM sera utilise comme suit :

– Indiquer le nombre de groupes a priori. Ce nombre est choisi de maniereheuristique de maniere a obtenir un nombre de points raisonnable danschaque groupe.

– Choisir k individus qui forment les prototypes (centres) initiaux des kclasses. Les k centres initiaux seront generes arbitrairement de maniereuniforme afin qu’ils ne contiennent pas de valeurs manquantes.

46

Page 47: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

– Tant qu’il n’y a pas convergence (c’est-a-dire stabilisation des centres) :

1. Construction de la partition suivante en affectant chaque individua la classe du centre de laquelle il est le plus proche au sens dela distance euclidienne calculee a partir des composantes connuesdu vecteur des attributs , et des composantes correspondantes duvecteur centre.

2. Les centres de gravite des nouvelles partitions deviennent les nou-veaux centres.

En fin de la procedure, chaque valeur manquante sera rempla-cee par sa correspondante du vecteur centre le plus proche .

5.5 Evolution des filiales par annee

Il pourrait etre utile d’examiner l’evolution des donnees en fonction dutemps, ce qui peut donner une idee du comportement des filiales. Une me-thode de representation des donnees au cours du temps est donc mise a dis-position a titre indicatif. Nous prenons comme exemple l’indicateur QA01 dusecteur A (voir figure 5.5). En abcisse nous avons l’axe du temps, en ordonneeles valeurs des indicateurs et a la droite de chaque figure, nous representonsles Contract Reference des filiales correspondantes.

47

Page 48: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 5.5 – Evolution des filiales en fonction des annees pour un indicateurdonne.

5.6 Valeurs atypiques

Les observations atypiques parfois non representatives ou aberrantes peuventetre considerees comme une source de contamination, deformant l’informa-tion obtenue a partir des donnees brutes. Il est donc important de rechercherdes moyens d’interpreter ou de caracteriser ces valeurs atypiques afin de lestraiter, soit en etudiant leur influence sur le jeu de donnees, soit en recher-chant une interpretation particuliere du caractere atypique de chacune.

48

Page 49: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

D’apres [3] , Grubbs (1969) definit une valeur aberrante comme etant uneobservation qui semble devier de facon marquee par rapport a l’ensemble desautres membres de l’echantillon dans le quel il apparaıt, et Barnett et Le-wis (1994) definissent une valeur aberrante comme etant une observation (ouun ensemble d’observations) qui semble etre inconsistante avec le reste desdonnees, autement dit, il y a une valeur aberrante lorsque l’une ou l’autre ob-servation d’un ensemble de donnees, detonne ou n’est pas en harmonie avecles autres observations [3]. Dans le cas univarie, de nombreuses methodesgraphiques permettent de signaler la presence de valeurs aberrantes : dia-gramme de dispersion, boıtes a moustaches,. . .

Du fait de la grande complexite du cas multivarie, de nombreuses me-thodes dites informelles pour la detection et le traitement des valeurs aber-rantes sont apparues. La plupart d’entres elles reprennent principalement desmethodes graphiques. La methode que nous avons choisie se base sur la tech-nique de l’ACP (voir chapitre IV). D’apres [3] , la construction de diagrammesde dispersion des premieres ou des dernieres composantes principales permetde mettre en evidence les valeurs aberrantes de maniere graphique. En effet,on peut remarquer que la premiere composante principale est tres sensibleaux valeurs aberrantes qui augmentent les variances et les covariances.Par exemple, pour le secteur A, on peut considerer d’apres la figure 5.6 lesindividus portant les references 68, 49, 28 et 31 comme des donnees atypiques.

49

Page 50: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 5.6 – Representation des donnees atypiques.

En procedant comme indique precedemment pour tous les secteurs nousobtenons la liste des individus atypiques pour chaque secteur resumee dansle tableau 5.3. D’apres les experts de l’entreprise, la plupart des individus(ou filiales) atypiques correspondent a des pays de grande population, ce quiconstitue une premiere explication de leur specificite.

50

Page 51: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur Individus atypiquesA 68, 31, 49,28B 68, 31,49C 31, 49, 78, 28,10D 68, 49,48E 49,31, 34,78F 68, 63,10,44,78G 68, 49, 31, 10, 78,85H 28, 49,68

Tab. 5.3 – Valeurs atypiques des individus dans chaque secteur.

5.7 Conclusion

Dans ce chapitre nous avons effectue la phase de pretraitement de notrebase de donnee, qui est une phase importante pour la suite dans l’analyse.Nous avons etudie les caracteristiques des individus puis nous avons abordeles problemes des valeurs manquantes et atypiques.

51

Page 52: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 6Analyse des donnees par ACP

6.1 Introduction

L’objectif de l’etude effectue dans ce chapitre est de resumer les variablesinitiales (indicateurs) a l’aide d’un petit nombre de variables synthetiquesafin de simplifier la representation des donnees.

L’ACP presentee au chapitre 2 permet d’etudier les correlations entrevariables et entre individus. Elle permet d’etablir des groupes des groupesd’individus (ou des variables) ayant des caracteristiques similaires.Dans ce chapitre, nous presentons l’etude des donnees des secteurs A et B,et l’etude des autres secteurs sera presentee en annexe.

6.2 Methodologie de l’analyse effectuee

La methodologie de l’analyse que nous avons effectuee sur les donneesconcernant un secteur est la suivante :

– Retirer les observations atypiques. En effet, les valeurs atypiques de-tectes dans chaque secteur pourraient avoir une influence excessive surl’orientation d’un ou de plusieurs axes. Pour cette raison, nous les re-tirons dans un premier temps et nous les positionnons ensuite sur lesaxes factoriels en tant qu’individus supplementaires.

– Nous effectuerons ensuite une ACP sur les donnees de chaque secteurseparement. Nous effectuerons une synthese numerique des variables al’aide de leurs representation graphiques sur les axes principaux, puisnous mettrons en valeur certaines filiales et formerons des groupementscaracteristiques des variables.

52

Page 53: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

6.3 Analyse des donnees du secteur A (Wa-

ter Production)

L’etude des valeurs propres representee sur la figure 6.1 montre que nouspouvons restreindre notre etude aux 2 premiers axes. Nous etudions l’axe 3en plus pour ameliorer la representation des donnees et parce qu’il est bienexplique par certains indicateurs. Le pourcentage d’inertie cumulee expliqueepar ces axes est de 45.5%.

Fig. 6.1 – Pourcentage explique par les valeurs propres.

Dans le cas de l’ACP normee, l’examen des projections des variables surles axes factoriels permet de connaıtre directement le role de ces dernieresdans l’orientation des axes factoriels et la qualite de leur representation parles differents axes.Une premiere projection sur les 2 premiers axes factoriels representes sur lafigure 6.2 montre que les variables QA01, QA06, QA13, QA14, QA09, QA03,

53

Page 54: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QA10, et QA04 contribuent a l’axe 1, puisqu’elles sont proches du cercleunite. Nous pouvons confirmer ces contributions par l’etude des correlationsdes variables avec les axes (tableau 6.1).Ce tableau montre aussi que peu de variables contribuent fortement a l’axe2. En effet seuls les indicateurs QA05 et QA12 ont une correlation (-0.612et -0.67) importante avec cet axe (valeur absolue 0.5). Nous remarquonssuivant cet axe une anti-correlation entre les indicateurs QA20, QA11 d’unepart et les indicateurs QA05, QA12, et QA03 d’autre part.

Axe 1 Axe 2 Axe 3QA01 0,86 -0,1 0,065QA02 0,58 0,3 -0,48QA03 0,65 -0,53 -0,22QA04 0,7 -0,09 -0,4QA05 0,32 -0,61 -0,16QA06 0,84 -0,02 0,35QA07 0,53 -0,13 -0,22QA08 0,41 -0,21 -0,07QA09 0,78 0,41 0,37QA10 0,68 0,21 0,65QA11 0,38 0,52 -0,65QA12 0,48 -0,64 -0,15QA13 0,77 0,23 0,32QA14 0,86 0,2 0,3QA15 0,42 0,43 -0,17QA16 0,21 0,42 -0,38QA17 0,54 -0,002 -0,12QA18 -0,12 0,07 -0,18QA19 0,01 0,07 0,064QA20 0,31 0,5 -0,67QA26 0,32 -0,09 0,26QA30 0,23 0,10 0,22QA31 0,19 0,26 0,10QA32 0,38 -0,44 -0,13QA33 0,39 -0,44 -0,1QA34 -0,03 0,005 0,02QA35 0,07 -0,08 0,06QA36 0,32 0,1 0,29QA37 -0,01 0,01 0,093QA38 0,40 -0,41 -0,3

Tab. 6.1 – Correlation des variables avec les facteurs.

54

Page 55: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 6.2 – Projection des variables dans le premier plan factoriel.

55

Page 56: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 6.3 – Projection des individus dans le premier plan factoriel

Apres cette caracterisation des axes par les variables, nous presentons laprojection des individus (figure 6.3) dans le premier plan factoriel en fonctionde leur contribution au plan (Les points-individus seront colores en fonctionde l’annee correspondante). Malheureusement, la densite des points ne per-met pas de visualiser tous les noms. Pour chaque axe, on s’interesse aux indi-vidus dont les projections se situent aux extremites des projections du nuage.

Cette figure montre que les filiales dont les Contract Reference portentles numeros : 34, 68, 31, 21, et 64 sont caracterises par les indicateurs QA01,QA06, QA13, QA14, QA09, QA03, QA10, et QA04 correspondant au pre-mier axe principal. De plus nous remarquons que les filiales 34, 10, et 85 sontcaracterisees par les indicateurs QA05, QA12 et non pas par les indicateursQA20 et QA11, et inversement pour les filiales 68,35, et 44.

L’etude du plan constitue des axes 1 et 3 n’apportant pas d’informationsupplementaire par rapport au plan constitue des axes 2 et 3, nous nous

56

Page 57: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

limitons a l’etude de ce dernier.

Fig. 6.4 – Projection des variables dans le plan constitue des axes 2 et 3.

57

Page 58: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 6.5 – Projection des individus dans dans le plan constitue des axes 2 et3.

La figure 6.4 ne fait pas apparaıtre des variables qui contribuent forte-ment a l’axe 3. En effet seuls les indicateurs QA10, QA11, QA20 ont unecorrelation forte avec cet axe (0.654, -0.656 et -0.67). Nous remarquons uneanti-correlation suivant cet axe entre ces indicateurs.Sur la figure 6.5 nous remarquons que la filiale 35 est plutot caracterisee parles indicateurs QA20 et QA11 mais non pas par l’indicateur QA10, alors queles filiales 68 et 21 sont caracterisees par l’indicateur QA10 et non pas parles indicateurs QA20 et QA11.

6.4 Analyse des donnees du secteur B (Wa-

ter Distribution)

L’etude des valeurs propres representee sur la figure 6.6 montre que nouspouvons restreindre notre etude aux 3 premiers axes. Le pourcentage d’inertie

58

Page 59: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

cumulee explique par ces axes est de 60.6%.

Fig. 6.6 – Pourcentage explique par les valeurs propres.

Une premiere projection sur les 2 premiers axes factoriels representee surla figure 6.7 montre que les variables QB01, QB02, QB03, QB04, QB05,QB08, QB09, QB10, QB11, QB13, QB17, QB19, QB21, QB21, QB25, etQB26 contribuent fortement a l’axe 1, puisqu’elles sont proches du cercleunite. Nous pouvons confirmer ces contributions par l’etude des correlationsdes variables avec les axes (tableau 6.2).

Ce tableau montre que peu de variables contribuent fortement a l’axe 2,en effet seuls les indicateurs QB04 et QB23 ont une correlation (0.579 et0.548) forte avec cet axe.

59

Page 60: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Axe 1 Axe 2 Axe 3QB01 0,91 -0,34 0,0009QB02 0,87 -0,35 -0,009QB03 0,82 0,14 0,02QB04 0,72 0,58 -0,16QB05 0,72 0,44 -0,16QB06 0,51 0,49 -0,4QB07 0,55 0,57 -0,14QB08 0,89 -0,34 0,07QB09 0,9 -0,3 0,07QB10 0,88 -0,23 0,037QB11 0,78 -0,145 -0,056QB12 0,61 0,17 0,26QB13 0,91 -0,21 0,18QB14 0,53 -0,12 -0,09QB15 0,023 0,13 0,1QB16 0,53 -0,29 -0,05QB17 0,8 -0,5 0,13QB18 0,07 0,12 0,07QB19 0,78 0,27 -0,26QB20 0,054 -0,056 0,37QB21 0,68 0,16 -0,106QB22 0,302 0,33 0,81QB23 0,212 0,54 0,7QB24 -0,028 -0,047 -0,036QB25 0,71 0,327 -0,16QB26 0,73 0,01 -0,064QB27 0,31 0,01 0,17

Tab. 6.2 – Correlation des variables avec les facteurs.

Fig. 6.7 – Projection des variables dans le premier plan factoriel.

60

Page 61: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 6.8 – Projection des individus dans le premier plan factoriel.

Apres cette carcterisation des axes par les variables, nous presentons laprojection des individus (figure 6.8) dans le premier plan factoriel en fonc-tion de leur contribution au plan. Cette figure montre que les filiales dontles ”Contract Reference” sont : 78, 28, 34, 35, et 68 sont caracterises par lesindicateurs QB01, QB02, QB03, QB04, QB05, QB08, QB09, QB10, QB11,QB13, QB17, QB19, QB21, QB21, QB25, QB26 correspondant a l’axe 1. Deplus, nous remarquons que les filiales 68, 31, 34 sont caracterisees par lesidicateurs QB04 et QB23, et non pas par l’indicateur QB17.

L’etude du plan constitue des axes 2 et 3 n’apportant pas d’informationsupplementaire par rapport au plan constitue des axes 1 et 3, nous nouslimiterons a l’etude de ce dernier.

61

Page 62: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 6.9 – Projection des variables dans le plan constitue des axes 1 et 3.

62

Page 63: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 6.10 – Projection des individus dans dans le plan constitue des axes 1et 3.

La figure 6.9 montre que les variables QB22 et QB23 contribuent a l’axe3. En effet elles ont une correlation (0.81 et 0.709 respectivement). Sur lafigure 6.10, nous remarquons que les filiales 65, 18, 31, 68 sont caracteriseespar les indicateurs QB22 et QB23.

6.5 Conclusion

Dans ce chapitre, nous avons applique la technique d’ACP sur les jeux desdonnees des secteurs A et B afin de montrer les caracteristiques de certainesfiliales. Nous avons utilise des tableaux de correlation ainsi que des graphespour avoir une meilleur interpretation.

63

Page 64: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 7Classification automatique desindicateurs

7.1 Introduction

Le premier objectif de notre etude est de fournir une typologie (ou seg-mentation) des indicateurs, c’est-a-dire de definir des classes d’indicateursvis-a-vis du domaine « eau potable et eau usee ». Les algorithmes de classi-fication etudies dans les chapitres 3 et 4 precedents sont bien adaptes a desvariables quantitatives (les indicateurs dans notre cas) ou a des matrices dedistances. Dans ce chapitre, nous effectuons une classification des indicateursde chaque secteur pris separement, et nous interpretons les resultats obtenus.

Les differents algorithmes presentes ont des caracteristiques complemen-taires. La methode d’agregation autour des centres mobiles offre des avan-tages incontestables puisqu’elle permet d’obtenir des partitions a faible cout,mais elle presente l’inconvenient de produire des partitions dependant despremiers centres choisis et celui de fixer le nombre de classes a priori. Aucontraire, la classification hierarchique est une famille d’algorithmes que l’onpeut qualifier de « deterministes » (qui donnent toujours les memes resultatsa partir des memes donnees). De plus, ces algorithmes donnent des indica-tions sur le nombre de classes a retenir, c’est-a-dire sur le nombre de groupesexistants intrinsequement dans les donnees, ce qui est tres important.

64

Page 65: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

7.2 Methodologie de classification des indica-

teurs

7.2.1 Creation de table de proximite

On appelle « tableau de proximite » une matrice carree de nombres me-surant la similarite ou la dissimilarite entre les elements d’un ensemble prisdeux a deux. Comme nous nous interessons aux indicateurs qui sont desvariables, nous utilisons comme indice de dissimilarite la distance entre va-riables d = 1 − r2 ou r est le coefficient de correlation lineaire de Pearson.Une fois la table cree, nous l’utilisons en entree dans les methodes ACP etcentres mobiles, en lieu et place de la matrice de donnees.

7.2.2 Classification a partir des facteurs

L’ACP est utilisee comme une etape prealable a la classification pourdeux raisons : ses pouvoirs de description et de filtrage. Nous effectuons uneclassification automatique des indicateurs sur les premiers axes principauxseulement. Le fait d’abandonner les derniers axes principaux revient a effec-tuer une sorte de lissage des donnees, ce qui en general ameliore la partitionen produisant des classes plus homogenes. Les distances entre les points sontcalculees dans l’espace des premiers axes principaux avec la distance eucli-dienne usuelle.

7.2.3 Methode de re-etiquetage des classes pour la for-mation des formes fortes

En passant d’une execution a autre de l’algorithme des CM, il arrivesouvent que l’algorithme numerote i la classe qui etait numerotee j par l’exe-cution precedente. Comment faire pour comparer les classes obtenues afin derealiser les formes fortes ? Nous allons etablir un algorithme permettant de re-etiqueter les classes de facon a rendre comparables les groupements obtenus.La methodologie sera la suivante : nous associons chacun des centres Cj ob-tenus par une execution au centre Ci obtenu par l’execution precedente dontil est le plus proche au sens de la distance euclidienne. On re-etiquette tousles vecteurs de la classe associee au centre Cj avec des etiquettes identiquesa celles de la classe associee au centre Ci.

65

Page 66: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

7.2.4 Strategie de classification des indicateurs par sec-teur

La methodologie que nous avons appliquee pour la classification des indi-cateurs par secteur est la suivante :

– Determination de la table de proximite basee sur la distance de Pearsonentre les indicateurs etudiees concernant un secteur ;

– Application de l’ACP a la table de proximite ;– Application de la classification hierarchique en prenant en compte les

premiers axes principaux du tableau de proximite. Cette methode donneune indication visuelle du nombre de classes ;

– Application de l’algorithme des centres mobiles en prenant en compteles premiers axes principaux du tableau de proximite. Nous determi-nons les formes fortes qui sont obtenues par superposition ou intersec-tion des differentes classes. Dans ce but, nous proposons comme heuris-tique d’executer l’algorithme des CM plusieurs fois. Les objets qui sontgroupes dans la meme classe plus de 80 % du temps sont considerescomme appartenant aux formes fortes. Pour classer les autres objetsnous utilisons deux methodes, une nette et l’autre floue :

1. Methodologie 1 : une fois que nous avons determine les formesfortes, nous prenant leurs centres de gravites pour centres initiauxet nous reappliquons l’algorithme CM .

2. Methodologie 2 : nous apliquons l’algorithme des CM flous surles objets en tenant compte les premiers axes principaux du ta-bleau de proximite. Nous nous interessons a montrer les degresd’appartenance a chaque classe des objets qui n’ont pas participea la creation des formes fortes deja trouvees. En fait, nous avonsexecute l’algorithme CM flou plusieurs fois et nous utilisons lesdegres d’appartenance moyennes des objets a chacune des formesfortes. Les objets sont ensuite classes selon la regle de maximumd’appartenance.Nous rappelons qu’il est conseille d’appliquer l’algorithme des CMflous s’il existe des « ponts » entre les classes, c’est-a-dire despoints dont l’appartenance a une classe ou une autre est ambigue.

– Enfin, nous appliquons l’algorithme de Kohonen comme etant une tech-nique supplementaire de classification. Le grand avantage de cette tech-nique est qu’elle permet l’etude des relations non-lineaires entre les don-nees.

66

Page 67: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Dans ce chapitre, nous illustrons la classification sur les secteurs A et C. Lesresultats obtenus pour les autres secteurs seront presentes dans les annexesF, G et H.

7.2.5 Signe de relation entre les indicateurs

Le coefficient de correlation de Pearson r que nous avons utilise afin deconstruire le tableau de distance entre les indicateurs, represente le degre derelation entre deux variables et prend une valeur comprise entre -1 et +1. Lavaleur absolue du coefficient de correlation indique l’importance de la rela-tion entre les variables, tandis que le signe de la relation (+ ou -) designe lesens de cette relation.

La distance de Pearson 1 − r2 calculee ne fait pas apparaıtre le sens derelation entre les variables, et la typologie trouvee a partir de la classificationne montre que les indicateurs qui sont en relation lineaires. Afin de caracte-riser le sens de cette relation, il est utile de representer en tableau les signesdes coefficients de correlation.

7.3 Classification des indicateurs du secteur

A

L’application de la methode hierarchique avec le critere d’agregation deWard donne le dendrogramme presente sur la figure 7.1.

67

Page 68: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.1 – Classification hierarchique appliquee aux indicateurs du secteurA.

Au vu de ce graphique nous choisissons un nombre de groupes egal a trois.En effet, il semble qu’en coupant l’arbre a ce niveau, on cree trois groupesa l’interieur desquels le critere de Ward prend des valeurs homogenes. Enappliquant l’algorithme CM net, nous obtenons les 3 classes representees surla figure 7.2.

68

Page 69: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.2 – Application de l’algorithme CM net sur les indicateurs du secteurA.

Les objets representes par des cercles representent les centres des formesfortes.Nous remarquons que tous les objets (variables) participent a la creation deces formes stables. Les elements de ces trois classes sont presentes dans letableau 7.1.

Classe 1 QA01, QA06, QA09, QA10, QA13, QA14, QA15Classe 2 QA02, QA03, QA04, QA05, QA07, QA08, QA12, QA16, QA17,

QA18, QA20Classe 3 QA11, QA19, QA26, QA30, QA31, QA32, QA33, QA34, QA35, QA36

QA37, QA38

Tab. 7.1 – Formes stables des indicateurs du secteur A.

69

Page 70: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La figure 7.3 montre les micro-classes (ou classes de Kohonen, cf. chapitre4) obtenues en appliquant l’algorithme de Kohonen sur une grille rectangu-laire de taille 3×4 et pour 6000 iterations.

Fig. 7.3 – Les classes de Kohonen, regroupees en 3 macro-classes, apres 60000iterations.

La CAH appliquee sur les vecteurs codes est representee sur la figure 7.5.

70

Page 71: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.4 – Classification hierarchique appliquee sur les vecteurs codes de laclassification de Kohonen presentee en figure 7.3.

En coupant le graphe par une ligne horizontale comme indique sur lafigure 7.4, on definit trois macro-classes. Ces macro-classes sont a peu presidentiques a celles que l’on a obtenu en appliquant l’algorithme CM net. Uneseparation lineaire entre les trois classes est ainsi mise en evidence (cf. figure7.5).

71

Page 72: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.5 – Separation lineaire des indicateurs du secteur A.

Afin de mieux comprendre le sens de relations lineaires entre les indi-cateurs et surtout les indicateurs d’une meme classe, nous representons lestableaux 7.2, 7.3.

72

Page 73: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QA

01

QA

02

QA

03

QA

04

QA

05

QA

06

QA

07

QA

08

QA

09

QA

10

QA

11

QA

12

QA

13

QA

14

QA

15

QA

01

++

++

++

++

++

++

++

+Q

A02

++

++

++

++

++

++

++

+Q

A03

++

++

++

++

++

++

++

+Q

A04

++

++

++

++

++

++

++

+Q

A05

++

++

++

++

++

-+

++

+Q

A06

++

++

++

++

++

++

++

+Q

A07

++

++

++

++

++

++

++

+Q

A08

++

++

++

++

++

++

++

+Q

A09

++

++

++

++

++

++

++

+Q

A10

++

++

++

++

++

++

++

+Q

A11

++

++

-+

++

++

+-

++

+Q

A12

++

++

++

++

++

-+

++

+Q

A13

++

++

++

++

++

++

++

+Q

A14

++

++

++

++

++

++

++

+Q

A15

++

++

++

++

++

++

++

+Q

A16

++

++

+-

++

++

++

++

+Q

A17

++

++

++

++

++

++

++

+Q

A18

++

++

++

++

++

++

++

+Q

A19

++

++

-+

++

++

+-

++

+Q

A20

++

++

++

++

++

++

++

+Q

A26

++

++

++

++

++

++

++

-Q

A30

++

--

-+

+-

++

--

++

+Q

A31

++

--

-+

+-

++

+-

++

+Q

A32

++

++

++

++

--

-+

++

-Q

A33

++

++

++

++

--

-+

++

-Q

A34

--

--

--

--

--

--

--

-Q

A35

+-

++

-+

++

++

--

++

+Q

A36

++

++

-+

+-

++

+-

++

+Q

A37

--

--

-+

--

++

--

--

+Q

A38

++

++

++

++

--

++

-+

-

Tab. 7.2 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur A.

73

Page 74: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QA

16

QA

17

QA

18

QA

19

QA

20

QA

26

QA

30

QA

31

QA

32

QA

33

QA

34

QA

35

QA

36

QA

37

QA

38

QA

01

++

++

++

++

++

-+

+-

+Q

A02

++

++

++

++

++

--

+-

+Q

A03

++

++

++

--

++

-+

+-

+Q

A04

++

++

++

--

++

-+

+-

+Q

A05

++

+-

++

--

++

--

--

+Q

A06

-+

++

++

++

++

-+

++

+Q

A07

++

++

++

++

++

-+

+-

+Q

A08

++

++

++

--

++

-+

--

+Q

A09

++

++

++

++

--

-+

++

-Q

A10

++

++

++

++

--

-+

++

-Q

A11

++

++

++

-+

--

--

+-

+Q

A12

++

+-

++

--

++

--

--

+Q

A13

++

++

++

++

++

-+

+-

-Q

A14

++

++

++

++

++

-+

+-

+Q

A15

++

++

+-

++

--

-+

++

-Q

A16

++

+-

++

++

--

--

--

-Q

A17

++

++

++

++

++

-+

+-

+Q

A18

++

++

++

--

--

--

--

-Q

A19

-+

++

++

++

--

--

+-

-Q

A20

++

++

++

-+

--

--

+-

-Q

A26

++

++

++

--

++

--

-+

+Q

A30

++

-+

--

++

++

-+

++

+Q

A31

++

-+

+-

++

--

-+

++

-Q

A32

-+

--

-+

+-

++

-+

+-

+Q

A33

-+

--

-+

+-

++

--

++

+Q

A34

--

--

--

--

--

+-

--

-Q

A35

-+

--

--

++

+-

-+

++

-Q

A36

-+

-+

+-

++

++

-+

++

+Q

A37

--

--

-+

++

-+

-+

++

-Q

A38

-+

--

-+

+-

++

--

+-

+

Tab. 7.3 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur A.

74

Page 75: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Par exemple, nous pouvons dire que pour la classe 1, tous les indicateurssont correles positivement alors que pour la classe 3 nous pouvons dire queles filiales qui sont fortes en QA36 sont aussi fortes en QA38 mais faibles enQA37.

7.4 Classification des indicateurs du secteur

C

L’application de la methode hierarchique avec le critere d’agregation deWard donne le dendrogramme represente sur la figure 7.6.

Fig. 7.6 – Classification hierarchique appliquee aux indicateurs du secteurC.

Au vu de ce graphique nous choisissons de prendre un nombre de groupesegal a trois. En appliquant l’algorithme CM net, nous obtenons les 3 classesrepresentees sur la figure 7.7.

75

Page 76: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.7 – Application de l’algorithme CM net sur des indicateurs du secteurC.

Les objets representes par des carres sont les objets qui n’ont pas participea la creation des formes stables, mais qui ont ete classes selon la methodologie1. Les elements de ces trois formes stables obtenues sont presentes dans letableau 7.4.

Classe 1 QC07, QC12, QC15, QC17, QC19, QC21, QC22, QC23, QC24Classe 2 QC01, QC02, QC03, QC08, QC11, QC14, QC16Classe 3 QC04, QC06, QC18, QC20

Tab. 7.4 – Formes stables des indicateurs du secteur C.

.

Nous appliquons maintenant l’algorithme des CM floues pour trouver lesdegres d’appartenance de ces objets aux formes stables. La figure 7.8 montreles 3 classes floues.

76

Page 77: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.8 – Application de l’algorithme CM flou sur les indicateurs du secteurC.

Ces degres d’appartenances sont presentes dans le tableau 7.5.

Indicateurs Classe 1 Classe 2 Classe3QC05 0.062 0.15 0.7879QC09 0.0686 0.2091 0.7224QC10 0.096 0.2892 0.6203QC13 0.1907 0.2081 0.6012

Tab. 7.5 – Degres d’apppartenance moyens des indicateurs aux formesstables.

On peut dire par exemple que la proposition « l’indicateur QC05 appartienta la classe 1 » est vraie a 78.79 %, alors que la proposition « l’indicateurQC05 appartient a la classe 3 » est vraie a 15%.

77

Page 78: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La figure 7.9 montre les micro-classes obtenues en appliquant l’algo-ritthme de Kohonen sur une grille rectangulaire de taille 3×4 et pour 6000iterations.

Fig. 7.9 – Les classes de Kohonen, regroupees en 3 macro-classes, apres 60000iterations.

La CAH appliquee sur les vecteurs codes est representee sur la figure 7.10.

78

Page 79: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. 7.10 – Classification hierarchique appliquee sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs dusecteur C, nous presentons les tableaux 7.6 et 7.7.

79

Page 80: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QC

01

QC

02

QC

03

QC

04

QC

05

QC

06

QC

07

QC

08

QC

09

QC

10

QC

11

QC

12

QC

01

++

++

++

++

++

++

QC

02

++

++

++

++

++

++

QC

03

++

++

++

++

++

++

QC

04

++

++

++

++

++

++

QC

05

++

++

++

++

++

++

QC

06

++

++

++

++

++

++

QC

07

++

++

++

++

++

++

QC

08

++

++

++

++

++

++

QC

09

++

++

++

++

++

++

QC

10

++

++

++

++

++

++

QC

11

++

++

++

++

++

++

QC

12

++

++

++

++

++

++

QC

13

++

++

++

++

++

++

QC

14

++

++

++

++

++

++

QC

15

--

--

-+

+-

-+

--

QC

16

++

++

++

++

++

++

QC

17

--

--

++

--

+-

++

QC

18

++

++

++

++

++

++

QC

19

++

--

-+

--

++

+-

QC

20

++

++

++

++

++

++

QC

21

++

++

++

-+

++

++

QC

22

++

++

++

-+

++

+-

QC

23

++

++

++

-+

++

--

QC

24

--

--

--

+-

--

--

Tab. 7.6 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur C.

80

Page 81: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QC

13

QC

14

QC

15

QC

16

QC

17

QC

18

QC

19

QC

20

QC

21

QC

22

QC

23

QC

24

QC

01

++

-+

-+

++

++

+-

QC

02

++

-+

-+

++

++

+-

QC

03

++

-+

-+

-+

++

+-

QC

04

++

-+

-+

-+

++

+-

QC

05

++

-+

++

-+

++

+-

QC

06

++

++

++

++

++

+-

QC

07

++

++

-+

-+

--

-+

QC

08

++

-+

-+

-+

++

+-

QC

09

++

-+

++

++

++

+-

QC

10

++

++

-+

++

++

+-

QC

11

++

-+

++

++

++

--

QC

12

++

-+

++

-+

+-

--

QC

13

++

-+

-+

++

++

+-

QC

14

++

-+

-+

++

++

+-

QC

15

--

++

-+

-+

+-

-+

QC

16

++

++

-+

++

++

+-

QC

17

--

--

++

-+

++

--

QC

18

++

++

++

++

-+

+-

QC

19

++

-+

-+

++

--

+-

QC

20

++

++

++

++

-+

+-

QC

21

++

++

+-

--

++

--

QC

22

++

-+

++

-+

++

+-

QC

23

++

-+

-+

++

-+

+-

QC

24

--

+-

--

--

--

-+

Tab. 7.7 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur C.

81

Page 82: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

7.5 Conclusion

Dans ce chapitre, nous avons effectue la classification automatique sur lesindicateurs relatifs a un secteur, dans le but de voir quels sont les indicateursqui se ressemblent le plus. Nous nous sommes bases sur une table de proxi-mite entre les indicateurs calculee a partir de la distance de Pearson entre lesvariables (indicateurs). Enfin, nous avons applique la classification de Koho-nen comme etant une technique supplementaire de classification. Nous avonspresente les resultats obtenus sur les secteurs A et C. Les resultats obtenussur les autres secteurs sont presentes dans les annexes F, G et H.

82

Page 83: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 8Segmentation des filiales par secteur

8.1 Introduction

Le but de ce chapitre est de regrouper les filiales qui ont des caracteris-tiques similaires pour un secteur donne en se basant sur la base de donneesfiliales/indicateurs, et ce pour chaque secteur. Ce procede est appele segmen-tation (ou classification automatique) en statistique.Afin de realiser cette segmentation, il est possible d’appliquer toutes les me-thodes decrites dans le chapitre trois et qui ont ete developpees en detail auchapitre sept.

Nous nous contenterons ici de presenter quelques resultats significatifspour ce nouveau cas d’etude. Les resultats presentes sont bases sur les cartesde Kohonen.

8.2 Creation du tableau des donnees

Les tableaux A a E que nous avons generes au chapitre 5 comportent desredondances parce qu’ils comprennent, pour chaque filiale, les donnees corres-pondant aux annees 2001, 2002, 2003 et 2004. Comment faire pour classifierles filiales ?

Dans chaque secteur, nous ne considererons que les filiales qui ont reponduau questionnaire pour les 4 annees (exception faite de celles pour lesquellesil nous manque trop de valeurs), et nous creerons de nouveaux tableaux (untableau par secteur) qui mettent en relation chaque filiale avec la medianedes valeurs de chaque indicateurs pour les quatres annees.

83

Page 84: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Les dimensions de ces tableaux sont resumees dans le tableau 8.2.

Secteur Format du tableau (individus× variables)A 38× 30B 37 × 27C 25 × 24D 19× 25E 21 × 47

8.3 Segmentation des filiales du secteur A

La figure 8.1 montre les micro-classes obtenues en appliquant l’algorithmede Kohonen sur une grille de taille 3×4, pour 6000 iterations et une typologierectangulaire du voisinage.

Fig. 8.1 – Les classes de kohonen, regroupees en 4 macro-classes, apres 60000iterations.

84

Page 85: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La CAH appliquee sur les vecteurs codes est representee sur la figure 8.2.

Fig. 8.2 – Classification hierarchique appliquee sur les vecteurs codes.

Nous remarquons que les macro-classes creent toujours des surfaces d’unseul tenant sur la grille. Cette observation est interessante car elle confirmeles proprietes topologiques des cartes de Kohonen. Pour rendre claire cetteclassification a deux niveaux, nous associons a chaque macro-classe une cou-leur differente (cf. figure 8.2).

8.4 Conclusion

Dans ce chapitre, nous avons explique la generation des nouveaux ta-bleaux a partir desquels nous allons effectuer la segmentation des filiales.Pour la segmentation, nous avons applique les cartes de Kohonen qui rea-lisent une double tache : classification ,c’est-a-dire regroupement des filialesayant des caracteristiques similaires, et projection, c’est-a-dire representa-

85

Page 86: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

tion de ces groupes sur un graphique en deux dimensions a partir d’un grandnombre de variables.

86

Page 87: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 9Interpretation des resultats en termesde metiers

9.1 Introduction

En general, les classes obtenues par classification automatique assurentune vue concise et structuree des donnees ; des groupes inattendus appa-raissent, des regroupements attendus n’existent pas.

Les experts a l’entreprise, M. Herve BILLARD et Philippe JACQ, ontessaye d’interpreter, en premiere intuition, les groupes obtenus. Selon eux,il existe des groupes normaux, des faux groupes (non significatifs) et desgroupes imprevus. Ces derniers groupes leur paraissent importants, car ilssoulevent des questions. En fait, ils considerent que notre etude souleve au-tant de questions qu’elle apporte de reponses. Tout d’abord, nous presentonsl’interpretation faite sur la classification des indicateurs, puis celle realiseesur la classifcation des filiales.

9.2 Interpretation de la typologie des indica-

teurs du secteur A

D’apres le chapitre 7, nous avons distingue trois classes :

1. Classe 1 : elle met en relation la population, la demande journaliered’eau, la quantite d’eau extraite, les produits chimiques utilises et lenombre des analyses microbiologiques a faire ;

2. Classe 2 : elle met en relation le nombre d’employe, le cout de la main

87

Page 88: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

d’oeuvre et la consommation de l’energie. Les indicateurs QA05 etQA12 n’ont pas de relation directe avec cette classe ;

3. Classe 3 : les relations obtenues entre les indicateurs de cette classene paraissent pas claires. Il semble que cette classe soit proche a lapremiere classe.

9.3 Interpretation de la typologie des indica-

teurs du secteur C

Les trois classes obtenues dans ce secteur (cf. chapitre 7) peuvent etreinterpretees comme suit :

1. Classe 1 : elle met en relation l’existance des relations entre les indica-teurs de la gestion du reseau « Collecte des eaux usees ». Il ne semblepas pertinent de classer QC23 dans la meme classe ;

2. Classe 2 : elle met en relation la population et le service demande ;

3. Classe 3 : elle met en relation l’energie demandee et le nombre de sta-tions de pompages.

9.4 Interpretation de la typologie des indica-

teurs du secteur D

Nous avons distingue trois classes (cf. annexe G) :

1. Classe 1 : elle met en relation le volume annuel d’eau traite et la popu-lation ;

2. Classe 2 : elle ne permet pas de degager des relations claires malgre,bien qu’elle semble coherente dans la representation graphique ;

3. Classe 3 : elle n’a pas d’interpretation claire pour les experts, de pluselle est dispersee sur le graphique.

9.5 Interpretation de la typologie des indica-

teurs du secteur E

Les quatre classes obtenues dans ce secteur (cf. annexe H) peuvent etreinterpretees comme suit :

1. Classe 1 : elle met en relation les indicateurs concernant le call center,ou le service des clients ;

88

Page 89: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

2. Classe 2 : elle met en relation la main d’oeuvre avec la reponse auxbesoins des clients ;

3. Classe 3 : elle met en relation les indicateurs concernant « le fonctiondu departement » ;

4. Classe 4 : elle met en relation les indicateurs concernant le comporte-ment des clients.

9.6 Interpretation de la typologie des filiales

Selon les experts, il n’est ni facile ni evident d’interpreter les groupesobtenus. En fait, il faut trouver les caracteristiques de chaque contrat afinde pouvoir les comparer, ce qui demande beaucoup de temps. En gros, enpremiere intuition, les experts trouvent que :

– Les classes obtenues au niveau micro montrent quelques liens geogra-phiques entre les filiales.

– Les classes singletons mettent en evidence des gros contrats, ou descontrats de Systeme de production unique, par exemple le contrat 35.

– Au niveau des macro-classes, on peut dire que les filiales sont groupeesselon la taille de leurs contrats.

9.7 Conclusion

Dans ce chapitre, nous avons essaye d’expliquer les classes indicateurs etfiliales en termes de metier a l’aide des experts de l’entreprise. Une interpre-tation plus approfondie demandera un temps beaucoup plus important.

89

Page 90: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Chapitre 10Conclusion generale et perspective

Le but de ce projet etait de rechercher des relations entre les indicateursde qualite du domaine « eau potable et eau usee », utilises dans une enqueteinterne effectuee par l’entreprise SUEZ Environnement aupres de ses filiales.Ce projet se situe dans le cadre de ce qu’on appelle la fouille de donnee(Data Mining) et plus precisement d’un processus qu’on appelle Extractionde Connaissance a partir des Donnees (ECD).

Nous avons etudie les donnees fournies en trois etapes :– Pretraitement : Suppression des donnees inexploitables (trop de valeurs

manquantes), estimation des valeurs manquantes (lorsque cela etaitpossible), et identification des valeurs atypiques ;

– Reduction de dimension des donnees et analyse par ACP ;– Analyse des donnees par les methodes des CM, de Kohonen et de CAH.

Comme perspective de notre travail, nous proposons :– D’estimer les valeurs manquantes par des intervalles de confiance au

lieu d’une valeur discrete et de reprendre l’ensemble des traitementssur les donnees de type intervalle ;

– De developper l’etude de la base de donnees filiales/ratios ;– D’approfondir l’interpretation des resultats avec l’aide des experts de

l’entreprise.

90

Page 91: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Troisieme partie

Annexe

91

Page 92: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe A

92

Page 93: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Liste des Contract Reference

Contract Reference Nom court Pays1 MACAO Chine2 LIMEIRA Bresil3 NEW JERSEY USA4 NEW YORK USA5 IDAHO USA6 PENNSYLVANIA USA7 JOHOR Malaisie8 PERAK Malaisie10 LYDEC Maroc11 QUEENSTOWN Afrique du sud12 BRNO Tchequie13 OSTRAVA Tchequie14 KARLOVY VARY Tchequie17 TRENCIN Slovaquie18 SOUTH MORAVIA Tchequie19 JAKARTA Indonesie20 EURAWASSER Nord Allemagne21 PWP Australie22 FIESOLE Italie23 MONTECATINI Italie24 PONTE BUGGIANESE Italie28 SANTIAGO Chili29 CORDOBA Argentine30 ILLIMANI Bolivie31 AGUAS ARGENTINA Argentine32 SANTA FE Argentine33 PECS Hongrie34 BARCELONA Espagne35 BUDAPEST Hongrie37 CARTAGENA Colombie38 GRANADA Espagne39 JERSEY CITY USA41 AGUALID Espagne42 MURCIA Espagne43 ALICANTE Espagne44 MANAUS Bresil46 INDIANAPOLIS USA47 CLABSA Espagne48 MILWAUKEE USA49 NORTHUMBRIAN UK50 DELAWARE USA54 GARY USA55 NATAL Afrique du sud56 KAPOSVAR Hongrie58 TANZHOU Chine63 TECSA Mexique64 AMMAN Jordanie65 AREZZO Italie66 ZONGSHAN Chine67 PALMIRA Colombie68 FRANCE France78 JOHANNESBURG Afrique du sud80 SUMPERK Tchequie81 BENESOV Tchequie82 MEDAN Indonesie85 BAODING Chine86 SANYA Chine90 CANCUN Mexique93 WESTERN CAPE Afrique du sud96 IACMEX Mexique97 SPRINGFIELD Water LLC USA99 Deg-NICE France100 Deg-VALENTON France101 Deg-MULHOUSE France105 ZHENGZHOU Chine106 SIPING Chine107 QINGDAO Chine108 PANJIN Chine109 CHONGQING Chine110 LIBAN SAL Liban111 TORREON Mexique

93

Page 94: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe BPresentation des secteurs

94

Page 95: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur A : Production d’eau potable

Question Reference LABEL FR UNIT FRQA01 Population desservie NombreQA02 Nombre d’employes NombreQA03 Cout de l’exercice - total Devise LocaleQA04 Cout annuel de la main d’oeuvre Devise LocaleQA05 Cout annuel d’eau potable achetee en gros Devise LocaleQA06 Cout annuel des produits chimiques Devise LocaleQA07 Charges annuelles de depenses d’energie Devise LocaleQA08 Cout annuel de la sous-traitance Devise LocaleQA09 Volume annuel produit Mm3QA10 Volume annuel d’eau de surface extraite Mm3QA11 Volume annuel d’eau de forage et de source extraite Mm3QA12 Distribution annuelle d’eau importee en gros Mm3QA13 Capacite maximale de production m3/JourQA14 Demande journaliere maximale m3/JourQA15 Nombre total d’analyses microbiologiques NombreQA16 Nombre d’analyses microbiologiques non conformes NombreQA17 Consommation annuelle d’electricite MKWQA18 Nombre de stations de traitement NombreQA19 Nombre de stations de traitement d’eau de surface NombreQA20 Nombre de forages NombreQA21 Fourniture annuelle d’eau exportee en gros Mm3QA22 Volume annuel de dechets non dangereux m3QA23 Volume annuel de dechets non dangereux reutilises m3QA24 Volume annuel de dechets dangereux m3QA25 Volume annuel de dechets dangereux reutilises m3QA26 Quantite annuelle de boues produites Tonnes MS/anQA27 Volume annuel des boues reutilisees par les usines d’eau potable Tonnes sechesQA28 Nombre total des analyses de controle de qualite NombreQA29 Nombre total des analyses de controle de qualite non satisfaisantes NombreQA30 Nombre d’analyses reglementaires NombreQA31 Nombre d’analyses reglementaires non conformes NombreQA32 Quantite de boues traitees Tonnes MS/anQA33 Quantite de boues mises en decharge Tonnes MS/anQA34 Volume annuel des pertes en eau Mm3QA35 Volume annuel des eaux reutilisees Mm3QA36 Quantite de chlore gazeux utilise Tonnes/anQA37 Capacite de stockage de chlore gazeux TonnesQA38 Quantite de bioxyde de chlore utilise Tonnes/anQA39 Consommation annuelle globale d’electricite, production+distribution MWh

95

Page 96: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur B : Distribution d’eau potable

Question Reference LABEL FR UNIT FRQB01 Population desservieSAME AS QG01 AND QH01 NombreQB02 Population totale NombreQB03 Nombre de salaries NombreQB04 Charges annuelles - total Devise LocaleQB05 Cout annuel - main d’oeuvre Devise LocaleQB06 Charges annuelles - energie Devise LocaleQB07 Cout annuel - sous-traitance Devise LocaleQB08 Volume annuel d’eau entrantSAME AS QE37 Mm3QB09 Volume annuel d’eau distribuee Mm3QB10 Volume annuel mesure Mm3QB11 Nombre total d’analyses microbiologiques NombreQB12 Nombre d’analyses hors normes NombreQB13 Longueur du reseau KmQB14 Longueur de reseau renouvelee par an KmQB15 Longueur de reseau rehabilitee par an KmQB16 Nombre annuel d’eclatements NombreQB17 Nombre de branchementsSAME AS QE02 NombreQB18 Branchements sous le seuil de pression NombreQB19 Consommation annuelle d’electricite MKWQB20 Duree pendant laquelle l’eau potable est disponible chaque jour HeuresQB21 Delai de mise en service d’un raccordement JoursQB22 Nombre de reservoirs d’eau potable NombreQB23 Nombre de stations de pompage NombreQB24 Capacite totale des reservoirs d’eau potable Mm3QB25 Capacite totale de pompage m3/JourQB26 Nombre total des analyses de conformite NombreQB27 Nombre total des analyses de conformite non satisfaisantes NombreQB28 Nombre annuel d’eclatements et de fuites sur les accessoires du reseau. NombreQB29 Nombre annuel d’eclatements et de fuites sur les branchements Nombre

96

Page 97: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur C : Collecte des eaux usees

Question Reference LABEL FR UNIT FRQC01 Population domestique desservieSAME AS QG02 AND QH02 NombreQC02 Population totale NombreQC03 Nombre d’employes NombreQC04 Charges anuelles - total Devise LocaleQC05 Cout annuel - main d’oeuvre Devise LocaleQC06 Charges annuelles - energie Devise LocaleQC07 Cout annuel - sous-traitance Devise LocaleQC08 Volume annuel collecte Mm3QC09 Consommation annuelle d’electricite MKWQC10 Longueur du reseau KmQC11 Longueur de reseau remplace et rehabilite par an KmQC12 Longueur inspectee annuellement KmQC13 Longueur de reseau nettoyee annuellement KmQC14 Nombre annuel d’obstructions du reseau NombreQC15 Nombre annuel d’effondrements du reseau NombreQC16 Nombre de branchementsSAME AS QD19 AND QE03 NombreQC17 Longueur de conduites en charge KmQC18 Nombre de stations de pompage NombreQC19 Nombre de debordements NombreQC20 Longueur du reseau unitaire KmQC21 Longueur de reseau remplace par an KmQC22 Capacite totale des stations de pompage m3/JourQC23 Populations desservies autres que domestiques NombreQC24 Dechets elimines du reseau Tonnes

97

Page 98: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur D : Traitement des eaux usees

Question Reference LABEL FR UNIT FRQD01 Population desservie NombreQD02 Nombre de salaries NombreQD03 Charges annuelles - total Devise LocaleQD04 Cout annuel - main d’oeuvre Devise LocaleQD05 Cout annuel - produits chimiques Devise LocaleQD06 Charges annuelles - energie Devise LocaleQD07 Cout annuel - sous-traitance Devise LocaleQD08 Volume annuel traite - traitement secondaire Mm3QD09 Capacite de traitement - debit m3/JourQD10 Pollution annuelle eliminee - DBO TonnesQD11 Pollution annuelle eliminee - DCO TonnesQD12 Quantite annuelle de boues produites Tonnes MS/anQD13 Quantite annuelle de boues reutilisees Tonnes MS/anQD14 Nombre total de mesures pour analyse de conformite NombreQD15 Nombre d’echantillons de conformite satisfaisants NombreQD16 Consommation annuelle d’electricite MWKQD17 Nombre total de stations d’epuration NombreQD18 Nombre de stations avec traitements secondaires ou mieux NombreQD19 Nombre de branchementsSAME AS QC16 AND QE03 NombreQD20 Quantite annuelle de metaux lourds elimines TonnesQD21 Consommation annuelle de gaz naturel m3QD22 Consommation annuelle des autres carburants m3QD23 Volume annuel de dechets non dangereux m3QD24 Volume annuel de dechets non dangereux et reutilises m3QD25 Volume annuel de dechets dangereux m3QD26 Volume annuel de dechets dangereux et reutilises m3QD27 Charge de pollution annuelle recue - DBO TonnesQD28 Nombre des petites usines de traitement NombreQD29 Nombre de mesures non conformes NombreQD30 Charge de pollution annuelle by-passee - DBO Tonnes/anQD31 Volume annuel total by-passe Million m3

98

Page 99: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur E : Service clientele

Question Reference LABEL FR UNIT FRQE01 Taux de satisfaction de la clientele %QE02 Nombre de branchementsSAME AS QB17 NombreQE03 Nombre de branchementsSAME AS QC16 AND QD19 NombreQE04 Nombre de branchements domestiques avec compteur NombreQE05 Nombre de branchements commerciaux NombreQE06 Nombre annuel de compteurs renouveles NombreQE07 Nombre annuel de coupures d’eau NombreQE08 Nombre de salaries NombreQE09 Couts annuels - total Devise LocaleQE10 Cout annuel - main d’oeuvre Devise LocaleQE11 Cout annuel - sous-traitance Devise LocaleQE12 Nombre annuel total de factures emises NombreQE13 Nombre de factures estimees NombreQE14 Duree entre releve du compteur et facturation JoursQE15 Nombre de factures payees a reception NombreQE16 Nombre annuel total de contacts clients NombreQE17 Nombre de contacts relatifs a des sujets techniques NombreQE18 Nombre de contacts lies a la facturation NombreQE19 Nombre de demandes de renseignements par telephone NombreQE20 Nombre d’appels acceptes NombreQE21 Nombre de demandes ecrites NombreQE22 Nombre de contacts par courrier traites en moins de 10 jours NombreQE23 Facture domestique moyenne (hors taxes) Devise LocaleQE24 Nombre de branchements avec des compteurs > 20 mm NombreQE25 Cout annuel - Service Facturation Devise LocaleQE26 Cout annuel - Service Recouvrement Devise LocaleQE27 Cout annuel - Centre d’Appels Devise LocaleQE31 Nombre de clients residentiels eau factures au forfait NombreQE32 Nombre de clients residentiels eau factures au compteur NombreQE33 Nombre de clients non residentiels eau factures avec compteurs NombreQE34 Nombre de clients residentiels assainissement factures NombreQE35 Nombre de clients non residentiels assainissement factures NombreQE36 Volume annuel d’eau facturee Mm3QE37 Volume annuel d’eau entrantSAME AS QB08 Mm3QE38 Montant annuel facture - Eau Devise LocaleQE39 Montant annuel facture - Assainissement Devise LocaleQE40 Montant annuel facture autres recettes Devise LocaleQE41 Taux de non - recouvrement a echeance %QE42 Taux de non-recouvrement apres 6 mois %QE43 Taux de non-recouvrement apres 12 mois %QE44 Taux de non-recouvrement apres 24 mois %QE45 Montant annuel facture - Eau, clients particuliers avec compteurs Devise LocaleQE46 Montant annuel facture - Eau, clients commerciaux avec compteurs Devise LocaleQE47 Montant annuel facture - Assainissement clients particuliers avec compteurs Devise LocaleQE48 Montant annuel facture - Assainissement clients commerciaux avec compteurs Devise LocaleQE49 Montant total annuel des taxes et redevances Devise LocaleQE50 Volume annuel d’eau non facturee, consommee legalement Mm3QE51 Nombre de reclamations ou plaintes commerciales NombreQE52 Nombre de reclamations ou plaintes d’ordre technique Nombre

99

Page 100: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur F : Services Generaux

Question Reference LABEL FR UNIT FRQF01 Nombre de salaries auxiliaires NombreQF02 Nombre total de salariesSAME AS QG03 AND QH03 NombreQF03 Cout annuel du travail auxiliaire - total Devise LocaleQF04 Couts auxiliaires annuels - main d’oeuvre Devise LocaleQF05 Couts auxiliaires annuels - sous-traitance Devise LocaleQF06 Charges d’exploitation annuelles totalesSAME AS QH06 Devise LocaleQF07 Valeur des stocks Devise LocaleQF08 Valeur des sorties de stocks Devise Locale

Secteur G : Informations generales

Question Reference LABEL FR UNIT FRQG01 Population reliee au reseau d’eauSAME AS QB01 AND QH01 NombreQG02 Population reliee au reseau d’egoutSAME AS QC01 AND QH02 NombreQG03 Nombre total de salariesSAME AS QF02 AND QH03 NombreQG04 Nombre de salaries travaillant d’apres des systemes d’AQ NombreQG05 Nombre de salaries sur le terrain NombreQG06 Nombre d’agents de maıtrise NombreQG07 Nombre d’echelons de la base au directeur general NombreQG08 Charges salariales annuelles totales Devise LocaleQG09 Cout annuel total de la main d’oeuvre Devise LocaleQG10 Duree annuelle normale de travail HeuresQG11 Duree annuelle totale de formation HeuresQG12 Total des heures supplementaires travaillees sur l’annee HeuresQG13 Total de temps perdu sur l’annee HeuresQG14 Nombre annuel de demissions NombreQG15 Nombre total d’accidents NombreQG16 Nombre total de poursuites en justice NombreQG17 Nombre total d’ordinateurs de bureau NombreQG18 Nombre total de vehicules legers NombreQG19 Consommation de carburant par les vehicules legers m3QG20 Nombre total de vehicules poids lourds NombreQG21 Consommation de carburant par les vehicules poids lourds m3

100

Page 101: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur H : Indicateurs financiers

Question Reference LABEL FR UNIT FRQH01 Population reliee au reseau d’eauSAME AS QB01 AND QG01 NombreQH02 Population reliee au reseau d’egoutsSAME AS QC01 AND QG02 NombreQH03 Nombre total de salariesSAME AS QF02 AND QG03 NombreQH04 Revenu annuel total (activite principale) Devise LocaleQH05 Autres revenus Devise LocaleQH06 Charges d’exploitation annuelles totales Devise LocaleQH07 Cout annuel total des depenses d’energie Devise LocaleQH08 Valeur annuelle des comptes radies Devise LocaleQH09 Total des ammortissements annuel Devise LocaleQH10 Investissement en capital realise sur l’annee Devise LocaleQH11 Valeur totale du patrimoine Devise LocaleQH12 Amortissement cumule Devise LocaleQH13 Investissement annuel de maintenance Devise LocaleQH14 Investissement total annuel pour l’environnement (eau) Devise LocaleQH15 Investissement total annuel pour l’environnement (eaux residuaires) Devise LocaleQH16 Revenu annuel total - fourniture d’eau Devise LocaleQH17 Revenu annuel total - services assainissement Devise LocaleQH18 Investissement annuel pour l’environnement, CAPEX (eau) Devise localeQH19 Investissement annuel pour l’environnement, OPEX (eau) Devise localeQH20 Investissement annuel pour l’environnement, CAPEX (eaux residuaires) Devise localeQH21 Investissement annuel pour l’environnement, OPEX (eaux residuaires) Devise locale

101

Page 102: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe CAnalyse des donnees du secteur C

L’etude des valeurs propres representee sur la figure C.1 montre que nouspouvons restreindre notre etude sur les 3 premiers axes. Le pourcentaged’inertie cumulee expliquee par ces axes est de 56%.

Une premiere projection sur les 2 premiers axes factoriels representee surla figure C.2 montre que les variables QC01, QC02, QC03, QC05, QC06,QC08, QC10, QC16, QC20 contribuent fortement a l’axe 1, puisqu’elles sontproches du cercle unite. Nous pouvons confirmer ces contributions par l’etudedes correlations des variables avec les axes (tableau C.1). De plus, nous pou-vons remarquer qu’il n’y a pas des variables anti-correles suivant cet axe.Les variables qui contribuent au plus a l’axe 2 sont QC14 et QC19 avec descorrelations 0.798 et 0.62 respectivement.

Apres cette caracterisation des axes par les variables, nous presentons laprojection des individus (figure C.3) dans le premier plan factoriel en fonc-tion de leur contribution au plan. Cette figure montre que les filiales dont lesContract Reference sont 31, 28, 46, 48, 10 sont caracterisees par les indica-teurs QC01, QC02, QC03, QC05, QC06, QC08, QC10, QC16, QC20. De plus,nous remarquons que les filiales 30, 32, 78, 10, 49, 31, 28 sont caracteriseespar les idicateurs QC14 et QC19.

L’etude du plan constitue des axes 1 et 3 n’apportant pas d’informationsupplementaire par rapport au plan constitue des axes 2 et 3, nous nous li-mitons a l’etude de ce dernier.

La figure C.4 fait apparaıtre qu’il n’y a pas des variables qui contribuentfortement a l’axe 3, en effet seuls les indicateurs QC07 et QC23 ont des cor-

102

Page 103: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. C.1 – Pourcentage explique par les valeurs propres.

103

Page 104: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Axe 1 Axe 2 Axe 3QC01 0,76 0,4434 -0,3QC02 0,68 0,5 -0,24QC03 0,68 0,43 0,17QC04 0,56 -0,35 0,46QC05 0,8 -0,364 -0,02QC06 0,754 -0,52 0,004QC07 0,27 -0,252 0,61QC08 0,78 -0,41 -0,227QC09 0,74 -0,38 0,063QC10 0,85 0,19 0,22QC11 0,32 0,17 0,297QC12 0,29 0,22 0,14QC13 0,63 0,45 0,084QC14 0,32 0,798 -0,2QC15 -0,013 -0,062 0,443QC16 0,8 0,32 -0,032QC17 0,072 -0,12 -0,03QC18 0,51 -0,28 0,462QC19 0,227 0,623 0,046QC20 0,68 -0,35 -0,25QC21 -0,016 -0,0014 0,26QC22 0,57 -0,39 -0,46QC23 0,18 -0,38 -0,55QC24 0,004 -0,34 -0,23

Tab. C.1 – Correlation des variables avec les facteurs.

104

Page 105: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. C.2 – Projection des variables dans le premier plan factoriel.

105

Page 106: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. C.3 – Projection des individus dans le premier plan factoriel.

relations avec cet axe de 0.612 et -0.554 respectivement.

Sur la figure C.5, nous remarquons que les filiales 31, 46, 28, 78, 20, et 12caracterisees par les indicateurs QC07, et que les filiales 48 et 18 sont souventcaracterisees par les indicateurs QC23.

106

Page 107: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. C.4 – Projection des variables dans le plan constitue de l’axe 2 et 3.

107

Page 108: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. C.5 – Projection des individus dans dans le plan constitue de l’axe 2 et3.

108

Page 109: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe DAnalyse des donnees du secteur D

L’etude des valeurs propres representee sur la figure D.1 montre que nouspouvons restreindre notre etude sur les 2 premiers axes. Pour une meilleurerepresentation nous etudierons en plus l’axe 3. Le pourcentage d’inertie cu-mulee expliquee par ces axes est de 68.13%.

Une premiere projection sur les 2 premiers axes factoriels representee surla figure D.2, montre que les variables QD01, QD02, QD03, QD04, QD05,QD06, QD07, QD08, QD09, QD10, QD11, QD12, QD13, QD16, QD27 contri-buent fortement a l’axe 1. Nous pouvons confirmer ces contributions parl’etude des correlations des variables avec les axes (tableau D.1). De plus,nous pouvons remarquer qu’il n’y a pas des variables anti-correles suivantcet axes. Les variables QD17, QD18, QD28 contribuent fortement a l’axe 2.

Apres la carcterisation des axes par les variables, nous presentons la pro-jection des individus (figure D.3) dans le premier plan factoriel en fonctionde leur contribution au plan.

Cette figure montre que les filiales, dont les Contract Reference sont 28,78, 46, 68, sont souvent caracterisees par les indicateurs QD01, QD02, QD03,QD04, QD05, QD06, QD07, QD08, QD09, QD10, QD11, QD12, QD13, QD16,QD27. De plus nous remarquons que les filiales 48, 18 sont fortement carac-terisees par les idicateurs QD28, QD17, QD18, contraitrement aux les filiales68 et 49 .

L’etude du plan constitue de l’axe 2 et 3 n’apportant pas d’informationsupplementaire par rapport au plan constitue de l’axe 1 et 3, nous nouslimiterons a l’etude de ce dernier.

109

Page 110: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Axe 1 Axe 2 Axe 3QD01 0,78 0,22 0,093QD02 0,718 -0,32 0,36QD03 0,93 -0,1 -0,11QD04 0,8 -0,23 -0,177QD05 0,87 0,08 0,21QD06 0,95 -0,07 -0,1QD07 0,75 -0,04 -0,2QD08 0,96 0,12 0,03QD09 0,94 0,1 -0,057QD10 0,85 0,06 -0,38QD11 0,87 0,14 0,3QD12 0,92 0,1 0,06QD13 0,63 0,08 0,55QD14 0,1 -0,19 0,1QD16 0,95 0,042 0,11QD17 0,03 -0,78 0,27QD18 0,04 -0,76 0,27QD19 0,44 0,32 0,03QD21 0,173 -0,36 -0,6QD22 0,37 -0,15 -0,68QD23 0,22 -0,47 -0,079QD24 0,312 -0,29 0,14QD27 0,87 0,02 -0,38QD28 -0,02 -0,89 -0,07QD29 0,2 -0,008 0,48

Tab. D.1 – Correlation des variables avec les facteurs.

110

Page 111: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. D.1 – Pourcentage explique par les valeurs propres.

La figure D.4 montre qu’il n’y a pas des variables qui contribuent forte-ment a l’axe 3. En effet, seuls les indicateurs QD21 et QD22 ont des corre-lations de -0.612 et -0.689 respectivement avec l’axe. Sur la figure D.5, nousremarquons que les filiales 46 et 20 sont caracterisees par les indicateursQD21 et QD22, et ce n’est pas le cas pour la filiale 68.

111

Page 112: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. D.2 – Projection des variables dans le premier plan factoriel.

112

Page 113: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. D.3 – Projection des individus dans le premier plan factoriel.

113

Page 114: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. D.4 – Projection des variables sur le plan constitue de l’axe 1 et 3.

114

Page 115: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. D.5 – Projection des individus sur le plan constitue de l’axe 1 et 3.

115

Page 116: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe EAnalyse des donnees du secteur E

L’etude des valeurs propres representee sur la figure E.1 montre que nouspouvons restreindre notre etude sur les 3 premiers axes. Le pourcentaged’inertie cumulee expliquee par ces axes est de 51.7%.

Une premiere projection sur les 2 premiers axes factoriels representee surla figure E.2, montre que les variables QE01, QE04, QE06, QE08, QE09,QE10, QE11, QE12, QE15, QE16, QE19, QE20, QE25, QE26, QE32, QE33contribuent fortement a l’axe 1. Nous pouvons confirmer ces contributionspar l’etude des correlations des variables avec les axes (tableau E.1). De plus,nous pouvons remarquer qu’il n’y a pas des variables anti-correles suivant cetaxe.

Nous remarquons suivant l’axe 2 une anti-correlation remarquable entreles indicateurs QE31, QE18, QE34 et QE03 d’une part et les indicateursQE45, QE24, QE21, et QE25 d’autre part.

Apres la caracterisation des axes par les variables, nous presentons la pro-jection des individus (figure E.3) dans le premier plan factoriel en fonctionde leur contribution au plan. Cette figure montre que les filiales dont lesContract Reference sont 35, 32 et 19 sont caracterisees par les indicateursQE01, QE04, QE06, QE08, QE09, QE10, QE11, QE12, QE15, QE16, QE19,QE20, QE25, QE26, QE32, QE33. De plus, nous remarquons que les filiales35, 3 et 19 sont caracterisees par QE21, QE24 et QE45 et non pas par QE07,QE17 et QE34, et inversement pour les filiales 31, 49, 32 et 37.

L’etude du plan constitue des axes 1 et 3 n’apportant pas d’informationsupplementaire par rapport au plan constitue des axes 2 et 3, nous nous li-

116

Page 117: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. E.1 – Pourcentage explique par les valeurs propres.

117

Page 118: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Axe 1 Axe 2 Axe 3QE01 0,08 0,06 0,2QE02 0,82 0,35 -0,2QE03 0,45 0,58 0,25QE04 0,69 -0,08 -0,5QE05 0,715 -0,098 -0,53QE06 0,64 -0,53 0,05QE07 0,35 0,56 0,13QE08 0,72 0,08 -0,51QE09 0,83 -0,32 -0,069QE10 0,82 -0,25 -0,21QE11 0,71 -0,42 0,12QE12 0,76 0,38 -0,22QE13 0,25 0,14 -0,15QE14 0,434 0,12 0,16QE15 0,64 0,39 -0,26QE16 0,65 0,49 0,04QE17 0,58 0,19 -0,31QE18 0,53 0,57 0,35QE19 0,69 0,37 0,18QE20 0,69 0,3 0,15QE21 0,506 -0,63 0,32QE22 0,47 -0,49 0,44QE23 -0,074 0,003 0,005QE24 0,45 -0,62 0,24QE25 0,7 -0,58 0,1QE26 0,73 -0,39 0,22QE27 0,34 -0,36 0,39QE31 0,49 0,6 0,15QE32 0,7 -0,05 -0,37QE33 0,75 0,16 -0,29QE34 0,47 0,52 0,21QE35 0,44 0,54 0,248QE36 0,12 -0,08 0,29QE37 0,12 -0,08 0,29QE38 0,14 -0,03 -0,34QE39 0,15 -0,15 0,38QE40 0,51 -0,15 0,42QE41 0,18 0,39 0,22QE42 0,22 0,42 0,38QE43 0,17 0,42 0,34QE44 0,16 0,402 0,34QE45 0,59 -0,67 0,065QE46 0,62 -0,54 -0,3QE47 -0,04 -0,11 0,27QE48 -0,094 -0,12 0,2QE49 0,37 -0,25 0,5QE50 0,32 -0,06 0,25

Tab. E.1 – Correlation des variables avec les facteurs.

118

Page 119: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. E.2 – Projection des variables dans le premier plan factoriel.

119

Page 120: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. E.3 – Projection des individus dans le premier plan factoriel.

120

Page 121: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. E.4 – Projection des variables dans le plan constitue de l’axe 2 et 3.

miterons a l’etude de ce dernier.

La figure E.4 montre qu’il n’y a pas des variables qui contribuent forte-ment a l’axe 3. En effet seuls les indicateurs QE04, QE05, QE08, et QE49ont des correlations -0.5, -0.53,-0.51 et 0.5 respectivement, superieur a 0.5.

Sur la figure E.5, nous remarquons que les filiales 9, 19 et 63 sont souventcaracterisees par les indicateurs QE04, QE05, QE08 et ce n’est pas le cassurtout pour les filiales 31 et 49.

121

Page 122: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. E.5 – Projection des individus dans dans le plan constitue de l’axe 2 et3

122

Page 123: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe FClassification des indicateurs dusecteur B

L’application de la methode hierarchique avec le critere d’agregation deWard sur le tableau de proximite calcule a partir des indicateurs du secteurB, en tenant compte des 2 premiers axes principaux, donne le dendrogrammerepresentee sur la figure F.1.

Fig. F.1 – Classification hierarchique appliquee aux indicateurs du secteurB.

123

Page 124: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. F.2 – Application de l’algorithme CM net sur les indicateurs du secteurB.

Au vu de ce graphique nous choisissons de prendre le nombre de groupesegal a trois. En appliquant l’algorithme CM net, nous obtenons les 3 classesrepresentees sur la figure F.2. Nous remarquons que tous les objets (variables)participent a la creation des formes stables. Les elements de ces trois classessont alors :

Classe 1 QB01, QB02, QB03, QB08, QB09, QB16, QB19, QB25Classe 2 QB04, QB05, QB07, QB10, QB11, QB13, QB17, QB22, QB26Classe 3 QB06, QB12, QB14, QB15, QB18, QB20, QB21, QB23, QB24, QB27

Tab. F.1 – Formes stables des indicateurs du secteur B.

.

La figure F.3 montre les micro-classes obtenues en appliquant l’algorithmede Kohonen sur une grille rectangulaire de taille 3×3 et pour 5000 iterations.

124

Page 125: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. F.3 – Les classes de Kohonen, regroupees en 3 macro-classes, apres50000 iterations

La CAH appliquee sur les vecteurs codes est representee sur la figure F.4.

125

Page 126: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. F.4 – Classification hierarchique appliquee sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs dusecteur B, nous presentons les tableaux F.2 et F.3.

126

Page 127: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QB

01

QB

02

QB

03

QB

04

QB

05

QB

06

QB

07

QB

08

QB

09

QB

10

QB

11

QB

12

QB

13

QB

01

++

++

++

++

++

++

+Q

B02

++

++

++

++

++

++

+Q

B03

++

++

++

++

++

++

+Q

B04

++

++

++

++

++

++

+Q

B05

++

++

++

++

++

++

+Q

B06

++

++

++

++

++

++

+Q

B07

++

++

++

++

++

++

+Q

B08

++

++

++

++

++

++

+Q

B09

++

++

++

++

++

++

+Q

B10

++

++

++

++

++

++

+Q

B11

++

++

++

++

++

++

+Q

B12

++

++

++

++

++

++

+Q

B13

++

++

++

++

++

++

+Q

B14

++

++

++

++

++

++

+Q

B15

++

++

++

++

++

++

+Q

B16

++

++

++

++

++

++

+Q

B17

++

++

++

++

++

++

+Q

B18

++

++

-+

-+

--

-+

-Q

B19

++

++

++

++

++

++

+Q

B20

++

++

+-

++

++

++

+Q

B21

++

++

++

++

++

++

+Q

B22

++

++

++

++

++

++

+Q

B23

++

++

++

++

++

++

+Q

B24

--

-+

+-

+-

--

+-

+Q

B25

++

++

++

++

++

++

+Q

B26

++

++

++

++

++

++

+Q

B27

++

++

++

++

++

++

+

Tab. F.2 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur B.

127

Page 128: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QB

14

QB

15

QB

16

QB

17

QB

18

QB

19

QB

20

QB

21

QB

22

QB

23

QB

24

QB

25

QB

26

QB

27

QB

01

++

++

++

++

++

-+

++

QB

02

++

++

++

++

++

-+

++

QB

03

++

++

++

++

++

-+

++

QB

04

++

++

++

++

++

++

++

QB

05

++

++

-+

++

++

++

++

QB

06

++

++

++

-+

++

-+

++

QB

07

++

++

-+

++

++

++

++

QB

08

++

++

++

++

++

-+

++

QB

09

++

++

-+

++

++

-+

++

QB

10

++

++

-+

++

++

-+

++

QB

11

++

++

-+

++

++

++

++

QB

12

++

++

++

++

++

-+

++

QB

13

++

++

-+

++

++

++

++

QB

14

++

++

++

++

++

++

++

QB

15

++

++

++

++

++

++

++

QB

16

++

++

++

-+

+-

-+

++

QB

17

++

++

++

++

++

++

++

QB

18

++

++

++

-+

++

-+

++

QB

19

++

++

++

-+

++

-+

++

QB

20

++

-+

--

++

++

++

++

QB

21

++

++

++

++

++

-+

++

QB

22

++

++

++

++

++

++

++

QB

23

++

-+

++

++

++

++

++

QB

24

++

-+

--

+-

++

+-

+-

QB

25

++

++

++

++

++

-+

++

QB

26

++

++

++

++

++

++

++

QB

27

++

++

++

++

++

-+

++

Tab. F.3 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur B.

128

Page 129: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe GClassification des indicateurs dusecteur D

L’application de la methode hierarchique avec le critere d’agregation deWard sur le tableau de proximite calcule a partir des indicateurs du secteurD, en tenant compte des 2 premiers axes principaux, donne le dendrogrammerepresentee sur la figure G.1.

Fig. G.1 – Classification hierarchique appliquee aux indicateurs du secteurD.

129

Page 130: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Classe 1 QD06, QD08, QD09, QD10, QD12, QD16, QD27Classe 2 QD07, QD14, QD17, QD18, QD23, QD28Classe 3 QD21, QD22, QD24, QD29

Tab. G.1 – Formes stables des indicateurs du secteur D.

Au vu de ce graphique nous choisissons de prendre le nombre de groupesegal a trois. En appliquant l’algorithme CM net, nous obtenons les 3 classesrepresentees sur la figure G.2.

Fig. G.2 – Application de l’algorithme CM net sur des indicateurs du secteurD.

Les objets representes par des carres sont les objets qui n’ont pas participea la creation des formes stables, mais qui ont ete classes selon la methodologie1. Les elements qui forment les formes stables sont presentes sur la table G.1.

.

130

Page 131: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Nous appliquons maintenant l’algorithme des CM floues pour trouver lesdegres d’appartenance de ces objets aux formes stables. Le resultat est re-presente sur la figure G.3.

Fig. G.3 – Application de l’algorithme CM flou sur les indicateurs du secteurD

Ces degres d’appartenances sont presentes dans le tableau G.2.

La figure G.4 montre les micro-classes obtenues en appliquant l’algorithmede Kohonen sur une grille rectangulaire de taille 3×3 et pour 5000 iterations.

131

Page 132: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Indicateurs Classe 1 Classe 2 Classe 3QD01 0.7797 0.2066 0.0137QD02 0.3445 0.6360 0.0195QD03 0.3416 0.6323 0.0262QD04 0.2928 0.6867 0.0205QD05 0.5269 0.4456 0.0275QD11 0.8412 0.1476 0.0112QD13 0.8088 0.1786 0.0125QD19 0.4548 0.4231 0.1222

Tab. G.2 – Degres d’apppartenance moyens des indicateurs aux formesstables.

Fig. G.4 – Les classes de Kohonen, regroupees en 3 macro-classes, apres50000 iterations

La CAH appliquee sur les vecteurs codes est representee sur la figure G.5.

132

Page 133: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. G.5 – Classification hierarchique appliquee sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs dusecteur B, nous presentons les tableaux G.3 et G.4.

133

Page 134: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QD

01

QD

02

QD

03

QD

04

QD

05

QD

06

QD

07

QD

08

QD

09

QD

10

QD

11

QD

12

QD

13

QD

14

QD

01

++

++

++

++

++

++

++

QD

02

++

++

++

++

++

++

++

QD

03

++

++

++

++

++

++

++

QD

04

++

++

++

++

++

++

++

QD

05

++

++

++

++

++

++

++

QD

06

++

++

++

++

++

++

++

QD

07

++

++

++

++

++

++

++

QD

08

++

++

++

++

++

++

++

QD

09

++

++

++

++

++

++

++

QD

10

++

++

++

++

++

++

++

QD

11

++

++

++

++

++

++

++

QD

12

++

++

++

++

++

++

++

QD

13

++

++

++

++

++

++

++

QD

14

++

++

++

++

++

++

++

QD

16

++

++

++

++

++

++

++

QD

17

++

++

++

++

++

++

++

QD

18

++

++

++

++

++

++

++

QD

19

++

++

++

++

++

++

++

QD

21

++

++

++

++

++

++

+-

QD

22

++

++

++

++

++

++

++

QD

23

++

++

++

++

++

++

++

QD

24

++

++

++

++

++

++

++

QD

27

++

++

++

++

++

++

++

QD

28

++

++

++

++

++

++

++

QD

29

++

++

++

++

++

++

++

Tab. G.3 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur D.

134

Page 135: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QD

16

QD

17

QD

18

QD

19

QD

21

QD

22

QD

23

QD

24

QD

27

QD

28

QD

29

QD

01

++

++

++

++

++

+Q

D02

++

++

++

++

++

+Q

D03

++

++

++

++

++

+Q

D04

++

++

++

++

++

+Q

D05

++

++

++

++

++

+Q

D06

++

++

++

++

++

+Q

D07

++

++

++

++

++

+Q

D08

++

++

++

++

++

+Q

D09

++

++

++

++

++

+Q

D10

++

++

++

++

++

+Q

D11

++

++

++

++

++

+Q

D12

++

++

++

++

++

+Q

D13

++

++

++

++

++

+Q

D14

++

++

-+

++

++

+Q

D16

++

++

++

++

++

+Q

D17

++

++

++

++

++

+Q

D18

++

++

++

++

++

+Q

D19

++

++

++

++

++

+Q

D21

++

++

++

++

+-

-Q

D22

++

++

++

++

++

-Q

D23

++

++

++

++

++

+Q

D24

++

++

++

++

++

-Q

D27

++

++

++

++

++

+Q

D28

++

++

-+

++

++

+Q

D29

++

++

--

+-

++

+

Tab. G.4 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur D.

135

Page 136: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe HClassification des indicateurs dusecteur E

L’application de la methode hierarchique avec le critere d’agregation deWard sur le tableau de proximite calcule a partir des indicateurs du secteurE, en tenant compte des 2 premiers axes principaux, donne le dendrogrammerepresentee sur la figure H.1.

Fig. H.1 – Classification hierarchique appliquee aux indicateurs du secteurE.

136

Page 137: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Au vu de ce graphique nous choisissons de prendre le nombre de groupesegal a quatre. En appliquant l’algorithme CM net, nous obtenons les 4classesrepresentees sur la figure H.2.

Fig. H.2 – Application de l’algorithme CM net sur des indicateurs du secteurE.

Les objets representes par des carres sont les objets qui n’ont pas participea la creation des formes stables, mais qui ont ete classes selon la methodo-logie 1. Les elements qui forment les formes stables sont presentes dans latableau H.1.

.

Nous appliquons maintenant l’algorithme des CM floues pour trouver lesdegres d’appartenance de ces objets aux formes stables.

137

Page 138: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Classe 1 QE08, QE12, QE15, QE16, QE17, QE18, QE19, QE20QE31, QE34, QE35, QE49

Classe 2 QE02, QE03, QE10Classe 3 QE11, QE21, QE22, QE40, QE46Classe 4 QE01, QE06, QE07, QE13, QE14, QE23, QE24, QE32

QE36, QE37, QE38, QE41,QE42, QE43,QE44,QE45,QE47,QE50

Tab. H.1 – Formes stables des indicateurs du secteur E.

Fig. H.3 – Application de l’algorithme CM flou sur les indicateurs du secteurE.

Ces degres d’appartenances sont presentes dans le tableau H.2.

138

Page 139: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Indicateurs Classe 1 Classe 2 Classe 3 Classe 4QE04 0.2163 0.3644 0.2899 0.1295QE05 0.0236 0.9602 0.0117 0.0045QE09 0.0399 0.1241 0.7984 0.0377QE25 0.0219 0.0545 0.8967 0.0269QE26 0.0215 0.0678 0.8901 0.0206QE27 0.0150 0.0408 0.9273 0.0169QE33 0.2220 0.4389 0.2389 0.1002QE39 0.0261 0.0901 0.8603 0.0235QE48 0.0014 0.0036 0.9934 0.0017

Tab. H.2 – Degres d’apppartenance moyens des indicateurs aux formesstables.

La figure H.4 montre les micro-classes obtenues en appliquant l’algo-ritthme de Kohonen sur une grille rectangulaire de taille 3×4 et pour 5000iterations.

139

Page 140: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. H.4 – Les classes de Kohonen, regroupees en 3 macro-classes, apres50000 iterations.

La CAH appliquee sur les vecteurs codes est representee sur la figure H.5.

140

Page 141: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. H.5 – Classification hierarchique appliquee sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs dusecteur B, nous presentons les tableaux H.3, H.5 et H.4 .

141

Page 142: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QE01

QE02

QE03

QE04

QE05

QE06

QE07

QE08

QE09

QE10

QE11

QE12

QE13

QE14

QE15

QE01

++

+-

++

--

++

+-

-+

-Q

E02

++

++

++

++

++

++

++

+Q

E03

++

++

++

++

++

++

++

+Q

E04

-+

++

++

++

++

++

++

+Q

E05

++

++

++

++

++

++

++

+Q

E06

++

++

++

++

++

++

++

+Q

E07

-+

++

++

++

++

-+

++

+Q

E08

-+

++

++

++

++

++

++

+Q

E09

++

++

++

++

++

++

++

+Q

E10

++

++

++

++

++

++

++

+Q

E11

++

++

++

-+

++

++

++

+Q

E12

-+

++

++

++

++

++

++

+Q

E13

-+

++

++

++

++

++

++

+Q

E14

++

++

++

++

++

++

++

+Q

E15

-+

++

++

++

++

++

++

+Q

E16

-+

++

++

++

++

++

++

+Q

E17

-+

++

++

++

++

++

++

+Q

E18

++

++

++

++

++

++

++

+Q

E19

-+

++

++

++

++

++

++

+Q

E20

-+

++

++

++

++

++

++

+Q

E21

++

++

++

-+

++

++

-+

+Q

E22

++

++

++

-+

++

++

--

+Q

E23

--

--

--

-+

--

--

--

-Q

E24

++

++

++

-+

++

++

++

+Q

E25

++

++

++

-+

++

++

-+

+Q

E26

++

++

++

++

++

++

++

+Q

E27

++

++

++

-+

++

++

--

+Q

E31

++

++

++

++

++

++

++

+Q

E32

-+

++

++

++

++

++

++

+Q

E33

++

++

++

++

++

++

++

+Q

E34

++

++

++

++

++

++

++

+Q

E35

-+

++

++

++

++

++

++

+Q

E36

+-

++

++

--

++

++

--

+Q

E37

+-

++

++

--

++

++

--

+Q

E38

-+

-+

++

-+

++

++

+-

+Q

E39

++

++

++

-+

++

++

++

+Q

E40

++

++

++

++

++

++

-+

-Q

E41

++

++

++

++

++

++

++

+Q

E42

++

++

++

++

++

++

+-

+Q

E43

++

++

++

++

++

-+

+-

+Q

E44

++

++

++

++

++

-+

+-

+Q

E45

++

++

++

++

++

++

++

+Q

E46

++

++

++

++

++

++

+-

+Q

E47

++

++

++

-+

++

++

--

+Q

E48

++

++

++

-+

++

++

-+

+Q

E49

-+

++

++

++

++

++

-+

+Q

E50

++

++

++

++

++

++

--

+

Tab. H.3 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur E.

142

Page 143: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QE16

QE17

QE18

QE19

QE20

QE21

QE22

QE23

QE24

QE25

QE26

QE27

QE31

QE32

QE33

QE34

QE35

QE36

QE01

--

-+

--

++

-+

++

++

-+

+-

QE02

++

++

++

+-

++

++

++

++

+-

QE03

++

++

++

+-

++

++

++

++

++

QE04

++

++

++

+-

++

++

++

++

++

QE05

++

++

++

+-

++

++

++

++

++

QE06

++

++

++

+-

++

++

++

++

++

QE07

++

++

+-

--

--

+-

++

++

+-

QE08

++

++

++

++

++

++

++

++

+-

QE09

++

++

++

+-

++

++

++

++

++

QE10

++

++

++

+-

++

++

++

++

++

QE11

++

++

++

+-

++

++

++

++

++

QE12

++

++

++

+-

++

++

++

++

++

QE13

++

++

+-

--

+-

+-

++

++

+-

QE14

++

++

++

--

++

+-

++

++

+-

QE15

++

++

++

+-

++

++

++

++

++

QE16

++

++

++

+-

++

++

++

++

++

QE17

++

++

++

+-

++

++

++

++

+-

QE18

++

++

++

+-

++

++

++

++

++

QE19

++

++

++

+-

++

++

++

++

++

QE20

++

++

++

+-

++

++

++

++

++

QE21

++

++

++

+-

++

++

++

++

+-

QE22

++

++

++

+-

++

++

++

++

++

QE23

--

--

--

-+

--

--

--

--

--

QE24

++

++

++

+-

++

++

++

++

+-

QE25

++

++

++

+-

++

++

++

++

++

QE26

++

++

++

+-

++

++

++

++

++

QE27

++

++

++

+-

++

++

++

++

++

QE31

++

++

++

+-

++

++

++

++

++

QE32

++

++

++

+-

++

++

++

++

++

QE33

++

++

++

+-

++

++

++

++

++

QE34

++

++

++

+-

++

++

++

++

++

QE35

++

++

++

+-

++

++

++

++

++

QE36

+-

++

+-

+-

-+

++

++

++

++

QE37

++

++

+-

+-

--

++

++

++

++

QE38

-+

--

+-

--

-+

--

-+

+-

-+

QE39

++

++

++

+-

++

++

++

++

+-

QE40

++

++

++

+-

++

++

++

++

+-

QE41

++

++

+-

--

++

++

++

++

++

QE42

++

++

++

++

-+

++

++

++

++

QE43

++

++

+-

-+

-+

++

++

++

+-

QE44

++

++

+-

--

-+

++

++

++

+-

QE45

++

++

++

+-

++

++

++

++

++

QE46

++

++

++

+-

++

++

++

++

++

QE47

++

++

++

+-

-+

++

++

++

+-

QE48

++

++

++

+-

++

++

++

++

+-

QE49

++

++

++

+-

++

++

++

++

++

QE50

++

-+

++

++

++

++

++

++

+-

Tab. H.4 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur E.

143

Page 144: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

QE37

QE38

QE39

QE40

QE41

QE42

QE43

QE44

QE45

QE46

QE47

QE48

QE49

QE50

QE01

+-

++

++

++

++

++

-+

QE02

-+

++

++

++

++

++

++

QE03

+-

++

++

++

++

++

++

QE04

++

++

++

++

++

++

++

QE05

++

++

++

++

++

++

++

QE06

++

++

++

++

++

++

++

QE07

--

-+

++

++

++

--

++

QE08

-+

++

++

++

++

++

++

QE09

++

++

++

++

++

++

++

QE10

++

++

++

++

++

++

++

QE11

++

++

++

--

++

++

++

QE12

++

++

++

++

++

++

++

QE13

-+

+-

++

++

++

--

--

QE14

--

++

+-

--

+-

-+

+-

QE15

++

+-

++

++

++

++

++

QE16

+-

++

++

++

++

++

++

QE17

++

++

++

++

++

++

++

QE18

+-

++

++

++

++

++

+-

QE19

+-

++

++

++

++

++

++

QE20

++

++

++

++

++

++

++

QE21

--

++

-+

--

++

++

++

QE22

+-

++

-+

--

++

++

++

QE23

--

--

-+

+-

--

--

-+

QE24

--

++

+-

--

++

-+

++

QE25

-+

++

++

++

++

++

++

QE26

+-

++

++

++

++

++

++

QE27

+-

++

++

++

++

++

++

QE31

+-

++

++

++

++

++

++

QE32

++

++

++

++

++

++

++

QE33

++

++

++

++

++

++

++

QE34

+-

++

++

++

++

++

++

QE35

+-

++

++

++

++

++

++

QE36

+-

--

++

--

++

--

+-

QE37

+-

--

++

--

++

--

+-

QE38

-+

-+

++

++

++

+-

--

QE39

--

++

++

++

++

++

+-

QE40

-+

++

++

++

++

++

++

QE41

++

++

++

++

++

--

++

QE42

++

++

++

++

++

-+

++

QE43

-+

++

++

++

++

-+

++

QE44

-+

++

++

++

++

-+

++

QE45

++

++

++

++

++

++

++

QE46

++

++

++

++

++

++

++

QE47

-+

++

--

--

++

++

+-

QE48

--

++

-+

++

++

++

+-

QE49

+-

++

++

++

++

++

++

QE50

--

-+

++

++

++

--

++

Tab. H.5 – Signe de relation lineaire de Pearson entre les indicateurs dusecteur E.

144

Page 145: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe II.1 Segmentation des filiales du secteur B

La figure I.1 montre les micro-classes obtenues en appliquant l’algoritthmede Kohonen sur une grille de taille 3×4 et pour 5000 iterations.

Fig. I.1 – Les classes de kohonen, regroupees en 4 macro-classes, apres 50000iterations.

145

Page 146: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La CAH appliquee sur les vecteurs codes est representee sur la figure I.2.

Fig. I.2 – Classification hierarchique appliquee sur les vecteurs codes.

146

Page 147: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe JJ.1 Segmentation des filiales du secteur C

La figure J.1 montre les micro-classes obtenues en appliquant l’algoritthmede Kohonen sur une grille de taille 3×3 et pour 4000 iterations.

Fig. J.1 – Les classes de kohonen, regroupees en 6 macro-classes, apres 40000iterations.

147

Page 148: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La CAH appliquee sur les vecteurs codes est representee sur la figure J.2.

Fig. J.2 – Classification hierarchique appliquee sur les vecteurs codes.

148

Page 149: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe KK.1 Segmentation des filiales du secteur D

La figure K.1 montre les micro-classes obtenues en appliquant l’algo-ritthme de Kohonen sur une grille de taille 3×3 et pour 4000 iterations.

Fig. K.1 – Les classes de kohonen, regroupees en 4 macro-classes, apres 40000iterations.

149

Page 150: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La CAH appliquee sur les vecteurs codes est representee sur la figure K.2.

Fig. K.2 – Classification hierarchique appliquee sur les vecteurs codes.

150

Page 151: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe LL.1 Segmentation des filiales du secteur E

La figure L.1 montre les micro-classes obtenues en appliquant l’algo-ritthme de Kohonen sur une grille de taille 3×3 et pour 4000 iterations.

Fig. L.1 – Les classes de kohonen, regroupees en 4 macro-classes, apres 40000iterations.

151

Page 152: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

La CAH appliquee sur les vecteurs codes est representee sur la figure L.2.

Fig. L.2 – Classification hierarchique appliquee sur les vecteurs codes.

152

Page 153: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Annexe MDescription, representation etPretraitement des donnees de la basefiliales/ratios

M.1 Introduction

Nous nous interessons a la deuxieme base de donnees fournie par l’en-treprise, qui met en relation les filiales et les ratios. En fait, nous effec-tuons la meme demarche que celle que nous avons suivie pour la base fi-liales/indicateurs (cf. chapitre 5). De plus, nous presentons quelques resultatsobtenus sur cette nouvelle base.

M.2 Description des donnees

L’entreprise SUEZ Environnement, en se basant sur les questionnaires re-cueillis, etablit une nouvelle base de donnees mettant en relation les filiales(individus) et les ratios (variables). En fait, les ratios de chaque secteur sontcalcules a partir des indicateurs de ce secteur, par des expressions ou rela-tions mathematiques decrites par les experts de l’entreprise.Comme nous avons deja traite la base de donnees filiales/indicateurs pour lesannees 2001, 2002, 2003 et 2004, nous traitons maintenant la base de donneesfiliales/ratios correspondante.

Les donnees brutes sont presentees dans des fichiers Excel, les filiales sontdecrites par leur Contract Reference, et les secteurs sont toujours representespar les symboles A a F. Les nombres de ratios calcules dans chaque secteur

153

Page 154: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

sont presentes dans le tableau M.1.

Secteur Nombre de ratiosA 26B 42C 30D 27E 36

Tab. M.1 – Nombre de ratios par secteur.

M.3 Caracteristiques des filiales

Afin d’evaluer caracteristiques des filiales, et comme nous l’avons fait auchapitre 5, nous etablissons un graphe qui permet de visualiser les caracte-ristiques des individus pour un secteur et une annee donnes. Par exemple,nous representons les caracteristiques des filiales du secteur A pour l’annee2004 ( figure M.1).

154

Page 155: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. M.1 – Caracteristique des filiales du domaine A pour l’annee 2004.

A l’intersection d’une ligne verticale avec une ligne horizontale, on affiche

155

Page 156: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

un carre dont la couleur varie en fonction du status de la valeur du ratio :valeur existante (couleur bleu), valeur manquante (couleur rouge fonce) ouvaleur inexistante (ou hors service, en couleur jaune). Nous remarquons queles filiales qui ont des valeurs inexistantes (une ligne horizontale jaune) pourun secteur donne sont les memes filiales que celles deja identifiees lors dutraitement de la premiere base, ce qui est tout a fait normal.Comment interpreter une ligne verticale jaune ? En fait en se referant a ladescription detaillee des ratios, nous remarquons qu’il existe des ratios inuti-lisables Not in use comme le ratio PIA06, ce qui implique le fait d’avoir unratio inexistant.

M.4 Valeurs manquantes

Il est utile de representer le nombre de valeurs manquantes pour chaquefiliale dans un secteur et pour une annee donnes, ce qui donne une idee pourle traitement des valeurs manquantes. Comme exemple, nous representons lespourcentages des valeurs manquantes des filiales du secteur A pour l’annee2004 (voir figures M.2 et M.3).

Fig. M.2 – Pourcentage des valeurs manquantes pour les individus du do-maine A, pour l’annee 2004.

156

Page 157: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. M.3 – Pourcentage des valeurs manquantes pour les individus du do-maine A, pour l’annee 2004.

Notons qu’une valeur negative denote les individus qui ne traitent pas cesecteur. Comme nous l’avons fait au chapitre 5, nous avons determine d’unemaniere heuristique qu’il n’est pas pertinent de reconstituer des individusdont plus que 30 % des valeurs sont manquantes dans un secteur donne. Iln’est pas non plus pertinent de laisser des variables (ratios) dont plus de50% des valeurs sont manquantes. Nous dressons cinq nouveaux tableaux,ou chaque tableau concerne un secteur et non pas une annee. Les donneesconcernant chaque secteur (dans la periode de 4 ans) seront stockes les unesau dessous des autres dans les tableaux. Nous eliminons les filiales dont plusde 30 % des valeurs sont manquantes dans un secteur et pour une annee don-nee, et des variables (ratios) dont plus de 50% des valeurs sont manquantes etdes individus qui ne travaillent pas sur un secteur donne, nous obtenons cinqnouveaux tableaux, dont les dimensions sont resumes dans le tableau M.2.

Une fois ces nouveaux tableaux generes, nous effectuons la transforma-tion z-scores et nous appliquons la meme technique d’estimation que celleappliquee au chapitre 5. Dans la suite de notre etude de la base de donneesfiliales/ratios, nous utiliserons ces nouveaux tableaux.

157

Page 158: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Secteur Dimensions des ratiosA 162 ×23B 155 ×39C 116 ×28D 109 ×26E 125 ×32

Tab. M.2 – Nouvelle representation des donnees.

M.5 Valeurs atypiques

Pour detecter les valeurs atypiques, nous appliquons une technique, diteinformelle, base sur la representation du nuage de points dans les deux pre-miers axes principaux obtenus par ACP (cf. chapitre 5). Nous representonsen exemple les valeurs atypiques du secteur A.les valeurs atypiques detectees dans les differents secteurs sont resumees dansle tableau M.3.

Secteur filiales atypiquesA 21, 31, 55, 28B 37, 42, 43C 28, 48, 43D 28, 44, 55, 90, 42E 63, 96

Tab. M.3 – Valeurs atypiques detectes dans les differents secteurs.

158

Page 159: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Fig. M.4 – Representation des donnees atypiques

159

Page 160: Fouille de donn´ees pour l’analyse des performances …moustapha.doumiati/Master.pdf · ij Poids de connexion dirig´ee du neurone j vers le neurone i f Fonction de transfert du

Bibliographie

[1] Francois-Xavier Jollois. Contribution de la classification automatique ala fouille de donnees. These de Doctorat, Universite de Metz, 12 de-cembre 2003.

[2] E-G.Talbi. Fouille de donnees(Data Mining)-Un tour d’horizon-. Labo-ratoire d’informatique de Lille.

[3] Viviane Planchon. Traitement des valeurs aberrantes : concepts actuelset tendances generales. Biotechnol.Argon.Soc.Environ.2005 9(1), 19-34.

[4] M.Cruciano,Jean-pierre Asselin de Beauville et R.Bone. Methodes fac-torielles pour l’analyse des donnees. Lavoisier,Paris,2004.

[5] Gerard Govaert et Christophe Ambroise. DEA Majeur TIS, TI01-Analyse des donnees. Universite de Technologie de Compiegne.

[6] A.P.Reynolds, G.Richards et V.J.Rayward-Smith. The application of k-medoids and PAM to clustering of rules. Universite de East Anglia, Nor-wich.

[7] Bernard Dubuisson. Diagnostic et reconnaissance des formes. Hermes,Paris, 1994.

[8] Youssef Harkouss. Application de reseaux de neurones a la modelisationde composants et de dispositifs de micro-ondes non lineaires. These deDoctorat. Universite de Limoges, 8 decembre 1998.

[9] Gerard Govaert et Christophe Ambroise. Module SY09. Universite deTechnologie de Compiegne.

[10] Patrick Letremy. Traitement de donnees qualitatives par des algorithmesfondes sur l’algorithme de Kohonen. Universite de Paris 1.

160