31
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI

DATA MINING Analyses de données symboliques sur les

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DATA MINING Analyses de données symboliques sur les

Master 2 Professionnel

-

Informatique Décisionnelle

DATA MINING

-

Analyses de données symboliques sur

les restaurants

Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY

Seghir SADAOUI

Page 2: DATA MINING Analyses de données symboliques sur les

2

SOMMAIRE

I – Introduction ......................................................................................................................... 3

II – Présentation du Data Mining ............................................................................................ 4

1 – Data Mining ................................................................................................................................. 4

2 – SODAS ......................................................................................................................................... 4

3 – Autres logiciels utilisés ................................................................................................................ 6

III – Présentation des données ................................................................................................. 6

1 – Choix de la base de données ....................................................................................................... 6

2 – Sources des données .................................................................................................................... 7

3 – Eléments constituant la base de données .................................................................................. 7 a) Vue globale de la base de données ...................................................................................................... 7 b) Vue détaillée de la base de données .................................................................................................... 8

4 – Choix des concepts et des individus ......................................................................................... 10

5 – Création des tables nécessaires à l’étude ................................................................................ 10

IV – Importation sous DB2SO ................................................................................................ 12

1 – Présentation de DB2SO ............................................................................................................ 12

2 – Importation des tables .............................................................................................................. 12

V – Utilisation de SODAS et analyses des données ............................................................... 16

1 – Méthode Symbolic Object Editor – dite SOE ......................................................................... 16

2 – Méthode Elementary Statistics On Symbolic Objects – dite STAT ..................................... 22

3 – Méthode de division en classe de concepts homogène – dite DIV ......................................... 25

4 – Méthode Principal Component Analysis – dite PCA ............................................................. 28

VI - Conclusion ....................................................................................................................... 30

VII – Annexes .......................................................................................................................... 31

Page 3: DATA MINING Analyses de données symboliques sur les

3

I – Introduction

Depuis un certain nombre d’années, les entreprises commencent à privilégier une

technique qui consiste à aider à prendre une décision « business » : le Data Mining, ou fouille

de données.

Celui-ci sert à mieux comprendre sa clientèle, comprendre son comportement à partir de ses

caractéristiques, constituer des panels représentatifs de clients, découvrir des niches inconnues

mais rentables, adapter sa politique de fidélisation ; ou bien optimiser l’adéquation de son

offre à la demande adapter sa politique commerciale et sa tarification aux différents segments

de clientèle, adapter ses canaux de distribution et/ou ses forces de ventes à ces segments,

optimiser l’impact et la rentabilité des offres promotionnelles ; ou même donner un ordre de

priorité à ses actions de marketing et/ou de vente mieux cibler ses campagnes de marketing

direct, évaluer la propension d’un prospect ou client à acheter un produit nouveau.

En fait, le Data Mining correspond à l'ensemble des techniques et des méthodes qui à partir de

données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors

que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de

données.

Le Data Mining n'est que l'une des étapes du processus de découverte de connaissances

correspondant précisément à l'extraction des connaissances à partir des données. Avant de

réaliser une étude de Data Mining, il faut donc procéder à l'élaboration d'un Data Warehouse

(Entrepôt de Données), ce que nous ferons partiellement pour ce projet en créant une base de

données relationnelle sur quelques restaurants de France métropolitaine et Corse.

Dans un premier temps, nous définirons plus précisément dans ce rapport le Data Mining, et

nous présenterons le logiciel SODAS que nous allons utiliser pour analyser nos données.

Ensuite nous parlerons de notre base de données, et des questions que l’on peut se poser et

auxquelles nous pourrons répondre par la suite, et préparerons l’étude de cette base de

données par le Data Mining.

Dans un troisième temps, nous expliquerons comment nous avons procédé pour étudier notre

base de données, via - entre autres - le logiciel SODAS.

Enfin, nous conclurons sur ce rapport, présentant entre autres les difficultés rencontrées, les

points forts et faibles de SODAS, et le Data Mining en général.

Page 4: DATA MINING Analyses de données symboliques sur les

4

II – Présentation du Data Mining

1 – Data Mining

Le Data Mining est un ensemble de méthodes et techniques qui permettent la prise de

décisions, à travers la découverte, rapide et efficace, de schémas d’informations inconnus ou

cachés à l’intérieur de grandes bases de données. Ce n’est ni un système d’interrogation de

bases de données, ni un système de statistique et de visualisation. Nombreux sont les

commentateurs ou les utilisateurs qui invoquent le concept de « Data Mining », et tous les

outils précédemment mentionnés y ont été rattachés à un moment ou à un autre. Dans la

réalité, ils appartiennent tous à deux grandes approches de détection de l’information dans les

bases de données :

L’approche « vérification » : l’utilisateur a l’intuition ou l’idée générale du type d’information

qu’il peut obtenir de ses données. Il tire alors profit de sa base de données en "quantifiant" son

intuition. Il est clair que les données extraites, et les décisions qui en découlent, dépendent

exclusivement de l’intuition de l’utilisateur concernant les paramètres importants du problème

(âge, géographie, ...), intuition qui est souvent correcte mais non exhaustive.

L’approche « découverte » (Advanced Data Mining) ou recherche de l’information cachée :

l’utilisateur comprend que la quantité de données dont il dispose étant considérable, la

détection optimale et exhaustive des structures ou relations importantes est totalement hors de

portée de l’utilisateur humain. Il doit alors s’appuyer sur des méthodes avancées d’analyse de

données pour détecter l’information cachée (dont il se peut qu’elle soit la plus intéressante). Il

pourra par exemple procéder à une segmentation de clientèle par ce type de technique, et

détecter des classes ou niches, non identifiées auparavant, qui recèlent un très fort potentiel

d’affaires. Il lui sera alors possible de développer des stratégies marketing finement ciblées en

direction de ces niches, développant ainsi un avantage compétitif majeur.

L’appellation « Data Mining » ne devrait être donnée qu’aux outils capables de détecter

l’information cachée « au plus profond » de la « mine de données ». A l’évidence, cela ne

concerne pas les systèmes d’interrogation de base de données, ni les tableurs, ni les systèmes

statistiques, ni même les systèmes d’analyse de données traditionnels.

2 – SODAS

Il s'agit d'un logiciel prototype public, apte à analyser des données symboliques. Il est

issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir

un cadre aux différentes avancées récentes et futures du domaine.

Son idée générale est la suivante : à partir d'une base de données, construire un tableau de

données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des

concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire

des connaissances par des méthodes d'analyse de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

Partir d'une base de données relationnelle (ORACLE, ACCESS, ...)

Définir ensuite un contexte par des unités statistiques de premier niveau (habitants,

familles, entreprises, accidents, ...), les variables qui les décrivent des concepts (villes,

groupes socio-économiques, scénario d'accident, ...)

Page 5: DATA MINING Analyses de données symboliques sur les

5

Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque

habitant est associé à sa ville).

Ce contexte est défini par une requête de la base.

Nous pouvons construire alors un tableau de données symboliques dont les nouvelles unités

statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de

premier niveau qui leur sont associés.

Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des

histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de

taxonomies), etc., selon le type de variables et le choix de l'utilisateur.

Dès lors, nous pouvons créer un fichier d'objets symboliques sur lequel une douzaine de

méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS

(histogrammes des variables symboliques, classification automatique, analyse factorielle,

analyse discriminante, visualisations graphiques, ...).

Vue d’ensemble de SODAS :

Page 6: DATA MINING Analyses de données symboliques sur les

6

3 – Autres logiciels utilisés

Les principaux fournisseurs de logiciels commerciaux sont :

SAS Institute : SAS Enterprise Miner

Oracle : Data Mining

Décisia : SPAD

Angoss Software : KnowledgeSeeker KnowledgeStudio

SPSS : Clémentine

StatSoft : Statistica

KXEN : Analytic Framework

Insightful : Insightful Miner

Microsoft : SQL Server 2005

Segmentaction : Customer Mining

Business Objects

Les logiciels gratuits sont :

Weka 3

Orange

Tanagra

Alpha Miner

Yale

III – Présentation des données

1 – Choix de la base de données

Pour mener à bien ce projet, nous avons eu besoin de réfléchir sur un sujet possible de

base de données, afin d’en analyser les données avec le logiciel SODAS.

Des études avaient déjà été faites sur des bases de données facilement récupérables dont les

sujets étaient les albums de musiques, les films ou les équipes de football du championnat de

France de Ligue 1.

Pour notre part, nous avons décidé de prendre comme sujet principal les restaurants de

France, avec comme différentes données les nom et adresse d’un restaurant, le type de cuisine

proposé, le nom du chef cuisinier, et ainsi de suite.

Nous parlerons de toutes les variables de description dans la suite de ce rapport.

Le but de ce projet est d’analyser cette base de données afin d’en tirer diverses conclusions

qui pourraient ne pas sauter aux yeux au premier abord.

Page 7: DATA MINING Analyses de données symboliques sur les

7

2 – Sources des données

Afin de trouver différentes données sur les restaurants, nous avons dû rechercher sur

Internet des liens qui nous permettaient de lister facilement et avec le plus de données

possible divers restaurants de France.

Il existe plusieurs liens fournissant ces informations, mais au final, nous n’en avons choisi

qu’un, qui était clair et précis dans ces informations :

http://www.linternaute.com/restaurant/

Pour d’autres données générales comme plat_ typique ou saveur, nous avons nous-même

rempli la base de données.

3 – Eléments constituant la base de données

a) Vue globale de la base de données

Notre base de données est représentée par neuf tables :

restaurant : données principales sur un restaurant

cuisine : types de cuisine utilisés, et données adéquates

option : différents services d’un restaurant

fermeture : jours de fermeture d’un restaurant

chef : les chefs des restaurants

ville : rajoutée - comme les tables suivantes - pour la « taxonomie »

département

pays

continent

Page 8: DATA MINING Analyses de données symboliques sur les

8

Ces tables sont jointes de la manière suivante :

b) Vue détaillée de la base de données

Dans ce chapitre, nous allons détailler les tables données précédemment et

expliquer les attributs qui pourraient être imprécis ou ambigus :

id_restaurant est la clé primaire, l’identifiant des restaurants.

Il est unique pour chaque restaurant

origine_cuisine : identifiant permettant de savoir de quel

pays est originaire le type de cuisine correspondant

id_cuisine, id_fermeture, id_ville, id_chef, id_option : idem

concernant le type de cuisine, les jours de fermeture du

restaurant, sa ville, son chef et ses diverses options

prix min menu : prix minimal d’un menu dans ce restaurant

prix max menu : prix maximal d’un menu

nb_couverts : nombre de couverts maximal dans ce

restaurant

nb_couverts_terrasse : idem en terrasse

nb_employes : nombre d’employés du restaurant

annee_creation : année de création du restaurant

appreciation : note d’appréciation sur cinq du restaurant.

Page 9: DATA MINING Analyses de données symboliques sur les

9

cuisine : type de cuisine

origine_pays : pays d’origine de ce type de cuisine

plat_typique : plat référence de ce type de cuisine

saveur : pareil pour la saveur

prix_moyen : prix moyen général pour ce type de cuisine.

Pour chacun des attributs, autres que l’identifiant, les valeurs

possibles sont OUI ou non.

Pour chacun de ces attributs, autres que l’identifiant, les valeurs

possibles sont OUI ou non ; OUI signifierait que le restaurant ferme le

jour correspondant.

annee_embauche : année d’embauche du chef cuisinier dans le

restaurant auquel il a été attribué.

Chaque ville appartient à un seul département, donné par id_CP.

Chaque département appartient à une région, et à un seul pays, défini

par id_pays.

Page 10: DATA MINING Analyses de données symboliques sur les

10

.

Chaque pays appartient à un seul continent, déterminé par id_continent.

4 – Choix des concepts et des individus

Vu la structure de notre base de données, vous pouvez dégager facilement les concepts

et individus choisis. Nos concepts seront les types de cuisine, et les individus seront les

restaurants eux-mêmes.

Les concepts sont au nombre de dix. Les individus, au nombre de cinquante, avec cinq

restaurants par type de cuisine.

Chaque concept a sa propre description, de même que pour les individus. Le choix de ces

concepts et individus est donc judicieux.

5 – Création des tables nécessaires à l’étude

Pour pouvoir par la suite utiliser notre base de données avec SODAS, il nous faut

écrire sous Access trois requêtes permettant : de regrouper les informations utiles des

individus ainsi que les concepts ; de regrouper des données des concepts ; et de spécifier la

taxonomie.

Requête sdsResto

Cette requête va nous permettre de renvoyer les individus que nous avons choisis - définis

comme individus de premier ordre – leurs caractéristiques, ainsi que les concepts associés.

Nous obtenons donc le tableau suivant, qui représente une partie de la nouvelle table, avec en

première colonne l’individu, en seconde le concept, et ensuite les variables de

descriptions souhaitées pour l’étude :

Voici en SQL la requête ci-dessous :

« SELECT restaurant.nom, cuisine.cuisine, restaurant.prix_min_menu, restaurant.prix_max_menu, restaurant.nb_couverts, restaurant.nb_couverts_terrasse, restaurant.nb_employes, restaurant.annee_creation, chef.sexe, chef.salaire_net_mensuel, chef.annee_embauche, fermeture.lundi, fermeture.mardi, fermeture.samedi, fermeture.dimanche, option.tarif_etudiant, option.tarif_enfant, option.animaux_admis, option.parking, option.air_conditionne, option.acces_handicape, ville.ville, departement.region, pays.pays, continent.continent, restaurant.appreciation

Page 11: DATA MINING Analyses de données symboliques sur les

11

FROM continent INNER JOIN (pays INNER JOIN (departement INNER JOIN (ville INNER JOIN (fermeture INNER JOIN ([option] INNER JOIN (chef INNER JOIN (cuisine INNER JOIN restaurant ON cuisine.id_cuisine = restaurant.id_cuisine) ON chef.id_chef = restaurant.id_chef) ON option.id_option = restaurant.id_option) ON fermeture.id_fermeture = restaurant.id_fermeture) ON ville.id_ville = restaurant.id_ville) ON departement.id_CP = ville.id_CP) ON pays.id_pays = restaurant.origine_cuisine) ON continent.id_continent = pays.id_continent;

»

Requête addResto

Ici, nous ajoutons dans une nouvelle table des données des concepts.

Voici ce que nous obtenons en tableau :

La requête SQL définissant ce tableau est la suivante :

« SELECT cuisine.cuisine, cuisine.plat_typique, cuisine.saveur, cuisine.prix_moyen FROM cuisine;

»

Requêtes pour la taxonomie

Cette dernière requête permet la hiérarchisation entre les villes, départements, pays et

continents.

Nous avons créé deux requêtes pour établir cette hiérarchie :

- taxoRegion, qui associe à une région un ou plusieurs départements et villes

Le tableau correspondant est le suivant :

Et sa requête SQL :

« SELECT ville.ville, departement.[code postal], departement.region FROM departement INNER JOIN ville ON departement.id_CP = ville.id_CP;

»

- taxoContinent, qui associe un pays à un seul continent

Avec comme tableau :

Page 12: DATA MINING Analyses de données symboliques sur les

12

Et comme requête SQL :

« SELECT pays.pays, continent.continent FROM continent INNER JOIN pays ON continent.id_continent = pays.id_continent;

»

IV – Importation sous DB2SO

1 – Présentation de DB2SO

DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un

ensemble de concepts à partir de données stockées dans une base de données relationnelle. Il

est supposé qu’un ensemble d’individus est stocké dans une base de données et que ces

individus sont distribués dans des groupes. Alors, DB2SO peut construire un concept pour

chaque groupe d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur

des domaines de variables peuvent aussi être associées à des concepts générés.

2 – Importation des tables

Ici, nous allons importer notre base de données ainsi que les requêtes créées

précédemment dans DB2SO, afin de pouvoir utiliser SODAS pour analyser notre base.

Dans un premier temps, nous allons donc importer notre base « restaurants de france.mdb » :

Puis nous sélectionnons la source de données :

Page 13: DATA MINING Analyses de données symboliques sur les

13

Ainsi que la base de données :

Puis nous extrayons les individus avec la requête sdsResto :

Nous avons comme résultat :

Page 14: DATA MINING Analyses de données symboliques sur les

14

Modifions à présent les concepts en leur rajoutant des variables descriptives - contenues dans

la base de données. Pour ce faire, allons dans « modify », et utilisons la commande bleutée ci-

dessous :

Nos variables n’ont que des valeurs uniques et non multiples. Ce ne sont pas des intervalles,

donc nous pouvons bien utiliser « Add single-valued variables ».

Exécutons donc addResto :

Voici le résultat de l’exécution :

Page 15: DATA MINING Analyses de données symboliques sur les

15

A présent, exécutons les requêtes de taxonomie. Il faut cette fois-ci utiliser la commande

« Create a taxonomy », par deux fois, pour créer les deux requêtes taxoRegion et

taxoContinent.

Les résultats de cette exécution sont :

Puis au final, nous sauvegardons ce fichier sous le nom « requetes » :

Ainsi sont créés un fichier de type gaj et un autre de type xml.

Puis nous exportons ces données pour créer un fichier sds et pouvoir utiliser SODAS :

Résultat :

Nous pouvons à présent utiliser SODAS pour analyser notre base de données.

Page 16: DATA MINING Analyses de données symboliques sur les

16

V – Utilisation de SODAS et analyses des données

Dans ce chapitre, nous allons vous décrire comment nous avons utiliser le logiciel

SODAS sur notre base de données, à travers plusieurs méthodes. Pour chaque méthode, nous

commenterons nos choix d’attributs et les résultats associés.

Mais il nous faut d’abord importer le fichier « restaurants.sds » créé dans le chapitre

précédent :

Etudions donc maintenant nos données, selon les méthodes.

1 – Méthode Symbolic Object Editor – dite SOE

Grâce à cette méthode, nous allons pouvoir visualiser graphiquement des variables en

deux ou trois dimensions, selon le concept choisi.

Dans la nouvelle version de SODAS, cette méthode s’appelle VIEW.

Il s’agit donc à présent d’insérer cette méthode dans SODAS :

Page 17: DATA MINING Analyses de données symboliques sur les

17

Choisissons tous les paramètres :

Exécutons la méthode :

Nous obtenons un tableau composé des variables des individus choisis avec la requête

sdsResto en colonne, ainsi que celles du concept, ajoutées lors de addResto, et nous avons en

ligne les différents concepts.

Voici une partie de ce tableau :

Page 18: DATA MINING Analyses de données symboliques sur les

18

Choisissons les variables et concepts à étudier. Il nous faut au moins trois variables.

Nous avons décidé ici de choisir les cuisines traditionnelle, bio et chinoise.

En effet, nous avons pris la première car elle représente la cuisine française, la seconde car le

nombre de ces restaurants en France est petit, et la troisième – à l’inverse – est représentée par

une très grande quantité de restaurants en France.

Les variables choisies sont le nombre de couverts et d’employés, l’année de création des

restaurants, le sexe des chefs cuisiniers, ainsi que les régions où ils se trouvent, les prix

moyens de ce genre de restaurant, et s’ils proposent un tarif étudiant.

Voici une vue superposant les trois concepts, avec les variables choisies :

Le vert représente la cuisine traditionnelle. Le rouge, la cuisine bio. Et le bleu, la cuisine

chinoise.

Nous avons modifié l’intervalle des années de création de notre graphique, en lui mettant

l’intervalle [1985-2006] pour une meilleure lisibilité. En effet, nous avions un seul restaurant

traditionnel créé en 1908, les autres ayant une année de création postérieure à 1985.

Page 19: DATA MINING Analyses de données symboliques sur les

19

Une autre représentation de cette superposition est la suivante :

Nous pouvons déduire de ces deux graphiques que :

- les premiers restaurants sont de type traditionnel français : normal, nous sommes

en France… Les autres sont apparus à partir de 1985.

- les chefs-cuisinier sont à 100% masculins dans les restaurants chinois et

traditionnels répertoriés dans notre base de données. Seule la cuisine bio accepte

des femmes comme chefs. C’est plausible, car les femmes ont plus tendance à se

soucier de la nourriture, saine ou non, que les hommes en général.

- le bio essaie de s’importer un peu dans toute la France, tandis que la cuisine

chinoise est consommée surtout dans les régions importantes.

- le traditionnel ne s’intéresse pas trop aux étudiants, ne leur offrant que peu de

réductions, à la différence des cuisines bio et chinoise. C’est une cuisine pour

personnes aisées, un peu comme le bio, mais celle-ci tente de se faire connaître du

grand public et percer dans ce secteur de restauration, à la différence de la cuisine

traditionnelle, évidemment déjà présente en France.

- Les autres renseignements nous montrent que les grands restaurants, sont de type

traditionnel. De plus, un grand nombre de couverts implique un grand nombre

d’employés.

Page 20: DATA MINING Analyses de données symboliques sur les

20

Voici individuellement les mêmes variables :

Cuisine chinoise :

Nous pouvons voir ici que les années de création sont entre 1985 et 2005, nous avons la

vérification du fait qu’il n’y ait aucun chef-cuisinier femme dans ce type de restaurant (de

notre base de données). Le nombre d’employés et de couverts est plus clair en individuel,

qu’avec les superpositions précédentes.

Page 21: DATA MINING Analyses de données symboliques sur les

21

Cuisine traditionnelle :

Page 22: DATA MINING Analyses de données symboliques sur les

22

Une autre représentation graphique pour la cuisine bio :

Cette représentation est en deux dimensions, et les histogrammes ont été remplacés par des

points, plus ou moins gros.

La couleur bleutée relie les valeurs minimales et maximales des variables données.

Ainsi, la région contenant le plus de restaurants bio est la région PACA.

2 – Méthode Elementary Statistics On Symbolic Objects –

dite STAT

Cette méthode permet d’utiliser des statistiques classiques étendues aux variables

symboliques. Elle est appelée « D-STAT » dans la nouvelle version de SODAS.

De la même manière qu’auparavant, il nous faut insérer et exécuter la méthode.

Page 23: DATA MINING Analyses de données symboliques sur les

23

Ici, nous ne pouvons visualiser que les intervalles ou les variables qualitatives. Nous obtenons

selon le type de variables utilisées des histogrammes ou des biplots (pour les intervalles).

Fréquence relative des variables de type intervalle :

Nous avons sélectionné ici toutes nos variables de type intervalle pour observer les fréquences

relatives. Le résultat est le suivant :

Page 24: DATA MINING Analyses de données symboliques sur les

24

Nous nous proposons d’analyser seulement une de ces fréquences relatives : celle du prix

maximal d’un menu.

De ce graphique, nous pouvons extraire les informations suivantes :

- le nombre de classes est de 10. Nous l’avons choisi nous-même

- chacune des classes est de largeur représentant 4,65€

- les prix maximaux des menus proposés dans l’ensemble des restaurants sont

compris entre 13,5 et 60€

- la somme des valeurs maximales des dix classes est égale à 1

- les restaurants chinois proposent des prix maximum de menu compris, selon le

restaurant, entre un peu plus de 13,5€ (exactement 14,8) et 30€. L’écart entre ces

deux valeurs est de 15,2€.

- la troisième classe, de hauteur 0,1799, est comprise entre 22,8€ et 27,45€. Cette

classe signifie en fait que 17,99% des restaurants de notre base de données ont un

prix maximal de menus compris entre 22,8 et 27,45€. De plus, d’après ce

graphique, nous pouvons dire que tous les types de cuisine sont représentées par au

moins un restaurant, qui a un prix maximal de menus compris dans cette tranche.

- de manière générale, à 47,13%, les restaurants proposent des prix maximaux de

menus compris entre 18,15€ et 32,1€

Page 25: DATA MINING Analyses de données symboliques sur les

25

Biplots des variables de type intervalle :

Cette méthode permet a priori de construire un objet symbolique par des rectangles dans un

plan constitué de deux variables de type intervalle, choisies pas l’utilisateur.

Or, voici ce que nous propose la nouvelle version de SODAS, qui nous impose de mettre en

axes des variables quantitatives :

D’une part, nous n’obtenons donc pas de « rectangles ».

D’autre part, l’interprétation ne peut être pertinente pour ce nouveau modèle de

« biplots ». Avant, nous aurions peut-être pu interprété, mais là, cela ne sert à rien. En effet,

les concepts sont placés sur une droite, selon leur prix moyen, et ainsi, il ne sont pas placés

selon leur prix minimal ou maximal des menus : par exemple, les cuisines tex-mex et italienne

n’ont pas le même tarif minimal ou maximal pour leurs menus, mais sont pourtant placés dans

ce plan sur le même point. C’est incohérent.

3 – Méthode de division en classe de concepts homogène –

dite DIV

Cette méthode a pour but de partitionner de manière homogène les concepts en un

nombre de classes défini par l’utilisateur, et en fonction de variables de description.

A partir de questions conditionnelles (if-then) à réponse binaire (oui ou non), nous obtenons

petit à petit un arbre de décision. Ces questions induisent la meilleure partition en deux selon

l’extension du critère d’inertie : maximiser la variance interclasse et minimiser la variance intraclasse.

Page 26: DATA MINING Analyses de données symboliques sur les

26

Dans notre cas, nous avons paramétré un nombre de classes égal à cinq, et nous avons choisi

comme variables de description les différentes options proposées par les restaurants :

- tarif_etudiant

- tarif_enfant

- acces_handicape

- animaux_admis

- parking

- air_conditionne

Voici l’arbre résultant de cette méthode :

La première question posée par la méthode DIV pour effectuer une première division en deux

groupes des dix concepts - ou types de cuisine - est la suivante : « Les animaux sont-ils admis

dans le restaurant ? »

Il y a deux réponses possibles : oui ou non. Nous avons donc deux partitions possibles : le

Cluster 1 ou le Cluster 2 :

Page 27: DATA MINING Analyses de données symboliques sur les

27

Les types de cuisine, dont la majorité des restaurants de notre base de données donnent une

réponse négative à cette question, sont placés à droite de l’arbre. Les autres à gauche,

évidemment :

Ensuite, d’autres questions sont posées selon les groupes.

Par exemple, pour le groupe de types de cuisine tels que « animaux_admis = oui », la

prochaine question est « air_conditionne = oui ? » ; tandis que l’autre groupe aura une autre

question, plus pertinente selon les types de restaurants qu’il reste : « tarif_enfant = oui ? ».

Au final, nous obtenons cinq classes dont les concepts les plus proches selon les options, sont

regroupés ensemble dans une même partition :

L’arbre de partitionnement correspondant est le suivant – les classes étant les clusters donnés

ci-dessus :

Page 28: DATA MINING Analyses de données symboliques sur les

28

4 – Méthode Principal Component Analysis – dite PCA

La méthode d’analyse factorielle en composantes principales consiste à travailler

conjointement avec un groupe de plusieurs variables quantitatives, de façon à prendre en

compte des interactions qui peuvent exister entre elles. Elle permet de projeter les points d’un

espace réel à n dimensions dans un espace à deux dimensions – judicieusement déterminé, et

appelé plan factoriel. La projection des points de ce dernier dans un plan factoriel se fait donc

avec un minimum de pertes d’information.

Dans notre cas, nous avons décidé d’utiliser quatre variables de type intervalle, quatre étant le

minimum de variables nécessaire à l’utilisation de la méthode dans cette version de SODAS.

Ces variables sont :

- prix_max_menu

- nb_employes

- annee_creation

- appreciation

Voici le plan factoriel résultant de cette méthode :

Le premier axe factoriel, permet d’extraire 64,9% des informations.

Le second permet lui d’en extraire 24,5%.

Page 29: DATA MINING Analyses de données symboliques sur les

29

Nous avons aussi comme information :

« Correlations beetween variables and factors (4 vars, 2 fact)= Var. Factor 1 Factor 2 prix_max_m 0.77669 0.97236 nb_employe 0.87235 0.83970 annee_crea 0.38257 0.60987 appreciatio 0.71765 0.84996

»

et

« Interval correlations beetween variables and factors (4 vars,2 fact)=

Variables Factor 1 Factor 2 prix_max_m [-0.32197; 0.88803] [ 0.74604; 0.99737] nb_employe [-0.80784; 0.90932] [-0.90202; 0.83970] annee_crea [-0.99945; 0.38257] [-0.54734; 0.85762] appreciati [-0.71396; 0.84507] [-0.79570; 0.84996]

»

De plus, nous savons que :

Les deux premières informations nous laissent penser, d’après nos connaissances en SAS, que

le premier axe pourrait représenter le nombre d’employés, et le second axe représenterait un

rapport qualité/prix, selon l’année de création.

Ainsi, pour cette interprétation des axes, nous pouvons dire que l’intersection des axes

correspondrait à la majorité des restaurants de notre base de données, selon les prix maximaux

des menus, leur année de création, leur appréciation et le nombre d’employés.

Page 30: DATA MINING Analyses de données symboliques sur les

30

Si un type de cuisine est proche de l’origine des axes, alors cela veut dire que ses cinq

restaurants, contenus dans notre base, sont dans la moyenne des restaurants par rapport aux

quatre variables citées précédemment.

Ainsi, les cuisines tex-mex et chinoises sont dans la « moyenne-type » des restaurants, à la

différence de la cuisine traditionnelle, qui s’étale elle du fait, d’une part de la date de création

de son premier restaurant, en 1908 (les autres types de cuisine s’étant installés plus tard sur

notre pays), et de son dernier restaurant en 2005, d’autre part à cause des autres variables

étant elles aussi diverses et variées, selon ses restaurants.

Les restaurants des autres types de cuisine ont donc plus « d’homogénéité » selon ces

variables que ceux de la cuisine traditionnelle française.

VI - Conclusion

Tout au long de ce rapport, nous avons tenté à travers diverses méthodes d’analyser et

d’interpréter une base de données Access que nous avions créés nous-mêmes à partir de

recherches sur Internet.

Notre base de données – sur les restaurants – était succincte, malgré un très long travail

dessus. Ceci implique que les résultats des analyses développés dans ce rapport ne sont donc a

priori pas représentatifs de la réalité. Travailler sur une base de données plus importante, ou

avec plus de variables de description aurait été intéressant. Malgré notre démarche auprès

d’instituts tels l’INSEE, nous n’avons pas pu obtenir des informations jugées intéressantes

telles le nombre de restaurants selon chaque type de cuisine, par exemple.

Le fait de pouvoir étudier différents aspects des restaurants, pour pouvoir analyser et

interpréter ces données, a été beaucoup plus intéressant, surtout avec la découverte de la

nouvelle version de SODAS, qui nous donnait beaucoup plus de possibilités, graphiquement

parlant principalement.

Malgré ça, le logiciel souffre de très nombreux bugs qui nous ont rebuté. Le logiciel se

fermait parfois, après le paramétrage des méthodes, avec pour seule explication cette fenêtre :

Nous avons vu maintes fois cette fenêtre, avec un paramétrage identique parfois, et c’est pour

cela que nous avons jugé bon de vous en informer. Il serait plus agréable d’avoir plus

d’informations sur ce « plantage » incessant.

Certaines méthodes, du fait du changement de version du logiciel, étaient moins facile à

manipuler, ou même à trouver (exemple : SOE devient VIEW dans la nouvelle version).

Page 31: DATA MINING Analyses de données symboliques sur les

31

En ce qui concerne les restaurants, généralement les chefs cuisinier sont des hommes, la

cuisine bio tente de s’imposer sur le marché des services de restauration, avec des tarifs

étudiants, entre autres, et qui était regroupé, pour les options dans la même partition que les

restaurants de type chinois ou tex-mex, assez répandus en France, et qui marchent très bien en

ce moment. Preuve d’une certaine volonté d’intégration et de réussite commerciale.

VII – Annexes

Voici les liens utilisés pour la conception de notre rapport :

Source de données de restaurants en France :

http://www.linternaute.com/restaurant/

Présentation du projet et du logiciel SODAS :

http://www.ceremade.dauphine.fr/~touati/sodas-presentation.htm

Foire aux questions sur le Data Mining :

http://www.web-datamining.net/forum/faq.asp#1

Définition du Data Mining :

http://dess-droit-internet.univ-paris1.fr/bibliotheque/article.php3?id_article=143

Logiciels de Data Mining :

http://lafouillededonnees.blogspirit.com/archive/2006/03/04/les-logiciels-de-data-

mining1.html