36
LE MARREC Vanessa Université Paris-IX Dauphine Data Mining Juin 2002 Introduction

Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

LE MARREC Vanessa

Université Paris-IX Dauphine

Data Mining

Juin 2002

Introduction

Page 2: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Les progrès de la technologie informatique dans le recueil et le transport de

données, font que dans tous les grands domaines de l'activité humaine, on recueille

maintenant des données en quantité souvent gigantesque et de toutes sortes

(numériques, textuelles, graphiques...).

Résumer ces données, à l'aide de concepts sous-jacents (une ville, un produit...),

afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue

une question cruciale.

Le logiciel libre SODAS a pour objectif de répondre à cette question. On présentera

d'abord le cadre théorique de l'Analyse des données symboliques basé sur la notion

« d'objets symboliques ». On présentera ensuite l'architecture et les outils de

l'Analyse des données symboliques développés dans SODAS. Ces outils

généralisent les méthodes de l'Analyse des données classiques et ceux de la

statistique usuelle, aussi bien en entrée, en autorisant des données plus complexes

car plus proches de la réalité, qu'en sortie, en fournissant des objets symboliques

plus aptes à exprimer des connaissances que les résultats numériques habituels.

2

Page 3: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

I. Présentation du Data Mining et du logiciel SODAS

A/ Émergence du Data Mining

Les entreprises subissent aujourd’hui une intensification de la concurrence ou de la

pression des clients. Ces facteurs les poussent à améliorer constamment la qualité

de leurs produits et à accélérer de manière générale leurs processus de mise sur le

marché de nouveaux produits et services.

Parallèlement, les systèmes d’informations se sont développés pour contribuer à

améliorer la productivité des traitements. Depuis deux décennies environ, l’attention

des entreprises s’est progressivement détournée des systèmes opérationnels pour

se porter sur des systèmes décisionnels qui contribuent véritablement à la

différenciation stratégique de l’entreprise.

Les fournisseurs de solutions informatiques ont donc développé des offres nouvelles

autour du concept de « Data Warehouse » ou « entrepôt de données », vastes bases

de données décisionnelles détaillées, orientées sujet et historisées. Ces entrepôts de

données disposent bien sûr de capacités de reporting, c’est-à-dire de présentation

de données ou d’agrégats sous forme de tableaux ou de graphiques, mais ils

permettent rarement de découvrir des associations ou des tendances qui se nichent

dans les tréfonds d’une base de données, d’où l’émergence du Data Mining.

En effet, le Data Mining est une réponse au besoin croissant qu’ont les entreprises

d’un surcroît de productivité dans l’analyse de leurs données.

L'objectif est alors de synthétiser des informations stockées dans une base de

données relationnelle (BDR) de manière à effectuer des analyses ultérieures non pas

sur les données initiales mais sur les résultats obtenus.

B/ Analyse des données symboliques

3

Page 4: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Résumer les bases de données de taille parfois gigantesques par leurs concepts

sous-jacents de façon à en extraire des connaissances nouvelles constitue une

tâche d'importance grandissante. Savoir représenter ces connaissances par des

expressions à la fois symboliques et numériques, savoir manipuler et utiliser ces

expressions dans le but d'aider à décider, de mieux analyser, synthétiser et organiser

les observations, tel est l'objectif que s'assigne l'analyse des données symboliques.

Les concepts qu'ils soient fournis (une région, un groupe socio-économique, un type

d'entreprise…) ou obtenus par classification automatique (nuées dynamiques,

hiérarchie, pyramide, treillis de concepts) peuvent être modélisés par des données

plus complexes dites « symboliques » où les propriétés peuvent s'exprimer par des

valeurs qualitatives ou quantitatives mais aussi par des intervalles, des

histogrammes ou des valeurs multiples munies de règles et de taxonomies.

Ces objets symboliques booléens ou modaux permettent non seulement de décrire

les concepts par leurs propriétés communes (booléennes, probabilistes...) mais aussi

de calculer leur extension dans l'ensemble des individus qu'ils représentent (des

habitants, des employés, des entreprises…).

1) Individus de premier ordre et de second ordre

Les bases de données qui se développent partout dans le monde prenant parfois

des tailles gigantesques possèdent deux niveaux d'informations. Le premier

concerne les entités de base appelées parfois « tuples » ou « individus ». Le second

concerne des entités d'un niveau plus élevé que l'on peut appeler « concepts »

pouvant représenter de grandes quantités d'informations, obtenues par classification

automatique ou par une requête.

2) Le tableau de données symboliques

4

Page 5: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Un « tableau de données symboliques » autorise plusieurs valeurs par case, ces

valeurs étant parfois pondérées et liées entre elles par des règles et des taxonomies.

Plusieurs sources d'unités statistiques (« individus ») munies de variation interne

sont évoquées comme les bases de données, les données stochastiques, les séries

chronologiques, les données confidentielles...

L'Analyse des données symboliques a pour objectif d'étendre l'analyse des données

traditionnelles aux tableaux de données symboliques pour en extraire des objets

symboliques.

Différents types d'objets symboliques sont considérés selon que les variables

décrivant les individus sont à valeur « intervalle », « histogramme » ou « variable

aléatoire ». On propose en particulier une modélisation stochastique où pour chaque

variable, chaque individu est décrit par une variable aléatoire, ces variables

aléatoires pouvant être dépendantes et de lois différentes d'un individu à l'autre. Les

treillis constituent la structure sous-jacente des objets symboliques. Les « pyramides

classifiantes » permettent de réduire les classes de ce treillis et d'en donner une

représentation graphique.

3) Les objets symboliques

4) Les apports de l’analyse de données symboliques

Par rapport aux approches classiques, l'Analyse des données symboliques présente

les caractéristiques et ouvertures suivantes :

- Elle s'applique à des données plus complexes. En entrée, elle part de

données symboliques (variables à valeurs multiples, intervalle, histogramme,

distribution de probabilité…) munies de règles et de taxonomies et peut fournir en

sortie des connaissances nouvelles sous forme d'objets symboliques.

5

Page 6: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

- Elle utilise des outils adaptés à la manipulation d'objets symboliques de

généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention

et de mesures de ressemblance tenant compte des connaissances sous-jacentes

basées sur les règles et taxonomies.

- Elle fournit des représentations graphiques exprimant entre autres la

variation interne des descriptions symboliques. Par exemple, en analyse factorielle,

un objet symbolique sera représenté par une zone, elle-même exprimable sous

forme d'objet symbolique, et pas seulement par un point.

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

- Ils fournissent un résumé de la base plus riche que les données agrégées

habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes

aux classes décrites, ainsi que des taxonomies fournies.

- Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des

variables initiales ou de variables significatives obtenues (axes factoriels).

- En utilisant leur partie descriptive, ils permettent de construire un nouveau

tableau de données de plus haut niveau sur lequel une analyse de données

symbolique de second niveau peut s'appliquer.

- Afin de modéliser des concepts, ils peuvent aisément exprimer des

propriétés joignant des variables provenant de plusieurs tableaux associés à

différentes populations. Par exemple, pour construire un objet symbolique associé à

une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants

de chaque ville et une autre relation décrivant les foyers de chaque ville.

- Ils peuvent être facilement transformés sous forme de requête d'une Base de

Données. Ceci a au moins les deux conséquences suivantes :

6

Page 7: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Ils peuvent propager les concepts qu'ils représentent d'une base à

une autre (par exemple, d'un pays à l'autre de la communauté européenne).

Les objets symboliques formés à partir de la base par les outils de

l'Analyse des données symboliques permettent de définir des requêtes et donc de

fournir des questions qui peuvent être pertinentes.

C/ Présentation du logiciel SODAS

1) Fonctionnement du logiciel

Il s'agit d'un logiciel prototype public (accessible à www.cisia.com). Il est issu de la

collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS

comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées

récentes et futures du domaine.

Il permet l'extension des méthodes de l'Analyse des données classiques (Statistiques

descriptives, Analyse factorielle, Classification Automatique, Arbres de décisions...) à

des données symboliques.

Son idée générale est la suivante : à partir d'une base de données, construire un

tableau de données symboliques, parfois muni de règles et de taxonomies, dans le

but de décrire des concepts résumant un vaste ensemble de données, analyser

ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse

de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

- Partir d'une base de données relationnelle (ORACLE, ACCESS...)

- Définir ensuite un contexte par des unités statistiques de premier niveau

(habitants, familles, entreprises, accidents...), les variables qui les décrivent, des

concepts (villes, groupes socio-économiques, scénario d'accident...).

- Chaque unité statistique de premier niveau est associée à un concept (par

exemple, chaque habitant est associé à sa ville).

7

Page 8: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

- Ce contexte est défini par une requête de la base.

- On construit alors un tableau de données symboliques dont les nouvelles

unités statistiques sont les concepts décrits par généralisation des propriétés des

unités statistiques de premier niveau qui leur sont associées.

Le logiciel SODAS permet alors d’analyser les données symboliques sous forme

d’histogrammes, d’étoiles..., de les comparer par des calculs de dissimilarité, de les

classifier, de donner une représentation graphique et une description symbolique des

classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de

concepts), d'en donner une représentation graphique plane (analyse en

composantes principales), de les discriminer (analyse factorielle discriminante,

arbres de décision)...

2) Interface du logiciel

Barre de menus

Les différentes méthodes proposées

Application des

méthodes

8

Page 9: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

III. Application : étude de données sur le cinéma

A/ Présentation des données 1) Source des données : la base BDCinéma.mdb

La base de données BDCinéma.mdb est celle qui nous servira pour notre étude. Il

s’agit d’une base de données relationnelles sous format Access. Elle a été

entièrement créée à partir de deux sites internet :

- www.monsieurcinéma.fr

- www.amazon.com.

Cette base de données regroupe 100 films qui ont tous été nominés pour les oscars.

Les informations concernant les films sont notamment le réalisateur, l’acteur

principal, le budget consacré ainsi que le revenu retiré…

Dans le but d’avoir une vue plus précise de cette base de données et de son

organisation, le schéma suivant permet de montrer les différentes tables créées ainsi

que leurs relations entre elles.

9

Page 10: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

2) Présentation des éléments de la base

Nous allons présenter en détail chacune des tables composant la base de données :

- La table FILM contient les informations décrivant les 100 films de notre base.

- La table RÉALISATEUR reprend les réalisateurs des différents films.

- La table CONTINENT_TOURNAGE stocke les noms des continents où ont

été tournés les films.

- La table LIEU_TOURNAGE stocke les noms des lieux de tournage des films

: chaque lieu de tournage se trouve dans l’un des continents présents dans la table

CONTINENT_TOURNAGE.

- La table PAYS_RÉALISATEUR stocke les noms des pays d’origine des

réalisateurs.

- La table RÉGION_RÉALISATEUR stocke les noms des régions d’origine des

réalisateurs : chaque région se trouve dans l’un des pays qui sont dans la table

PAYS_RÉALISATEUR.

- Quatre autres tables ont été créées pour permettre l’exploitation d’écarts :

OSCARS, AGE_RÉALISATEUR, BUDGET_ÉCART, REVENU_ÉCART.

10

Page 11: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

B/ Variables et requêtes

1) Individus, variables de description et concepts

Les individus sont les films nominés aux oscars.

Les variables de description sont les suivantes :

- L’année du film - L’âge du réalisateur (x 2)

- L’acteur principal - Le nombre d’oscars pour chaque film

(x2)

- Le lieu de tournage - Le budget (x2)

- Le continent de tournage - Le revenu (x2)

- Le nom du réalisateur - Le nombre d’oscars pour un genre de

film

- La région d’origine du réalisateur - Le budget moyen pour un genre de film

- Le pays d’origine du réalisateur - Le revenu moyen pour un genre de film

(x2) signifie que c’est une variable qui donne lieu à deux variables de description

différentes de par leur type. En effet, il y aura une variable de type multimodal et une

autre de type intervalle.

Par exemple, l’âge du réalisateur sera une variable multimodale (45 ans, 50 ans…)

mais aussi une variable intervalle (41-45, 46-50…).

Les concepts sont les différentes catégories de films (comédie, science-fiction…). Ils

sont au nombre de 17. Ce sont les suivants :

- Action - Comédie fantastique - Film historique

- Animation - Comédie musicale - Policier

- Aventure - Drame - Science-fiction

- Catastrophe - Espionnage - Suspense

- Comédie - Fantastique - Western

- Comédie dramatique - Film de guerre

11

Page 12: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

2) Création de requêtes

Les requêtes utilisées sont au nombre de trois.

La requête INFO_FILM renvoie les individus de premier ordre à savoir, dans notre

étude, les films et la majorité des variables de description. Sa formulation en SQL est

la suivante :

SELECT DISTINCT Film.Titre, Film.Genre, Film.Année, Film.Acteur_Principal,

Lieu_Tournage.Lieu_Tournage, Continent_Tournage.Continent_Tournage,

Film.Nombre_Oscars, Film.[Budget(K)], Film.[Revenu(K)],

Oscars.Oscars_Ecart, Budget_Ecart.[Budget_Ecart(K)],

Revenu_Ecart.[Revenu_Ecart(K)], Réalisateur.Nom AS Nom_Réalisateur,

Région_Réalisateur.Région AS R_Région, Pays_Réalisateur.Pays AS R_Pays,

Réalisateur.Age AS R_Age, Age_Réalisateur.Tranche_Age AS R_Tranche_Age

FROM Age_Réalisateur, Oscars, Budget_Ecart, Revenu_Ecart, (Continent_Tournage

INNER JOIN Lieu_Tournage ON Continent_Tournage.Cotinent_Tournage_id =

Lieu_Tournage.Continent_Tournage_id) INNER JOIN (((Pays_Réalisateur

INNER JOIN Région_Réalisateur ON Pays_Réalisateur.Pays_id =

Région_Réalisateur.Pays_id) INNER JOIN (Réalisateur INNER JOIN Film ON

Réalisateur.N°_Réalisateur = Film.N°_Réalisateur) ON Région_Réalisateur.Région_id =

Réalisateur.Région_id) INNER JOIN Continent_Réalisateur ON

Pays_Réalisateur.Continent_id =

Continent_Réalisateur.Continent_id) ON Lieu_Tournage.Lieu_Tournage_id =

Film.Lieu_Tournage_id

WHERE (((Film.Nombre_Oscars) Between [Oscars].[Oscars_Min] And

[Oscars].[Oscars_Max]) AND ((Film.[Budget(K)]) Between

[Budget_Ecart].[Budget_Min(K)] And [Budget_Ecart].[Budget_Max(K)])

AND ((Film.[Revenu(K)]) Between [Revenu_Ecart].[Revenu_Min(K)] And

[Revenu_Ecart].[Revenu_Max(K)]) AND ((Réalisateur.Age) Between

[Age_Réalisateur].[Age_Min] And

[Age_Réalisateur].[Age_Max]));

12

Page 13: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

La deuxième requête INFO_GENRE renvoie les concepts (les genres de films), les

variables de classe et les variables de description Nombre d’oscars, Budget moyen

et Revenu moyen. Sa formulation en SQL est la suivante :

SELECT DISTINCTROW Film.Genre, Film.[Genre 2], Sum(Film.Nombre_Oscars) AS

NB_Oscars, Avg(Film.[Budget(K)]) AS [Budget_Moyen(K)], Avg(Film.[Revenu(K)]) AS

[Revenu_Moyen(K)]

FROM Film

GROUP BY Film.Genre, Film.[Genre 2];

La troisième requête PAYS insère une variable multimodale « Pays ». Sa formulation

en SQL est la suivante :

SELECT DISTINCT Film.Genre, Film.Pays, 1 AS Pondération

FROM Film;

3) Création de taxonomies

Les taxonomies sont au nombre de deux.

La première taxonomie TAXO_RÉALISATEUR reprend les deux variables « région

d’origine du réalisateur » et « Pays d’origine du réalisateur » qui sont soumises à une

hiérarchie. En effet, chaque région d’origine des réalisateurs fait partie d’un seul

pays. On ne trouvera donc pas une même région dans deux pays différents. Une

taxonomie se crée de la même manière qu’une requête. Sa formulation en SQL est

la suivante :

SELECT DISTINCT Région_Réalisateur.Région, Pays_Réalisateur.Pays

FROM Pays_Réalisateur INNER JOIN Région_Réalisateur ON Pays_Réalisateur.Pays_id

= Région_Réalisateur.Pays_id;

13

Page 14: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

La deuxième taxonomie TAXO_TOURNAGE définit la hiérarchie présente entre les

variables « lieu de tournage du film » et « continent du tournage du film ». Chaque

lieu de tournage fait partie d’un seul continent. Sa formulation en langage SQL est la

suivante :

SELECT Lieu_Tournage.Lieu_Tournage, Continent_Tournage.Continent_Tournage

FROM Continent_Tournage INNER JOIN Lieu_Tournage ON

Continent_Tournage.Cotinent_Tournage_id =

Lieu_Tournage.Continent_Tournage_id;

C/ Démarrage de SODAS : DB2SO

1) Description du module

DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un

ensemble d’assertions à partir de données stockées dans une base de données

relationnelle. Il est supposé qu’un ensemble d’individus et stocké dans une base de

données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut

construire une assertion pour chaque groupe d’individus. Dans ce processus, les

variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi

être associées à des assertions générées.

DB2SO est invoqué à partir de Import dans SODAS file.

14

Page 15: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Après avoir défini la base de données BDCinéma.mdb, il s’agit d’exécuter chaque

requête que nous avons vu précédemment de la façon suivante :

15

Page 16: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant

toutes les variables et tous les concepts définis.

Il s’agit ensuite d’enregistrer la session en un fichier *.gaj par l’intermédiaire de la

commande File/Save.

Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS

de type *.sds. Ce fichier sera la base de toutes les applications SODAS.

Reprenons précisément toutes les variables que nous avons.

Les objets symboliques (concepts) sont les suivants :

- Action - Comédie fantastique - Film historique

- Animation - Comédie musicale - Policier

- Aventure - Drame - Science-fiction

- Catastrophe - Espionnage - Suspense

- Comédie - Fantastique - Western

- Comédie dramatique - Film de guerre

Les variables symboliques (variables de description) sont les suivantes :

- Année - Pays (nationalité du film)

- Acteur_Principal - Nombre_Oscars (d’un film)

- Lieu_Tournage - Budget(K) (d’un film)

- Continent_Tournage - Budget_Ecart(K) (d’un film)

16

Page 17: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

- Nom (du réalisateur) - Revenu(K) (d’un film)

- Région (d’origine du réalisateur) - Revenu_Ecart(K) (d’un film)

- Pays (d’origine du réalisateur) - NB_Oscars (d’une catégorie de film)

- Age (du réalisateur) - Budget_Moyen(K) (d’une catégorie de

film)

- Tranche_Age (du réalisateur) - Revenu_Moyen(K) (d’une catégorie de

film)

Les taxonomies :

D/ Utilisation des différentes méthodes

1) SOE

a) Présentation de la méthode

SOE (Symbolic Object Editor) permet de voir dans une table tous les objets

symboliques présents dans un fichier SODAS et d’opérer quelques modifications

basiques des données à l’intérieur de la table.

17

Page 18: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

SOE offre aussi des fonctionnalités pour voir des représentations graphiques en 2D

ou 3D et la représentation de chaque objet symbolique présent dans la table : c’est le

principe de l’étoile zoom.

L'étoile zoom est une représentation graphique qui permet de visualiser des données

statistiques complexes appelées objets symboliques. L'étoile zoom fournit différents

niveaux de détail de manière interactive, notamment grâce à une représentation en

deux et en trois dimensions.

Un objet symbolique est généralement le résultat d'une agrégation d'individus

multivariés si bien que chaque objet symbolique figure dans une classe d'individus.

Dès lors, il est représenté par un ensemble de variables dont les valeurs peuvent

être soit comprises dans un intervalle (pour une variable quantitative), soit pondérées

(pour une variable qualitative). Le but du travail est de représenter graphiquement de

tels objets.

La visualisation en étoile zoom est basée sur des axes radiaires, où chaque axe

représente une variable. Chaque étoile représente un objet symbolique. Le but de la

représentation est de fournir une image synthétique de l'objet, un profil, et de

comparer des profils entre eux.

b) Application

Les objets que nous analysons sont :

- Drame

- Fantastique

- Policier

Ce sont les trois objets symboliques les plus représentés. Dans notre contexte, ce

sont les catégories de films les plus représentées donc les plus nominées.

Les variables descriptives que nous analyserons pour chaque objet sont :

- Année - Budget(K)

18

Page 19: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

- Continent_Tournage - Budget_Ecart(K)

- Nombre_Oscars - Revenu(K)

- Oscars_Ecart - Revenu_Ecart(K)

19

Page 20: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

A l’aide de ces deux graphiques, on remarque que la

plupart des films dramatiques remportent entre 0 et 1

oscar avec un fort pourcentage de 60%. On note tout de

même que 15% des drames recensés dans la base de

données ont reçu plus de 5 oscars.

Les films sont aussi en grande majorité d’origine nord-

américaine avec un pourcentage de 65% et le budget consacré à leur réalisation est

essentiellement compris entre 0 et 500 000 (65%).

Il est aussi important de noter que le budget consacré aux drames bien qu’en

moyenne il soit compris entre 0 et 500 000, il varie de façon très importante (entre

400 000 et 200 millions).

20

Page 21: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Les films fantastiques reçoivent en grande majorité (71%) entre 0 et 1 oscar et le

maximum d’oscars reçus par un même film fantastique est de 4.

Par contre, les films fantastiques ont commencé à prendre toute leur ampleur à partir

de 1977, ceci sûrement grâce aux images de synthèse, effets spéciaux et autres

effets numériques qu’il n’y avait pas avant. En effet, souvent les films fantastiques

reçoivent des oscars de « meilleurs effets spéciaux ».

Contrairement à ce que l’on pourrait penser, les films fantastiques n’ont pas un

budget aussi important. Le maximum est ici de 125 millions de dollars.

21

Page 22: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Là encore, une grande majorité (81%) des films policiers reçoivent entre 0 et 1 oscar.

Le maximum recensé est de 5 oscars.

Le budget consacré est au maximum de 87 millions de dollars avec une moyenne

comprise entre 0 et 500 000.

Les revenus engendrés sont quant à eux peu élevés. Le maximum est de 352

millions.

Synthèse et comparaison entre les concepts étudiés.

Parmi les trois objets symboliques, catégories les plus recensés dans notre base de

données, on remarque immédiatement que les drames sont ceux qui ont la plus forte

amplitude tant au niveau du nombre d’oscars reçus qu’au niveau du budget consacré

et du revenu engendré. On peut donc en déduire facilement que les drames sont très

appréciés par les membres du jury des oscars.

On note également que quelque soit la catégorie de films, ils sont en grande majorité

réalisés par des réalisateurs d’origine nord-américaine et tournés aux Etats-Unis.

22

Page 23: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

2) STAT

a) Présentation de la méthode

STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques,

représentés par leur description, plusieurs méthodes de statistique élémentaire

limitées aux données. C’est un composant de SODAS et donc il fonctionne dans

SODAS avec les bases de données de SODAS.

Les méthodes dépendent du type des variables de la base et sont filtrées en fonction

de la méthode de travail :

- fréquences relatives pour variables multimodales (a)

- fréquences relatives pour variables intervalles (b)

- capacités et min/max/mean pour variables multimodales probabilistes

- biplot pour variables intervalles (d)

- objet central.

Les données des méthodes sélectionnées peuvent être regardées de deux façons :

listing ou graphe. Le graphe peut être changé et personnalisé (texte, couleurs…).

Dans la méthode a, on calcule la fréquence relative de chaque modalité de la

variable multinominale en prenant en compte les règles données par la base. Le

graphique associé à la distribution de la variable peut être soit un histogramme soit

un diagramme circularisé.

Dans la méthode b, soit X une variable intervalle observée dans un ensemble

d’objets symboliques. On peut construire un histogramme pour la variable X sur

l’intervalle [a,b] où a est la plus petite limite et b la plus grande. Le calcul des

fréquences relatives associées à une classe Ck prend en compte le recouvrement de

Ck par les valeurs intervalle de X sur chaque objet symbolique.

23

Page 24: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Dans la méthode d, le graphique présente un objet symbolique comme un rectangle

sur le plan à deux variables choisies par l’utilisateur. Chaque côté du rectangle

représente la distance de l’axe pour l’objet symbolique.

b) Application Fréquences relatives pour variables intervalles

La variable étudiée ici est le nombre d’oscars. Le nombre de classes choisi est 11.

Chaque classe a donc une largeur de 1. Il est facile de remarquer que la classe qui

prédomine est la classe [0,1]. Les films nominés remportent en général entre 0 et 1

oscar. On remarque également qu’au-delà de 1 oscar, le nombre d’oscars attribués

est très bas.

24

Page 25: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Une autre variable peut également être étudiée : l’âge du réalisateur. On choisit

comme nombre de classes 10. Chaque classe a donc une largeur de 4,5.

On peut noter que les réalisateurs qui ont des oscars ont le plus souvent entre 45 et

50 ans. En-dessous de 40 ans, il est très rare de rencontrer des réalisateurs ayant eu

des oscars. Au-delà de 50 ans, la proportion de réalisateurs diminue de façon

constante.

Capacités et min/max/mean pour variables multimodales probabilistes

La variable étudiée est le pays d’origine du réalisateur.

25

Page 26: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Grâce à cet histogramme, on peut noter que pour certains objets symboliques

(catégories de films), les réalisateurs d’origine américaine et ceux d’origine anglaise

sont les plus créateurs. En effet, le maximum de la modalité USA est 1 de même que

celui de la modalité Angleterre. On peut alors en penser que certaines catégories de

films qui sont nominés aux oscars ne sont réalisées que par des anglo-saxons (USA

+ Angleterre).

On peut remarquer également que la modalité USA a aussi la moyenne la plus

élevée. Elle est suivie mais déjà de loin par l’Angleterre. Ceci rejoint l’idée

précédente que les oscars sont le plus souvent attribués à des films dont les

réalisateurs sont anglo-saxons avec une plus forte proportion pour les USA.

Il apparaît au vu de cet histogramme qu’aucun pays n’est présent à la fois dans tous

les objets symboliques. Le minimum des proportions de tous les pays est 0 (Chine).

26

Page 27: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Biplot pour variables intervalles

Les variables étudiées sont le nombre d’oscars et le budget. Il s’agit donc de voir

quelles sont les catégorisées les plus oscarisées et celles à plus fort budget..

Le résultat n’étant pas très lisible du fait du grand nombre d’objets symboliques (17),

le graphique général est divisé en deux graphiques afin d’en faciliter la lecture et

l’interprétation.

Au vu de ce graphique, on peut noter que les drames peuvent avoir aussi bien 0

oscar que 11 oscars soit le maximum dans notre base de données. Et que leur

budget a aussi la plus forte amplitude c’est-à-dire qu’il varie de 0 à 200 millions, ce

que nous avons pu déjà constater grâce à la méthode SOE.

Le film de catastrophe ne remporte aucun oscar mais pourtant avec un budget

colossal. Au contraire, le western, avec un budget consacré faible, peut remporter

jusqu’à 2 oscars.

27

Page 28: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Dans ce graphique, on peut remarquer que les films d’aventure ont rapporté entre 0

et 7 oscars avec un budget de 75 millions maximum.

Ces deux graphiques aboutissent à la même conclusion. Ce ne sont pas forcément

les films à gros budget qui sont le plus oscarisés. Il n’y a pas de lien proportionnel

entre le budget et le nombre d’oscars obtenus.

3) DIV

28

Page 29: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

a) Présentation de la méthode

DIV (Divisive Clustering) est une méthode de classification hiérarchique qui

commence avec tous les objets d’une classe et procède par divisions successives de

chaque classe. A chaque étape, une classe est divisée en deux classes selon une

question binaire. Cette question binaire induit le meilleur partage en deux classes

selon une extension du critère de l’inertie. L’algorithme se termine après k-1

divisions, où k représente le nombre de classes données comme inputs par

l’utilisateur.

b) Application

Les variables utilisées ici sont le nombre d’oscars et le budget. Ainsi, il sera possible

de voir la répartition entre les oscars reçus et le budget consacré.

Le nombre de classes choisi est de 5.

Le résultat obtenu est le suivant :

PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=8) : "Suspense" "Catastrophe" "Action" "Comédie fantastique" "Animation" "Comédie" "Western" "Espionnage" Cluster 2 (n=9) : "Science-fiction" "Fantastique" "Comédie dramatique" "Drame" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Explicated inertia : 44.204377 PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=8) : "Suspense" "Catastrophe" "Action" "Comédie fantastique" "Animation" "Comédie" "Western" "Espionnage" Cluster 2 (n=8) : "Science-fiction" "Fantastique" "Comédie dramatique" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Cluster 3 (n=1) : "Drame" Explicated inertia : 62.849148

29

PARTITION IN 4 CLUSTERS :

Page 30: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

-------------------------: Cluster 1 (n=7) : "Suspense" "Action" "Comédie fantastique" "Animation" "Comédie" "Western" "Espionnage" Cluster 2 (n=8) : "Science-fiction" "Fantastique" "Comédie dramatique" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Cluster 3 (n=1) : "Drame" Cluster 4 (n=1) : "Catastrophe" Explicated inertia : 75.894740 PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=2) : "Western" "Espionnage" Cluster 2 (n=8) : "Science-fiction" "Fantastique" "Comédie dramatique" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Cluster 3 (n=1) : "Drame" Cluster 4 (n=1) : "Catastrophe" Cluster 5 (n=5) : "Suspense" "Action" "Comédie fantastique" "Animation" "Comédie" Explicated inertia : 83.948477 THE CLUSTERING TREE : --------------------- +---- Classe 1 (Ng=2) ! !----4- [Budget(K) <= 19872.000000] ! ! ! +---- Classe 5 (Nd=5) ! !----3- [Budget(K) <= 102750.000000] ! ! ! +---- Classe 4 (Nd=1) ! !----1- [Nombre_Oscars <= 1.750000] ! ! +---- Classe 2 (Ng=8) ! ! !----2- [Nombre_Oscars <= 4.500000] ! +---- Classe 3 (Nd=1)

Premièrement, on note que 9 catégories ont plus de 1,75 oscars de moyenne et

parmi elles, 8 ont moins de 4,5 oscars.

30

Page 31: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

Parmi les 8 catégories de films qui ont moins de 1,75 oscars de moyenne, il y en a 7

qui ont un budget de moins de 102 millions de dollars.

4) PCM

a) Présentation de la méthode

PCM (Principal Component Analysis) est une extension de la méthode d’analyse en

composante principale qui prend comme input une matrice de terme général aij de

type intervalle. Chaque valeur aij est un intervalle contenant toutes les valeurs

possibles de j pour un objet i. Au lieu de représenter chaque point sur un plan

factoriel par un point comme dans la méthode ACP, dans la méthode PCM, chaque

objet est visualisé par un rectangle.

b) Application

La variable choisie est le nombre d’oscars.

31

Page 32: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

5) TREE

a) Présentation de la méthode

TREE propose un algorithme par agrandissement d’arbre appliqué aux données

imprécises. Celles-ci sont formellement décrites par des assertions probabilistes

dans l’analyse des données symboliques. Dans ce contexte, la procédure de partage

récursif peut être vue comme une recherche itérative d’un ensemble d’objets

symboliques qui correspond le mieux aux données initiales. A chaque étape, le

meilleur partage est obtenu à travers l’utilisation d’une mesure donnée en paramètre.

On obtient une nouvelle liste d’objets symboliques qui permet d’assigner de

nouveaux objets à une classe.

b) Application

Les paramètres choisis sont les suivants :

- Variable Class Identifier : Genre

- Variables Set Identifier : Nombre d’oscars

- Nombre de nœuds : 5

Le résultat obtenu est le suivant :

================================== | EDITION OF DECISION TREE | ================================== PARAMETERS : Learning Set : 17 Number of variables : 1 Max. number of nodes: 13 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : 0.00

32

Page 33: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

+ --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down)

33

Page 34: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

+---- [ 4 ]Catastrophe ( 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 ) ! !----2[ Nombre_Oscars <= 0.000000] ! ! ! ! +---- [ 10 ]Action ( 1.00 0.11 0.02 0.00 1.00 0.03 1.00 0.00 0.01 0.00 0.06 0.04 0.00 0.04 0.03 1.00 0.25 ) ! ! ! ! !----5[ Nombre_Oscars <= 1.000000] ! ! ! +---- [ 11 ]Western ( 0.00 0.22 0.12 0.00 0.00 0.14 0.00 0.00 0.08 0.00 0.19 0.16 0.00 0.16 0.14 0.00 0.25 ) ! !----1[ Nombre_Oscars <= 1.000000] ! ! +---- [ 12 ]Western ( 0.00 0.44 0.17 0.00 0.00 0.23 0.00 0.00 0.08 0.00 0.38 0.32 0.00 0.32 0.23 0.00 0.50 ) ! ! ! !----6[ Nombre_Oscars <= 2.000000] ! ! ! ! ! ! +---- [ 26 ]Film de guerre ( 0.00 0.15 0.12 0.00 0.00 0.15 0.00 0.00 0.06 0.00 0.19 0.19 0.00 0.19 0.15 0.00 0.00 ) ! ! ! ! ! ! !---13[ Nombre_Oscars <= 2.000000] ! ! ! ! ! +---- [ 27 ]Comédie musicale ( 0.00 0.07 0.31 0.00 0.00 0.31 0.00 1.00 0.28 0.00 0.19 0.29 1.00 0.29 0.31 0.00 0.00 ) ! ! !----3[ Nombre_Oscars <= 5.000000] ! +---- [ 7 ]Drame ( 0.00 0.00 0.24 0.00 0.00 0.14 0.00 0.00 0.50 0.00 0.00 0.00 0.00 0.00 0.14 0.00 0.00 )

Page 35: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

6) FDA (Factorial Discriminant Analysis)

Les paramètres choisis sont les suivants :

- Variable class identifier : Genre

- Variables to be selected : Nombre d’oscars

Le résultat est le suivant :

Page 36: Data Mining Juin 2002 Introduction - CEREMADE€¦ · différenciation stratégique de l’entreprise. ... L'Analyse des données symboliques a pour objectif d'étendre l'analyse

2

2