24
Fabien BADEIG Le 5 novembre 2004, Projet Data Mining : Etude et analyse de données sur le cinéma. DEA127 Université Paris IX Dauphine Professeur : E. DIDAY.

Etude et analyse de données sur le cinéma. - …touati/SODAS/EXEMPLES/... · 2013-04-16 · l'Analyse des données classiques et ceux de la statistique usuelle, ... Le Datamining

  • Upload
    lamminh

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Fabien BADEIG

Le 5 novembre 2004,

Projet Data Mining : Etude et analyse de données sur

le cinéma.

DEA127

Université Paris IX Dauphine

Professeur : E. DIDAY.

Projet Data Mining

Fabien BADEIG 2\24

Table des matières

Introduction ----------------------------------------------------------------------------------------------------- 3

1 Etat de l’art du Data Mining --------------------------------------------------------------------------- 4

2 Description de la base de données de choisie ------------------------------------------------------ 8

3 Définition des individus et des concepts ---------------------------------------------------------- 10

4 Définitions des requêtes ------------------------------------------------------------------------------ 12

5 SOE avec interprétations ---------------------------------------------------------------------------- 13

6 ACP (i.e. PCM) avec interprétations --------------------------------------------------------------- 17

7 STAT ----------------------------------------------------------------------------------------------------- 18

8 PYR ------------------------------------------------------------------------------------------------------ 20

9 DIV ------------------------------------------------------------------------------------------------------- 22

10 TREE-------------------------------------------------------------------------------------------------- 23

Conclusion----------------------------------------------------------------------------------------------------- 24

Projet Data Mining

Fabien BADEIG 3\24

Introduction

Les progrès de la technologie informatique dans le recueil et le transport

de données, font que dans tous les grands domaines de l'activité humaine,

on recueille maintenant des données en quantité souvent gigantesque et

de toutes sortes (numériques, textuelles, graphiques...).

L’exploitation de ces nouvelles informations peut présenter un intérêt pour

analyser et interpréter les comportements d’individus par exemple. Les

résultats obtenus s’insérant dans un dispositif d’analyse globale

permettent alors de dresser dans des plans stratégiques ou politiques les

axes d’effort à respecter.

Résumer ces données, à l'aide de concepts sous-jacents (une ville, un

produit...), afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue une question cruciale.

Le logiciel libre SODAS a pour objectif de répondre à cette question. C’est

ce logiciel qui va être utilisé dans le cadre de ce projet afin d’extraire les

données concentrées dans une base de donnée relationnelle de type

ACCESS et d’y appliquer les méthodes d’analyse contenues dans SODAS.

On présentera d'abord le cadre théorique de l'Analyse des données

symboliques basé sur la notion « d'objets symboliques ». On présentera

ensuite l'architecture et les outils de l'Analyse des données symboliques

développés dans SODAS. Ces outils généralisent les méthodes de

l'Analyse des données classiques et ceux de la statistique usuelle, aussi

bien en entrée, en autorisant des données plus complexes car plus proches de la réalité, qu'en sortie, en fournissant des objets symboliques

plus aptes à exprimer des connaissances que les résultats numériques

habituels.

La base d’étude du projet concerne le cinéma. Cette base de données

regroupe 100 films qui ont tous été nominés pour les oscars.

Projet Data Mining

Fabien BADEIG 4\24

1 Etat de l’art du Data Mining

A/ Définition du Data Mining :

Par définition, le Datamining est la technique d’analyse permettant, à

l’aide d’un logiciel, d’explorer des données pour mettre en évidence des comportements, des informations stratégiques.

Ce type d'application appartient à la famille des logiciels d'aide à la

décision des années 80. La base sur laquelle ils travaillent, sont les

énormes entrepôts de données d'aujourd'hui, qui peuvent contenir des

dizaines de gigaoctets.

Le terme anglais datamining exprime bien le travail de " mineur de fond "

qu'il est nécessaire d'effectuer sur d'énormes " gisements " de données

commerciales pour en extraire le " minerai " d'enseignements utiles à une

entreprise ou une administration.

Le Datamining (littéralement "fouille de données"), contrairement à

l'analyse multidimensionnelle, a pour but de mettre en évidence des

corrélations éventuelles dans un volume important de données afin de

dégager des tendances.

Le Datamining s'appuie sur des techniques d'intelligence artificielle

(réseaux de neurones) afin de mettre en évidence des liens cachés entre

les données.

B/ Les principaux logiciels avec positionnement de SODAS :

Data Mining

Editeur & Solution Positionnement Connexions natives

Business Objects

Application Foundation

Dans sa version 3.0, Application

Foundation intègre le moteur

d'analyse prédictive de l'éditeur

KXEN. Son objectif: modéliser des

données existantes en vue de faire

des projections.

CRM: Siebel, Prime Response

(Chordiant), Nortel (Clarify),

Peoplesoft/Vantive, Peregrine

(Remedy). ETL: intégration étroite

avec Informatica, et ensuite Acta et

Ascential Software. Entrepôts &

bases de données: Hyperion,

Oracle, IBM/Informix, Sybase.

Data mining: intègre KXen en

OEM.

Data Distilleries

DD Series

L'offre intègre DD/Marketer pour

générer les modèles prédictifs

(segmentation), DD/Sire pour

déployer les recommandations, et

DD/Expert pour construire les

scenarii

.

CRM Front-office: Siebel, AIMS,

Broadvision (eCRM). L'intégration

est déjà programmée avec Siebel

7.0.

Projet Data Mining

Fabien BADEIG 5\24

IBM

DB2 Intelligent Miner

DB2 Intelligent Miner est l'outil de

datamining utilisé dans

DecisionEdge for Relationship

Marketing (voir tableau 1), mais

IBM en propose de plus ciblés. Un

cas intéressant est celui de Internet

Sales Predictor, une applet Java

téléchargeable gratuitement sur le

site IBM consacré aux

développeurs.

Comme son nom l'indique, ne

fonctionne que sur une base de

données IBM DB2, mais dans de

nombreux environnements (AIX,

OS/390-400, Solaris, Windows

2000 et NT...). Cet outil et ses

déclinaisons sont en fait des

extensions à la base de données qui

en est le point central.

KXen

Composants KXEN intégrables

La position de KXen est

particulière. Son objectif est de

fournir des algorithmes avancés qui

se basent sur les théories récentes

du chercheur russe Vapnik, par

opposition à la méthode Fischer du

début du siècle, répandue dans la

plupart des autres solutions.

Bénéfice: résultat rapide et

pertinent.

Intégration de composants en OEM

dans Business Objects,

Profile4You (eCRM), Norkom et

Coheris/ISO (CRM). Travaux avec

Kana/Broadbase. Selon KXen, une

intégration totale des composants

dans un environnement donné

prend 2 ou 3 semaines maximum.

Composants programmés en C++,

DCom, Corba, Java. Echanges:

ODBC ou texte pur.

Oracle

9i Data Mining

Pour les commentaires, se reporter

à IBM deux cases au dessus.

Oracle 9i Data Mining est intégré à

Oracle Customer Intelligence.

Tout comme IBM, il s'agit d'une

extension à la base de données

Oracle 9i, et non d'un produit

surajouté réclamant une intégration

à travers une API Java ou C++.

SAS

e-Discovery

SAS est l'éditeur de référence dans

le domaine du data mining. e-

Discovery est la solution de

modélisation prédictive phare de

SAS dans le domaine du CRM

multi-canaux. Utilisateurs avertis

pour besoins pointus en règle

générale.

SAS livre sa propre plate-forme

Integration Technology pour

l'interconnexion au back-office et

aux solutions tierces. Comme

toujours, il faut être capable de

programmer en SAS. La dernière

version fournit un pont vers les

serveurs WebDAV et le

middleware Tibco/RendezVous.

SPSS

Clementine

SPSS est considéré comme le

leader sur le segment des outils

statistiques (pour des experts).

Clementine est sa plate-forme de

data mining. 14 méthodes

différentes de modélisation

prédictive sont compilées (d'autres

éditeurs fournissent aussi plusieurs

algorithmes). Rachat récent de

NetGenesis (eCRM/Web mining)

et de Lexiquest (analyse de

données non-structurées).

Principal partenaire: Siebel, qui

dispose d'une participation dans le

capital de SPSS.

Autre CRM: Chordiant à travers

Prime Response. Entrepôts de

données: Oracle, Hyperion,

Informix Red Brick Warehouse

(datamart).

ETL: Ascential.

SODAS Prototype gratuit

Projet Data Mining

Fabien BADEIG 6\24

C/ Domaines d’utilisation et intérêts pratiques :

Le Datamining peut s'appliquer à de nombreux domaines de l'entreprise.

L'objet du datamining n'est d'ailleurs plus seulement d'aider à la prise de

décision de haut niveau, mais de permettre un pilotage fin de la fonction

de gestion de la relation client (GRC ou CRM), par une connaissance

beaucoup plus étoffée des comportements et des préférences de la

clientèle.

Utilité pour l'entreprise : Augmenter la rentabilité de l'entreprise

Fidéliser ses clients Gérer la relation client

Gestion de la force de vente

Trouver les générateurs de coûts (contrôle de gestion...)

Projet Data Mining

Fabien BADEIG 7\24

C/ Description du logiciel SODAS :

Il s’agit d’un logiciel prototype public destiné à l’analyse de données

symbolique.

Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même

nom. Ce logiciel a pour vocation de fournir un cadre aux différentes

avancées récentes et futures dans le domaine de l’analyse des données

symboliques.

L’idée générale de ce projet est de construire, à partir d’une base de

données relationnelle, un tableau de données symboliques muni

éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d’analyser ensuite

ce tableau pour en extraire des connaissances par des méthodes d’analyse

de données symboliques. Dans ce pré rapport, nous utiliserons les deux

méthodes SOA et ACP.

Une analyse des données dans SODAS suit les étapes suivantes :

Partir d’une base de données relationnelle (ORACLE, ACCESS…)

Définir ensuite un contexte par :

Des unités statistiques de premier niveau (habitants,

familles, entreprises, accidents...)

Les variables qui les décrivent

Des concepts (villes, groupes socio-économiques, scénario d’accident…).

Chaque unité statistique de premier niveau est associée à un concept (par

exemple, chaque région est associé à son pays). Ce contexte est défini

par une requête sur la base de données relationnelle.

Le tableau de données symboliques peut être construit, les nouvelles

unités statistiques sont les concepts décrits par généralisation des

propriétés des unités statistiques de premier niveau qui leur sont

associées.

Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent

être des histogrammes, des intervalles, des valeurs uniques

(éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l’utilisateur.

Il est alors possible de créer un fichier d’objets symboliques sur lequel une

douzaine de méthodes d’analyse de données symboliques peut déjà

s’appliquer (histogrammes des variables symboliques, classification

automatique, analyse factorielle, analyse discriminante, visualisations

graphiques…).

Le logiciel SODAS est téléchargeable à l’adresse suivante : http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm

Projet Data Mining

Fabien BADEIG 8\24

2 Description de la base de données de choisie

Pour notre étude, nous nous servirons d’une base de données sur le

cinéma BDCinéma.mdb. Cette base de données provient du site LISE de Monsieur Diday. Elle fut tirée du projet de Vanessa Le Marrec. Il s’agit

d’une base de données relationnelles formatée sous ACCESS. Elle fut

créée à partir de données récupérées sur deux sites Internet :

www.monsieurcinéma.fr.

www.amazon.com.

Cette base de données regroupe 100 films qui ont tous été nominés pour

les oscars. Les informations concernant les films sont notamment le

réalisateur, l’acteur principal, le budget consacré ainsi que le revenu

retiré…

Description des tables : Nous allons présenter en détail chacune des tables composant la base de données :

- La table FILM contient les informations décrivant les 100 films de notre base. - La table RÉALISATEUR reprend les réalisateurs des différents films. - La table CONTINENT_TOURNAGE stocke les noms des continents où ont été tournés les films. - La table LIEU_TOURNAGE stocke les noms des lieux de tournage des films : chaque lieu de tournage se trouve dans l’un des continents présents dans la table CONTINENT_TOURNAGE. - La table PAYS_RÉALISATEUR stocke les noms des pays d’origine des réalisateurs. - La table RÉGION_RÉALISATEUR stocke les noms des régions d’origine des réalisateurs : chaque région se trouve dans l’un des pays qui sont dans la table PAYS_RÉALISATEUR. - Six autres tables ont été créées pour permettre l’exploitation d’écarts : OSCARS, AGE_RÉALISATEUR, BUDGET_ÉCART, REVENU_ÉCART, REVENU_ÉCART2 et BENEFECART.

Les tables écart ont été implémentées pour permettre de transformer les variables quantitatives en variables qualitatives. Dans notre cas, on a préféré mettre des intervalles comme description car ils sont plus explicites que des mots mais on aurait pu mettre par exemple pour revenu écart : faible revenu, revenu moyen, revenu fort, …

Je vais exposer une vue globale de la base de données dans le schéma

relationnel suivant :

Projet Data Mining

Fabien BADEIG 9\24

Projet Data Mining

Fabien BADEIG 10\24

3 Définition des individus et des concepts

Dans nos deux requêtes, les individus sont les mêmes. Ce sont les films

qui ont été présentés pour les oscars.

Quant à nos variables de description pour la requête sur l’intervalle des

revenus, nous avons :

X variables qualitatives : Genre, nom réalisateur, acteur principal,

lieu de tournage et pays d’origine du film (sa nationalité).

Y variables quantitatives : Budget du film, le nombre d’oscar obtenu,

la durée du film et son année.

Nous avons choisi comme concept les intervalles de revient d’un film.

Soit :

revenuEcart2

Revenu_Ecart(K)

0-15000

15001-50000

50001-100000

100001-150000

150001-200000

200001-250000

250001-300000

300001-400000

400001-500000

+ de 500001

Donc nous avons dû transformer une variable quantitative en variable

qualitative à l’aide de la table revenuEcart2. Nous avons modifié la table

Revenu_Ecart car cette dernière ne disposait pas d’assez de concepts et

surtout disposait de deux intervalles avec un nombre d’individus

importants donc j’ai éclaté ces deux intervalles afin d’avoir une meilleure

répartition des individus. Divers problèmes se sont posés lors de la

sélection des concepts car le fait de transformer une variable quantitative

en qualitatif nous a fait perdre une variable quantitative alors que la base n’en disposait au départ de beaucoup. Et d’essayer de choisir les concepts

parmi les variables qualitatives me paraissait difficile du fait de ce qui

avait déjà été réalisé.

J’ai essayé de trouver d’autres concepts et je me suis orienté vers les

intervalles de bénéfices d’un film. Qui sont obtenus à partir de la

soustraction entre le coût de revient et le budget d’un film. Cependant je

ne suis pas sûr qu’il soit judicieux par la suite de mettre en variables

quantitatives le revenu du film et son budget. Je vous mets quand même

les concepts. Pour si le temps le permet tenter de faire une analyse

factorielle de ces derniers.

Projet Data Mining

Fabien BADEIG 11\24

Les concepts sont les suivants :

Benef_Ecart

Benef_Ecart(K)

benef negatif

1-100000

100001-200000

200001-300000

+600000

50001-100000

100001-150000

150001-200000

300001-600000

Pour les concepts j’ai également pensé à la concaténation de deux

variables qualitatives. Par exemple le réalisateur d’un film concaténé avec

l’acteur principal. Mais après concaténation des deux il n’y avait

pratiquement aucun regroupement.

Projet Data Mining

Fabien BADEIG 12\24

4 Définitions des requêtes

Je dispose de deux requêtes, une requête pour les concepts des

intervalles de revenus et un concept pour les intervalles de bénéfice. J’ai exécuté les deux méthodes SOE et PCM sur le dernier concept mais je n’ai

pas effectué d’interprétation ni fourni de résultats.

A/ RevenuEcartReq2 :

SELECT Film.Titre, revenuEcart2.[Revenu_Ecart(K)], Film.Genre, Réalisateur.Nom,

Film.Acteur_Principal, Lieu_Tournage.Lieu_Tournage, Film.Pays, Film.Durée,

Film.[Budget(K)], Film.Nombre_Oscars, Film.Année

FROM revenuEcart2, Lieu_Tournage INNER JOIN (Réalisateur INNER JOIN Film ON

Réalisateur.N°_Réalisateur = Film.N°_Réalisateur) ON Lieu_Tournage.Lieu_Tournage_id =

Film.Lieu_Tournage_id

WHERE (([Film]![N°_Réalisateur]=[Réalisateur]![N°_Réalisateur]) AND

([Film]![Lieu_Tournage_id]=[Lieu_Tournage]![Lieu_Tournage_id]) AND

(([Film]![Revenu(K)])>[revenuEcart2]![Revenu_Min(K)] And

([Film]![Revenu(K)])<[revenuEcart2]![Revenu_Max(K)]));

B/ etudBenefEcart :

SELECT DISTINCT Film.Titre, Benef_Ecart.[Benef_Ecart(K)], Film.Genre, Film.Pays,

Film.[Budget(K)], Film.[Revenu(K)], Film.Nombre_Oscars, Film.Durée,

Lieu_Tournage.Lieu_Tournage, Réalisateur.Nom

FROM Revenu_Ecart, Benef_Ecart, Lieu_Tournage INNER JOIN (Réalisateur INNER JOIN

Film ON Réalisateur.N°_Réalisateur = Film.N°_Réalisateur) ON

Lieu_Tournage.Lieu_Tournage_id = Film.Lieu_Tournage_id

WHERE (([Film]![Lieu_Tournage_id]=[Lieu_Tournage]![Lieu_Tournage_id]) AND

(([Film]![Bénéfice(K)])>[Benef_Ecart]![Benef_Min(K)] And

([Film]![Bénéfice(K)])<[Benef_Ecart]![Benef_Max(K)]) AND

(([Film]![N°_Réalisateur])=[Réalisateur]![N°_Réalisateur]));

Projet Data Mining

Fabien BADEIG 13\24

5 SOE avec interprétations

La méthode SOE permet d’obtenir un tableau qui pour chaque concept fournit les valeurs

prises par les variables descriptives de ce concept. Les variables qualitatives seront

représentées par l’ensemble des valeurs de la variable associées à son pourcentage. Par

exemple, pour la variable qualitative genre du film nous obtenons pour chaque concept le

descriptif ci-dessus

L’interprétation de la première ligne est que pour le concept [150001-200000], 22% des

individus de ce concept (i.e., des films dont le revenu est compris entre [150001-200000])

sont des films de sciences fiction, …

Par contre, les variables quantitatives sont exprimées sous forme d’intervalle. Par exemple, la

durée des films du concept [0-15000] est comprise entre 96 et 146.

On a ainsi une vue d’ensemble des concepts.

De plus, l’éditeur permet de visionner un objet symbolique sous une représentation

graphique : l’étoile zoom. Cette représentation est basée sur des axes radiaux. Chaque

représente une variable. On peut choisir dans l’étoile zoom les axes radiaux.

Le but de cette représentation est de fournir une image synthétique de l’objet, un profil et de

comparer les profils.

Nous allons étudier les objets symboliques suivants (car ces derniers émergent de l’analyse

PCM qui est faite dans la partie suivante et sont bien représentés) :

[0-15000]

[100001-150000]

[300001-400000]

+ de 500001

Pour connaître la répartition des individus en fonction des concepts j’ai créé la requête

rapportNbFilmIntervalleRevenu.

Projet Data Mining

Fabien BADEIG 14\24

Les images sont fournies juste à titre indicatif, car pour visualiser les variables qualitatives

relatives au nom des réalisateurs et des acteurs, il faut observer l’histogramme associé à l’axe

radial.

Les deux interprétations majeures flagrantes sur cette représentation sont la concentration des

films dont le revenu est supérieur à 500001 sur la valeur USA de l’axe Pays d’origine des

films et sur la valeur sciences fiction de l’axe genre du film. Il faut remarquer que malgré

l’importance du genre science fiction représentée à 43%, le genre fantastique est également

représenté à 29%.

Par ailleurs, on constate que les films dont les revenus ont « explosé » sont apparus à partir de

1977 indiqué par l’intervalle [1977,1999] de l’axe radial Année. Les axes budget,

nombre_Oscars et durée ne sont pas très représentatifs du fait de leur intervalle trop important

pour affiner l’analyse il faudrait travailler sur les intervalles et donc transformer cette variable

quantitative en variable qualitative.

Les lieux de tournage ont également une représentation significative car Londres et les USA

sont représentés à 29% chacun. On ne peut ignorer la Californie, Hawaï et la Tunisie

représentés à 14% chacun.

L’interprétation générale est que les films dont le revenu est important (supérieur à 500001),

proviennent tous des USA, et ont été réalisés à partir de 1977. De plus, ces films sont

essentiellement des films de science fiction, des films fantastiques. De même, les réalisateurs

fars de ces films sont Lucas ou Spiel. En effet, à eux deux il regroupe 58% des films de

revenu supérieur à 500000.

Pour les concepts suivants, je vais moins détailler l’interprétation.

Projet Data Mining

Fabien BADEIG 15\24

Cette représentation correspond aux films dont le revenu est faible (i.e., compris entre 0 et

15000). Les informations clés qui ressortent sont encore une fois l’importance du pays

d’origine car les USA dominent avec 93% de la représentation sur l’axe radial Pays.

Cependant, la France fait une apparition timide qui n’est pas significative (0,08%) pour ne pas

dire inexistante face à la représentation américaine. Donc on peut dire que la majorité des

films à faible revenu provienne des Etats-Unis.

Il est intéressant de s’attarder sur l’axe radial correspondant au budget des films et au nombre

d’oscars reçus. En effet, les films à faible revenu sont des films dont le budget n’est pas très

élevé. Le budget est compris entre 400 et 18000. Quant au nombre d’oscars, il est également

peu élevé, il est compris entre 0 et 2. Après on ne connaît pas la répartition des oscars donc

pour affiner l’analyse il faudrait calculer cette répartition, mais cette représentation est

suffisante pour en déduire que les films à faible revenu ne sont pas des films fortement

nominés. Par ailleurs, l’axe de la durée du film est indicatif car la durée moyenne des films à

faible revenu (on prend le milieu de l’intervalle [96,146]) est de 111 minutes et en

comparaison à la moyenne des autres intervalles durée des autres objets symboliques, cette

durée est la plus faible, ce qui semble cohérent étant donnée que ces films à faible revenu sont

des films à faible budget.

Les autres axes connaissent une répartition relativement équilibrée. Par exemple, si on étudie

le genre des films à faible revenu, on trouve des films de différents genres même si le genre

dramatique est légèrement plus représenté. On peut s’intéresser aussi au lieu de tournage car

deux points émergent la Californie et les USA. Comme la remarque précédente, étant donné

que la majorité des films à faible revenu sont des films américains et à faible budget, il paraît

évident que les moyens pour ces films sont faibles et ils n’ont pas la possibilité d’aller tourner

à l’étranger.

Projet Data Mining

Fabien BADEIG 16\24

Les USA sont le pays d’origine des films dont le revenu est compris entre 300001 et 400000.

Les lieux de tournage sont représentés essentiellement par 2 catégories : USA et Californie à

respectivement 27% et 36%. Ensuite arrivent New York (0,18), Floride (0,09) et Londres

(0,09) dont le pourcentage n’est pas significatif face aux deux autres.

Pour cet objet symbolique, le genre de films est représenté à 27% par les films fantastiques, et

à 18% pour respectivement les drames et les films policiers. On aurait pu penser voir

apparaître les films de sciences fiction lorsqu’on sait qu’ils sont majoritaires pour le concept

« + de 500001 ». Même remarque que précédemment, les films à revenu élevé sont apparus

en 1977, mais les films dont les revenus sont compris entre 300001 et 400000 (très élevé) sont

apparus dès 1937 dans la même période que les films à faible revenu (i.e., inférieur à 15000).

Dans chaque interprétation, les USA représente le pays d’origine des films car dans la base,

les films sont en majorité d’origine américaine. Cependant les autres pays sont représentés

mais trop faiblement pour avoir un réel impact sur l’analyse. Du fait essentiellement que les

films américains sont présents dans toute les genres de films et tous les budgets, tous les

revenus, …

Projet Data Mining

Fabien BADEIG 17\24

6 ACP (i.e. PCM) avec interprétations

Les concepts qui sont les intervalles des revenus des films se distinguent par leurs variables

descriptives quantitatives relatives au budget du film, à son année de parution, à sa durée et à

son nombre d’oscars. Le principe de la création des rectangles dans la méthode PCM est de

trouver le plus petit rectangle qui contiendra le nuage d’individus du concept C1 et à ce

rectangle est alors associé le concept C1.

La matrice de corrélation permet d’interpréter l’évolution des variables entre elles. Dans la

matrice on constate qu’aucun terme n’est négatif donc on peut en conclure que toutes les

variables vont évoluer dans le même sens.

Corrélations Matrice :

Durée 1.0000 0.1097 0.0921 0.0443

Budget(K) 0.1097 1.0000 0.1551 0.1356

Nombre_Oscars 0.0921 0.1551 1.0000 0.0465

Année 0.0443 0.1356 0.0465 1.0000

PC1 = budget(32,55) et PC3 = durée(22,82)

Les concepts {0-15000} et {400001-500000} sont différenciés par l’axe PC1 qui représente

les budgets nécessaires pour réaliser ces derniers. Par contre leur projection sur l’axe PC2 qui

représente la durée d’un film ne permet de les différencier car ils sont regroupés dans le même

intervalle. Cette interprétation est logique car en général les films qui ont ramené peu d’argent

sont les films à petit revenu alors que les films à gros budget sont des films dont le revenu est

élevé donc la différenciation sur l’axe 1. Par contre, lorsqu’on regarde les interprétations SOE

on constate qu’en règle générale la durée des films est équivalente quelque soit le concept

étudié et ce résultat est corroboré par STAT qui montre que la majorité des films ont une

durée entre 100 minutes et 160 minutes.

Projet Data Mining

Fabien BADEIG 18\24

7 STAT

De ce graphe, on peut en déduire qu’une majorité des films nominés aux oscars reçoivent

entre 0 et 2 oscars (de l’ordre de 21%). Par majorité, j’entends le fait que si on choisit un film

au hasard la probabilité qu’il est entre 0 et 2 oscars est plus importants que les autres. Par

contre, très peu de films obtiennent entre 8 et 10 oscars.

En terme de majorité au sens propre, la majorité des films reçoivent entre 0 et 4 oscars.

Projet Data Mining

Fabien BADEIG 19\24

La majorité des films nominés aux oscars dure entre 110 minutes et 170 minutes. On a

également 15% des films qui dure entre 100 et 110 minutes.

Projet Data Mining

Fabien BADEIG 20\24

8 PYR

Where_the_labels_are_of_the_variables_are:

y1.=Genre

y7.=Budget(K)

y8.=Nombre_Oscars

L’interprétation est la suivante lorsque j’ai deux concepts éloignés dans la hiérarchie je peux

en déduire qu’ils se différencient par rapport aux variables choisies (genre budget et nombre

d’oscars).

Projet Data Mining

Fabien BADEIG 21\24

Where_the_labels_are_of_the_variables_are:

y1.=Genre

y4.=Lieu_Tournage

Projet Data Mining

Fabien BADEIG 22\24

9 DIV PARTITION IN 4 CLUSTERS :

-------------------------:

Cluster 1 (n=2) :

"50001-100000" "0-15000"

Cluster 2 (n=3) :

"300001-400000" "400001-500000" "200001-250000"

Cluster 3 (n=1) :

"+ de 500001"

Cluster 4 (n=4) :

"150001-200000" "100001-150000" "15001-50000" "250001-300000"

Explicated inertia : 92.705477

N’importe quelle variable quantitative choisie j’obtiens toujours cette classification. Donc la

variable budget est la plus explicative de mes concepts.

Projet Data Mining

Fabien BADEIG 23\24

10 TREE

J’ai choisi comme variable de classe la moyenne des bénéfices des films triés en fonction de

leurs intervalles des revenus. Mais j’ai transformé cette variable quantitative en une variable

qualitative. Pour cela, j’ai dû créer une nouvelle table transfovarquantQual qui a chaque

moyenne aussi une évaluation de cette variable en fonction de l’intervalle à laquelle elle

appartient.

Les intervalles de revenus des films nominés aux oscars dont la moyenne des bénéfices est

très moyen, se différencient de ceux dont la moyenne des bénéfices est faible et très faible,

par la valeur de la variable nombre d’oscars supérieure ou égale à 4. La catégorie « tres

moyen » a davantage d’oscars que que la catégorie « faible » et « tres faible ». De même, les

intervalles de revenus des films nominés aux oscars dont la moyenne des bénéfices est faible,

se différencient de ceux dont la moyenne des bénéfices est très faible, par la valeur de la

variable nombre d’oscars supérieure ou égale à 2.

Je ne peux pas exécuter la méthode TREE sur mes variables qualitatives car leur modalité est

supérieure à 12 ce qui est trop important pour la méthode (dommage car cette classification

aurait été intéressante pour mon étude).

Projet Data Mining

Fabien BADEIG 24\24

Conclusion

J’ai rencontré divers bugs sur des machines différentes lors de l’utilisation de SOADAS, et

pour être plus précis lors de l’exécution de la méthode PCM. Je n’ai pas réussi à connaître la

provenance de ces bugs. En fait, j’exécutais la méthode et une boite de dialogue m’indiquant

le loading de la méthode s’affichait ; ensuite j’obtenais un message d’erreur alors qu’il n’y

avait eu au préalable aucun problème avec la méthode SOE. Dans le même style lorsque la

méthode PCM ne renvoyait pas de message erreur, je n’obtenais pas de graphe et le rapport

m’indiquait qu’il fallait mettre un fichier en entrée comme paramètre (seul petit problème est

que tout était bien rentrée selon moi). Et encore plus bizarre j’ai essayé de réaliser le même

chaining sur l’ordinateur d’un des étudiants du DEA et la méthode fonctionnait.

A part ces contre temps, ce projet m’a permis de mettre en pratique les différentes notions

vues en cours sur l’analyse factorielle et surtout de nous familiariser avec l’outil SODAS. On

a pu vraiment appliquer concrètement les notions abordées en cours et ainsi avoir une

visualisation