51
Machine learning et Data Mining Introduction Jamal Atif [email protected] Certificat Data Science Université Paris-Dauphine 1 / 42 Jamal Atif CDS-Dauphine

Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Embed Size (px)

Citation preview

Page 1: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Machine learning et Data MiningIntroduction

Jamal [email protected]

Certificat Data Science

Université Paris-Dauphine

1 / 42 Jamal Atif CDS-Dauphine

Page 2: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

2 / 42 Jamal Atif CDS-Dauphine

Page 3: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction ADM, c’est quoi ?

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

3 / 42 Jamal Atif CDS-Dauphine

Page 4: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction ADM, c’est quoi ?

Le Machine Learning et DataMining, qu’est-ce que c’est ?

4 / 42 Jamal Atif CDS-Dauphine

Page 5: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction ADM, c’est quoi ?

Question de vocabulaire... (1)

Attention :I historiquement : plusieurs «

points de départ »I domaine récent dont le

vocabulaire n’est pas fixéI évolution rapideI domaine applicatif versus

domaine de recherche

5 / 42 Jamal Atif CDS-Dauphine

Page 6: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction ADM, c’est quoi ?

Question de vocabulaire... (2)

I reconnaissance des formes (patternrecognition)

I analyse de donnéesI apprentissage automatique (machine

learning)

I fouille de données (data mining)I intelligence artificielleI statistiqueI ...

⇒ domaines différents avec des intersections plus ou moins grandes

Data Sciences

6 / 42 Jamal Atif CDS-Dauphine

Page 7: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction ADM, c’est quoi ?

Dans ce cours

DéfinitionEnsemble de techniques permettant l’extraction de connaissances sous laforme de modèles à partir de grandes masses de données

Ces modèles peuvent être de natureI descriptive : permettant d’expliquer le comportement actuel des donnéesI prédictive : comportement futur des données.

7 / 42 Jamal Atif CDS-Dauphine

Page 8: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

8 / 42 Jamal Atif CDS-Dauphine

Page 9: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?Dans l’industrie

Carte de créditI tous les achats sont enregistrésI détection des fraudes/comportement à

risqueI ciblageI accord de prêtI ...

Navigation WebI historique de la navigationI ciblage/marketingI optimisation des sites / du trafficI ...

9 / 42 Jamal Atif CDS-Dauphine

Page 10: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?Pour la science

fMRI

I functional Magnetic Resonance ImagingI variation de pression sanguine en réponse à des

stimuliI brain computer interface

Big Science

I détecteur ATLAS du CERNI 40M événements par secondes, 25Mo par événementI 1Po de données générées par secondes à analyserI même situation en biologie, astronomie, ...

10 / 42 Jamal Atif CDS-Dauphine

Page 11: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?Pour la société

I tous les textes et discussion duparlement européen sontdisponibles...

I ...avec leurtraduction/interprétation

I corpus parallèle : les phrases sontalignés

I utilisable pour apprendre :I des dictionnairesI des systèmes de traduction

automatiqueI des mémoires de traduction

I ⊕ analyse « politique » desdonnées

11 / 42 Jamal Atif CDS-Dauphine

Page 12: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

Et encore

I Smart CitiesI Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les

rails souhaitant suivre en temps réel l’état de son réseau...I Analyse de qualité de partenariat : cadres, signature d’un contrat avec un

prestataire, pour une qualité de service et de respect de normesnationales ou supra-nationales. =⇒ étude des publications, presse,dépêches, tweets + information interne pour quantifier les cas de nonrespect ou de respect des engagements.

I Historique des passages de frontières, etc.

12 / 42 Jamal Atif CDS-Dauphine

Page 13: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?

Une grosse quantité de données qui n’est jamais analysée⇒mettre en place des mécanismes d’analyse automatique.

Big Data

13 / 42 Jamal Atif CDS-Dauphine

Page 14: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Introduction L’ADM, pourquoi ?

ADM : composants de base

Grande quantité de données + algorithmes efficaces

Un domaine qui s’appuie sur :I La disponibilité de grandes quantités de données

I Si ensemble trop petit, les structures peuvent ne résulter que du hasard.I On peut espérer qu’un gros volume de données représente bien l’univers

(échantillon).I Des algorithmes sûrs et efficaces

I Algorithmes sûrs : fondés théoriquement, corrects.I Efficaces en temps et en espace.I Résultats interprétables.I Paramètres ajustables facilement et rapidement.

14 / 42 Jamal Atif CDS-Dauphine

Page 15: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Types de données Exemples de données disponibles

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

15 / 42 Jamal Atif CDS-Dauphine

Page 16: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Types de données Exemples de données disponibles

Les données ?Les données peuvent être vues comme une collection d’objets(enregistrements) et leurs attributs.

I Un attribut est une propriété et ou une caractéristique de l’objet.I Un ensemble d’attributs décrit un objet.

16 / 42 Jamal Atif CDS-Dauphine

Page 17: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Types de données Exemples de données disponibles

Attribut - valeur

I La valeur d’un attribut est un nombre ou un symbole.I Ne pas confondre attribut et valeur

TypesI Quantitative (numérique, exprime une quantité)

I Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)I Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température,

QI)

I QualititativeI Variable ordinale (classement à un concours, échelle de satisfaction client)I Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)

I Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les donnéesex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont{bleu,vert,noir,...}

17 / 42 Jamal Atif CDS-Dauphine

Page 18: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Types de données Exemples de données disponibles

Exemple de données disponibles

I Transactions.I Bases de données des entreprises.I Téléphone portable.I Satellites : espace et la terre.I Données temporelles : cours de la bourse, météo.I Génomique.I Données du web.I Données textuelles.I ...

18 / 42 Jamal Atif CDS-Dauphine

Page 19: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Types de données Types de connaissances extraites

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

19 / 42 Jamal Atif CDS-Dauphine

Page 20: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Types de données Types de connaissances extraites

Types de connaissances extraites

Connaissances sous la forme de modèles de permettant deI décrire le comportement actuel des données et/ouI prédire le comportement futur des données.

I AnalysesI e.g. distribution du trafic routier en fonction de l’heure

I RèglesI e.g. si un client a acheté un produit alors il sera intéressé par un autre.

I Attribution de scores de qualitéI e.g. score de fidélité au client

I Classification d’entitésI e.g. mauvais payeurs.

20 / 42 Jamal Atif CDS-Dauphine

Page 21: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

21 / 42 Jamal Atif CDS-Dauphine

Page 22: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches

Typologie des méthodes de fouilles de données

Typologie selon l’objectifI Classification : examiner les caractéristiques d’un objet et lui attribuer

une classe.e.g. diagnostic ou décision d’attribution de prêt à un client.

I Prédiction : prédire la valeur future d’un attribut en fonction d’autresattributs.e.g. prédire la qualité d’un client .

I Association : déterminer les attributs qui sont corrélés.e.g. analyse du panier de la ménagère

I Segmentation : former des groupes homogènes à l’intérieur d’unepopulation.

22 / 42 Jamal Atif CDS-Dauphine

Page 23: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches

Typologie des méthodes de fouilles de données

Typologie selon le type de modèle obtenuI Modèles prédictifs.

I Utilisent les données existantes et des résultats connus sur ces données pourdévelopper des modèles capables de prédire les valeurs d’autres données.e.g. Prédire les clients qui ne rembourseront pas leur crédit.

I Utilisés principalement en classification et prédiction.I Modèles descriptifs.

I Proposent des descriptions de données pour aider à la prise de décision.I Souvent en amont de la construction de modèles prédictifs.I Utilisés principalement en segmentation et association.

23 / 42 Jamal Atif CDS-Dauphine

Page 24: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches

Typologie des méthodes de fouilles de données

Typologie selon le type d’apprentissage utiliséI Apprentissage supervisé : fouille supervisée

I Processus qui prend en entrée des exemples d’apprentissage contenant à lafois des données d’entrée et de sortie.

I Les exemples d’apprentissage sont fournis avec leur classe.I But : classer correctement un nouvel exemple.I Utilisés principalement en classification et prédiction.

I Apprentissage non supervisé : fouille non superviséeI Processus qui prend en entrée des exemples d’apprentissage contenant que

des données d’entréeI Pas de notion de classeI But : regrouper les exemples en paquets (clusters) d’exemples similaires.I Utilisés principalement en segmentation et association.

24 / 42 Jamal Atif CDS-Dauphine

Page 25: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches

Dans ce cours, nous adoptons la typologie selon le type d’apprentissageutilisé.

25 / 42 Jamal Atif CDS-Dauphine

Page 26: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

26 / 42 Jamal Atif CDS-Dauphine

Page 27: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :

X 3 xf∈F−→ y ∈ Y

I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine

Page 28: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :

X 3 xf∈F−→ y ∈ Y

I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine

Page 29: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :

X 3 xf∈F−→ y ∈ Y

I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine

Page 30: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :

X 3 xf∈F−→ y ∈ Y

I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine

Page 31: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :

X 3 xf∈F−→ y ∈ Y

I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine

Page 32: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Apprentissage superviséClassification

Examiner les caractéristiques d’un objet et lui attribuer une classe (un champparticulier à valeurs discrètes).

I Etant donnée une collection d’enregistrements (ensembled’apprentissage).

I Chaque enregistrement contient un ensemble d’attributs et un de cesattributs est sa classe.

I Trouver un modèle pour l’attribut classe comme une fonction de lavaleurs des autres attributs

I But : permettre d’assigner une classe à des enregistrements inconnus demanière aussi précise que possible.

I Un ensemble de test est utilisé pour déterminer la précision du modèle.

28 / 42 Jamal Atif CDS-Dauphine

Page 33: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Classification : exemple

29 / 42 Jamal Atif CDS-Dauphine

Page 34: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Classification : exemples d’applications

Marketing directI But : réduire le coût du mailing en ciblant un ensemble de

consommateurs qui achèteront vraisemblablement un nouveautéléphone portable.

I Approche :I Utiliser des données pour un produit similaire.I On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est

l’attribut classe.I Collecter diverses informations sur ce type de consommateurs.I Cette information représente les entrées du classifier.

30 / 42 Jamal Atif CDS-Dauphine

Page 35: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage supervisée

Classification : exemples d’applications

I Détection de fraudes à la carte bancaire à l’aide des transactions etd’informations sur le porteur du compte.

I Détection de désabonnement à l’aide des données sur d’autresconsommateurs présents ou passés.

I Catalogage du ciel : classification des objets du ciel à l’aide d’images.

31 / 42 Jamal Atif CDS-Dauphine

Page 36: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Plan

1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites

3 Familles d’approchesApprentissage superviséApprentissage non-supervisé

32 / 42 Jamal Atif CDS-Dauphine

Page 37: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Apprentissage non-supervisé

Principe

Etant donné un ensemble non étiqueté S = {xi, i = 1 . . .N} : modélisation deX

33 / 42 Jamal Atif CDS-Dauphine

Page 38: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Partitionnement / clustering

Former des groupes homogènes à l’intérieur d’une population

I méthodes hiérarchiquesI méthodes agglomérativesI méthodes spectralesI méthodes probabilistes

34 / 42 Jamal Atif CDS-Dauphine

Page 39: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Estimation de densitéI Méthodes paramétriquesI Méthodes non paramétriques

F PDF Contour

-2 -1 0 1 2 3 4

-2

-1

0

1

2

3

4

34 / 42 Jamal Atif CDS-Dauphine

Page 40: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Sélection / recodage de variablesI réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc)I identification des variables pertinentes

−0.2 −0.1 0.0 0.1 0.2 0.3

−0.

2−

0.1

0.0

0.1

0.2

0.3

Comp.1

Com

p.2

AlabamaAlaska

Arizona

Arkansas

California

ColoradoConnecticut

Delaware

Florida

Georgia

Hawaii

Idaho

Illinois

Indiana Iowa

Kansas

KentuckyLouisiana

MaineMaryland

Massachusetts

Michigan

Minnesota

Mississippi

Missouri

Montana

Nebraska

Nevada

New Hampshire

New Jersey

New Mexico

New York

North Carolina

North Dakota

Ohio

Oklahoma

Oregon Pennsylvania

Rhode Island

South Carolina

South DakotaTennessee

Texas

Utah

Vermont

Virginia

Washington

West Virginia

Wisconsin

Wyoming

−5 0 5

−5

05

Murder

Assault

UrbanPop

Rape

34 / 42 Jamal Atif CDS-Dauphine

Page 41: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Analyse des corrélationsI numériques : étude des corrélations, de l’information mutuelle : A et B

sont liésI symbolique : extraction de règles d’association : A→ B

34 / 42 Jamal Atif CDS-Dauphine

Page 42: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Visualisation et exploration des donnéesI projections optimales dans Rp, p petitI constructions de hiérarchiesI extraction des exemples / dimensions typiques

34 / 42 Jamal Atif CDS-Dauphine

Page 43: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

CombinaisonsI estimation paramétrique + partitionnementI réduction dimension + partitionnementI réduction dimension + visualisationI ...

34 / 42 Jamal Atif CDS-Dauphine

Page 44: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Partitionnement : exemples d’applications

I Segmentation de marchés .I Segmentation de documents.I ...

35 / 42 Jamal Atif CDS-Dauphine

Page 45: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Association : exemples d’applications

Entrée : Un ensemble de tickets de caisse

I Une observation = un caddie, un ticket de caisse.I Non prise en compte de la fréquence des produits.I Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de

l’ensemble de produits).

Sortie : Des règles

36 / 42 Jamal Atif CDS-Dauphine

Page 46: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Association : exemples d’application

I Marketing et promotions sur des produits.I Gestion du supermarchés : rayonnage.I Inventaire.I ...

37 / 42 Jamal Atif CDS-Dauphine

Page 47: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Organisation de la session

Partie 1 : Approches non-supervisées

1. Introduction générale2. Réduction de dimensionalité

I Analyse par Composantes PrincipalesI Décomposition en Valeurs Singulières : application à l’analyse sémantique

latente et à la recommandation

3. Partitionnement/ClusteringI Algorithme K-MoyennesI Clustering hiérarchique

4. Règles d’association5. Travaux Pratiques sous R : Text Mining

38 / 42 Jamal Atif CDS-Dauphine

Page 48: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Organisation de la session

Partie 2 : Approches superviséesI Arbres de décisionI knn, Bayes naïfI Techniques de validation et d’échantillonageI Deep learning

39 / 42 Jamal Atif CDS-Dauphine

Page 49: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Résumé

masse de don-nées (corpus)

I connaissancesI informationsI prédictions

40 / 42 Jamal Atif CDS-Dauphine

Page 50: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Logiciels d’ADM

Logiciels commerciauxI Suites logicielles SAS

(http://www.sas.com/offices/europe/france/)I SPSS d’IBM

(http://www-01.ibm.com/software/fr/analytics/spss/)I Solution Analytics de SAP

(http://www.sap.com/pc/analytics/strategy.html), KXENI ...

41 / 42 Jamal Atif CDS-Dauphine

Page 51: Machine learning et Data Mining - Introductionatif/lib/exe/fetch.php?media=teaching:cour… · I apprentissage automatique (machine learning) I fouille de données (data mining) I

Familles d’approches Apprentissage non-supervisé

Logiciels de data mining

Logiciels gratuits

I

I Weka : http://www.cs.waikato.ac.nz/ml/weka/I Ensemble de classes et d’algorithmes JAVA developpés par l’Université de

Waikato en Nouvelle Zelande.I Principaux algorithmes de data mining.I Utilisable en ligne de commande, à l’aide d’une interface utilisateur, par

l’API.I ScikitLearnI

I ...

42 / 42 Jamal Atif CDS-Dauphine