39
Copyright © 2014, SAS Institute Inc. All rights reserved. GROUP PROCESSING AVEC ENTERPRISE MINER SENG TANG CONSULTANT ANALYTIQUE – SAS CANADA APRIL 2014

Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Embed Size (px)

Citation preview

Page 1: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

GROUP PROCESSING AVEC ENTERPRISE

MINER

SENG TANG

CONSULTANT ANALYTIQUE – SAS CANADA

APRIL 2014

Page 2: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CE QUE VOUS ALLEZ APPRENDRE

- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus

donné.

- Facilite et simplifie la création de multiples modèles

- Par « target »

- Par segment (statique ou dynamique)

- Permet d’accéder à des fonctionnalités supplémentaires d’Enterprise

Miner: « K-fold cross-validation », bagging et de boosting

- Se veut une approche « automatisée » axée sur les performances

prédictives des modèles et non pas sur l’aspect descriptif.

Page 3: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AGENDA

- Qu’est-ce que le « Group processing » dans Enterprise Miner?

- Applications:

- Modéliser des « targets » multiples ou créer des modèles par

segment avec un même « flow »

- Réaliser un « K-fold cross-validation » pour mesurer la robustesse

des modèles

- Bagging et de Boosting

- Avantages et inconvénients

- Questions

Page 4: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

QU’EST-CE QUE GROUP PROCESSING?

- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus

donné.

1. Permet de diminuer le travail du modélisateur en diminuant le

nombre de « flows » qui doit être créé.

2. Permet d’accéder à des fonctionnalités d’Enterprise Miner qui sont

difficiles à reproduire.

Page 5: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

QU’EST-CE QUE GROUP PROCESSING?

Page 6: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MODÉLISER PLUSIEURS TARGETS EN UN SEUL

« FLOW »

RÉDUCTION DU TRAVAIL DU MODÉLISATEUR

Page 7: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET

Target 1

Target 2

Target 1 + Target 2

Page 8: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET

Page 9: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud comparaison de modèles

Page 10: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 11: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 12: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 13: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud Scoring

Page 14: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CRÉER DES MODÈLES PAR SEGMENT EN UN

SEUL « FLOW »

RÉDUCTION DU TRAVAIL DU MODÉLISATEUR

Page 15: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT – VARIABLE SEGMENT EXISTANTE

Page 16: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Page 17: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud End Group et Nœuds de modèles

Page 18: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud End Group et Nœuds de modèles

Page 19: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud End Group et Nœuds de modèles

Page 20: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud Scoring

Page 21: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT – RÉSULTATS (SUITE)

Nœud Scoring

Page 22: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D’UN

ALGORITHME DE CLUSTERING

Page 23: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D’UN

ALGORITHME DE CLUSTERING (SUITE)

Page 24: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT DYNAMIQUE

Nœud Scoring

Vous trouverez dans le

noeud scoring le code de

clustering additionellement

au code des modèles pour

chacun des segments

Page 25: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

VALIDATION DE MODÈLE POUR « PETITS » JEUX DE DONNÉES

Page 26: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

- Utile lorsque les données ne sont pas très volumineuses et que

vous ne voulez pas réserver une portion de celles-ci pour l’étape

de validation (Hold-out Sample).

- Consiste en:

- Utiliser toutes les données disponibles pour entrainer et

valider le modèle

- Séparer l’échantillon d’entrainement en k groupes

- Entrainer le modèle sur les k-1 groupes

- Évaluer la performance du modèle sur le groupe restant;

groupe de validation

- Itérer jusqu’à ce que tous les k groupes ont été utilisés

comme groupe de validation

- Utiliser la moyenne de performance du modèle sur les k

groupes comme performance du modèle

- K = 10 est souvent utilisé

Page 27: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

Performance moyenne sur les k groupes utilisés pour la

validation du modèle

1 Validate

2

3

4

5

6

7

8

9

10

Train

1 Train

2 Validate

3

4

5

6

7

8

9

10

Train

1

2

3 Validate

4

5

6

7

8

9

10

Train

Train

1

2

2

4

5

6

7

8

9

10 Validate

Train. . .

Illustration avec k=10

Page 28: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

Crée 10 groupes aléatoires.

Modifiez le “10” pour créer le

nombre de groupes nécessaires.

Page 29: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 30: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 31: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 32: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING

CRÉATION DE MODÈLES ENSEMBLISTES

Page 33: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING

Le Bagging et le Boosting sont des méthodes de rééchantillonnage (avec

remplacement) dont le but est de créer des modèles ensemblistes. Celles-

ci peuvent augmenter la performance et/ou la stabilité des modèles.

Variable

Target

continue ou

catégorielle

Variable

catégorielle

seulement

Page 34: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING

ou

Page 35: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING – RÉSULTATS

Nœud End Group ou Nœuds des modèles

Page 36: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AVANTAGES ET INCONVÉNIENTS

Avantages:

- Permet de diminuer le travail du modélisateur en diminuant le nombre

de « flows » qui doit être créé.

- Permet d’accéder à des fonctionnalités d’Enterprise Miner qui sont

difficiles à reproduire.

Inconvénients (limitations):

- Se veut une approche “automatisée” axée sur les performances

prédictives des modèles:

- Plusieurs informations descriptives des modèles sont laissées

de côté. (Résultats des régressions, Graphs des arbres de

décision, etc.)

Page 37: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

RÉFÉRENCE

“The Power of the Group Processing Facility in EM”

Sascha Schubert, SAS Institute

http://support.sas.com/resources/papers/proceedings10/123-2010.pdf

Page 38: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

« TAKE-AWAYS »

- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus

donnée.

- Facilite et simplifie la creation de multiple modèles

- Par « target »

- Par segment (statique ou dynamique)

- Permet d’accéder à des fonctionnalités supplémentaires d’Enterprise

Miner: « K-fold cross-validation », bagging et de boosting

- Se veut une approche « automatisée » axée sur les performances

prédictives des modèles et non pas sur l’aspect descriptif.

Page 39: Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ... AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com

MERCI! QUESTIONS?!