Group Processing Avec EM - sas.com · SEUL « FLOW » RÉDUCTION DU TRAVAIL DU MODÉLISATEUR. ......

Preview:

Citation preview

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

GROUP PROCESSING AVEC ENTERPRISE

MINER

SENG TANG

CONSULTANT ANALYTIQUE – SAS CANADA

APRIL 2014

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CE QUE VOUS ALLEZ APPRENDRE

- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus

donné.

- Facilite et simplifie la création de multiples modèles

- Par « target »

- Par segment (statique ou dynamique)

- Permet d’accéder à des fonctionnalités supplémentaires d’Enterprise

Miner: « K-fold cross-validation », bagging et de boosting

- Se veut une approche « automatisée » axée sur les performances

prédictives des modèles et non pas sur l’aspect descriptif.

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AGENDA

- Qu’est-ce que le « Group processing » dans Enterprise Miner?

- Applications:

- Modéliser des « targets » multiples ou créer des modèles par

segment avec un même « flow »

- Réaliser un « K-fold cross-validation » pour mesurer la robustesse

des modèles

- Bagging et de Boosting

- Avantages et inconvénients

- Questions

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

QU’EST-CE QUE GROUP PROCESSING?

- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus

donné.

1. Permet de diminuer le travail du modélisateur en diminuant le

nombre de « flows » qui doit être créé.

2. Permet d’accéder à des fonctionnalités d’Enterprise Miner qui sont

difficiles à reproduire.

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

QU’EST-CE QUE GROUP PROCESSING?

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MODÉLISER PLUSIEURS TARGETS EN UN SEUL

« FLOW »

RÉDUCTION DU TRAVAIL DU MODÉLISATEUR

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET

Target 1

Target 2

Target 1 + Target 2

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud comparaison de modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI TARGET - RÉSULTATS

Nœud Scoring

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CRÉER DES MODÈLES PAR SEGMENT EN UN

SEUL « FLOW »

RÉDUCTION DU TRAVAIL DU MODÉLISATEUR

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT – VARIABLE SEGMENT EXISTANTE

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud End Group et Nœuds de modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud End Group et Nœuds de modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud End Group et Nœuds de modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT - RÉSULTATS

Nœud Scoring

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT – RÉSULTATS (SUITE)

Nœud Scoring

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D’UN

ALGORITHME DE CLUSTERING

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D’UN

ALGORITHME DE CLUSTERING (SUITE)

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

MULTI SEGMENT DYNAMIQUE

Nœud Scoring

Vous trouverez dans le

noeud scoring le code de

clustering additionellement

au code des modèles pour

chacun des segments

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

VALIDATION DE MODÈLE POUR « PETITS » JEUX DE DONNÉES

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

- Utile lorsque les données ne sont pas très volumineuses et que

vous ne voulez pas réserver une portion de celles-ci pour l’étape

de validation (Hold-out Sample).

- Consiste en:

- Utiliser toutes les données disponibles pour entrainer et

valider le modèle

- Séparer l’échantillon d’entrainement en k groupes

- Entrainer le modèle sur les k-1 groupes

- Évaluer la performance du modèle sur le groupe restant;

groupe de validation

- Itérer jusqu’à ce que tous les k groupes ont été utilisés

comme groupe de validation

- Utiliser la moyenne de performance du modèle sur les k

groupes comme performance du modèle

- K = 10 est souvent utilisé

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

Performance moyenne sur les k groupes utilisés pour la

validation du modèle

1 Validate

2

3

4

5

6

7

8

9

10

Train

1 Train

2 Validate

3

4

5

6

7

8

9

10

Train

1

2

3 Validate

4

5

6

7

8

9

10

Train

Train

1

2

2

4

5

6

7

8

9

10 Validate

Train. . .

Illustration avec k=10

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION

Crée 10 groupes aléatoires.

Modifiez le “10” pour créer le

nombre de groupes nécessaires.

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

K-FOLD CROSS-VALIDATION - RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING

CRÉATION DE MODÈLES ENSEMBLISTES

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING

Le Bagging et le Boosting sont des méthodes de rééchantillonnage (avec

remplacement) dont le but est de créer des modèles ensemblistes. Celles-

ci peuvent augmenter la performance et/ou la stabilité des modèles.

Variable

Target

continue ou

catégorielle

Variable

catégorielle

seulement

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING

ou

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BAGGING ET BOOSTING – RÉSULTATS

Nœud End Group ou Nœuds des modèles

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AVANTAGES ET INCONVÉNIENTS

Avantages:

- Permet de diminuer le travail du modélisateur en diminuant le nombre

de « flows » qui doit être créé.

- Permet d’accéder à des fonctionnalités d’Enterprise Miner qui sont

difficiles à reproduire.

Inconvénients (limitations):

- Se veut une approche “automatisée” axée sur les performances

prédictives des modèles:

- Plusieurs informations descriptives des modèles sont laissées

de côté. (Résultats des régressions, Graphs des arbres de

décision, etc.)

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

RÉFÉRENCE

“The Power of the Group Processing Facility in EM”

Sascha Schubert, SAS Institute

http://support.sas.com/resources/papers/proceedings10/123-2010.pdf

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

« TAKE-AWAYS »

- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus

donnée.

- Facilite et simplifie la creation de multiple modèles

- Par « target »

- Par segment (statique ou dynamique)

- Permet d’accéder à des fonctionnalités supplémentaires d’Enterprise

Miner: « K-fold cross-validation », bagging et de boosting

- Se veut une approche « automatisée » axée sur les performances

prédictives des modèles et non pas sur l’aspect descriptif.

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com

MERCI! QUESTIONS?!

Recommended