Upload
doanlien
View
219
Download
0
Embed Size (px)
Citation preview
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
GROUP PROCESSING AVEC ENTERPRISE
MINER
SENG TANG
CONSULTANT ANALYTIQUE – SAS CANADA
APRIL 2014
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CE QUE VOUS ALLEZ APPRENDRE
- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus
donné.
- Facilite et simplifie la création de multiples modèles
- Par « target »
- Par segment (statique ou dynamique)
- Permet d’accéder à des fonctionnalités supplémentaires d’Enterprise
Miner: « K-fold cross-validation », bagging et de boosting
- Se veut une approche « automatisée » axée sur les performances
prédictives des modèles et non pas sur l’aspect descriptif.
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
AGENDA
- Qu’est-ce que le « Group processing » dans Enterprise Miner?
- Applications:
- Modéliser des « targets » multiples ou créer des modèles par
segment avec un même « flow »
- Réaliser un « K-fold cross-validation » pour mesurer la robustesse
des modèles
- Bagging et de Boosting
- Avantages et inconvénients
- Questions
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
QU’EST-CE QUE GROUP PROCESSING?
- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus
donné.
1. Permet de diminuer le travail du modélisateur en diminuant le
nombre de « flows » qui doit être créé.
2. Permet d’accéder à des fonctionnalités d’Enterprise Miner qui sont
difficiles à reproduire.
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
QU’EST-CE QUE GROUP PROCESSING?
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MODÉLISER PLUSIEURS TARGETS EN UN SEUL
« FLOW »
RÉDUCTION DU TRAVAIL DU MODÉLISATEUR
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET
Target 1
Target 2
Target 1 + Target 2
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET - RÉSULTATS
Nœud comparaison de modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET - RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET - RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET - RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI TARGET - RÉSULTATS
Nœud Scoring
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CRÉER DES MODÈLES PAR SEGMENT EN UN
SEUL « FLOW »
RÉDUCTION DU TRAVAIL DU MODÉLISATEUR
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT – VARIABLE SEGMENT EXISTANTE
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT - RÉSULTATS
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT - RÉSULTATS
Nœud End Group et Nœuds de modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT - RÉSULTATS
Nœud End Group et Nœuds de modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT - RÉSULTATS
Nœud End Group et Nœuds de modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT - RÉSULTATS
Nœud Scoring
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT – RÉSULTATS (SUITE)
Nœud Scoring
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D’UN
ALGORITHME DE CLUSTERING
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D’UN
ALGORITHME DE CLUSTERING (SUITE)
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
MULTI SEGMENT DYNAMIQUE
Nœud Scoring
Vous trouverez dans le
noeud scoring le code de
clustering additionellement
au code des modèles pour
chacun des segments
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION
VALIDATION DE MODÈLE POUR « PETITS » JEUX DE DONNÉES
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION
- Utile lorsque les données ne sont pas très volumineuses et que
vous ne voulez pas réserver une portion de celles-ci pour l’étape
de validation (Hold-out Sample).
- Consiste en:
- Utiliser toutes les données disponibles pour entrainer et
valider le modèle
- Séparer l’échantillon d’entrainement en k groupes
- Entrainer le modèle sur les k-1 groupes
- Évaluer la performance du modèle sur le groupe restant;
groupe de validation
- Itérer jusqu’à ce que tous les k groupes ont été utilisés
comme groupe de validation
- Utiliser la moyenne de performance du modèle sur les k
groupes comme performance du modèle
- K = 10 est souvent utilisé
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION
Performance moyenne sur les k groupes utilisés pour la
validation du modèle
1 Validate
2
3
4
5
6
7
8
9
10
Train
1 Train
2 Validate
3
4
5
6
7
8
9
10
Train
1
2
3 Validate
4
5
6
7
8
9
10
Train
Train
1
2
2
4
5
6
7
8
9
10 Validate
Train. . .
Illustration avec k=10
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION
Crée 10 groupes aléatoires.
Modifiez le “10” pour créer le
nombre de groupes nécessaires.
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION - RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION - RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
K-FOLD CROSS-VALIDATION - RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BAGGING ET BOOSTING
CRÉATION DE MODÈLES ENSEMBLISTES
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BAGGING ET BOOSTING
Le Bagging et le Boosting sont des méthodes de rééchantillonnage (avec
remplacement) dont le but est de créer des modèles ensemblistes. Celles-
ci peuvent augmenter la performance et/ou la stabilité des modèles.
Variable
Target
continue ou
catégorielle
Variable
catégorielle
seulement
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BAGGING ET BOOSTING
ou
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BAGGING ET BOOSTING – RÉSULTATS
Nœud End Group ou Nœuds des modèles
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
AVANTAGES ET INCONVÉNIENTS
Avantages:
- Permet de diminuer le travail du modélisateur en diminuant le nombre
de « flows » qui doit être créé.
- Permet d’accéder à des fonctionnalités d’Enterprise Miner qui sont
difficiles à reproduire.
Inconvénients (limitations):
- Se veut une approche “automatisée” axée sur les performances
prédictives des modèles:
- Plusieurs informations descriptives des modèles sont laissées
de côté. (Résultats des régressions, Graphs des arbres de
décision, etc.)
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
RÉFÉRENCE
“The Power of the Group Processing Facility in EM”
Sascha Schubert, SAS Institute
http://support.sas.com/resources/papers/proceedings10/123-2010.pdf
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
« TAKE-AWAYS »
- Fonctionnalité d’Enterprise Miner qui permet d’itérer sur un processus
donnée.
- Facilite et simplifie la creation de multiple modèles
- Par « target »
- Par segment (statique ou dynamique)
- Permet d’accéder à des fonctionnalités supplémentaires d’Enterprise
Miner: « K-fold cross-validation », bagging et de boosting
- Se veut une approche « automatisée » axée sur les performances
prédictives des modèles et non pas sur l’aspect descriptif.
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com
MERCI! QUESTIONS?!