Comment définir et optimiser ses hypothèses en utilisant le machine learning

Définir et Optimiser ses hypothèses avec le Machine Learning

Jean-BaptistePriezPh.D,DataScientist

Chloé,actuaire,neprévoitpasvotremort,maispresqueRue89,01mai2016RémiNoyon(Journaliste)

Nouvelles données?

commons.wikimedia.org

Comment choisir les données?

commons.wikimedia.orgIMOPbyI-MEDS

Comment choisir les données?

On se pose autour d’une table et on réfléchit ?

On essaye les tables et leurs variables une par une ?

• Laissons la machine réfléchir…• Extraction d’agrégats• Sélection des variables corrélées

Générations d’agrégats - Définition

Une fonction d’agrégation retourne une seule valeur à partir d’un ensemble de valeurs.

Exemple: • La somme des dépenses annuelle médicamenteuses (OCDE)• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)• La date de la dernière catastrophe naturelle (AREHN)• …

Générations d’agrégats - Limites

• Le nombre de décès par département• par overdose• chez les femmes• en surpoids• ayant au moins 4 enfants• avant la sortie de Pokémon GO

• Est-cepertinent?• NON!(…peutprobable…)

Génération d’agrégats – Bonnes pratiques

• Générerautomatiquement• ÉvalueretTrierensuite(automatiquementaussi)

• Commencerpardesagrégatssimples!puisessayerpluscomplexes…

Comment générer des agrégats?Algorithmes et outils:

• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)• Uniquement pour les variables numériques

• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)• Tendance à générer des variables complexes…

• Tilde (https://dtai.cs.kuleuven.be/ACE/)• Uniquement universitaire et complexe à paramétrer…

• PredicSis.ai (Boullé – http://predicsis.ai) • Variables numériques ou catégorielles• Priorisation et valorisation des agrégats simples

Comment évaluer les données?

• Réduction statistique / Discrétiser

• Sélection des variables contributives

Vulgarisation : Discrétisation

:ensembledecibles(ex:malade,sain)

Discrétiser:chercheràtrouverlemeilleurdécoupage

Méthodes de réductions (old fashion)

Discrétisation par:• Équidistance• Problème si distribution asymétrique

• Progression arithmétique• Problème si distribution non-asymétrique (selon loi normale)

• Équifréquence• Masque rapidement de fortes discontinuités

• …• Manuelle• « Idéale » mais chronophage

Méthodes de réductions (moderne)

Discrétisation par:• ChiMerge (R, SAS)

• Favorise l’aspect statistique (quantité suffisante)• C4.5 (…)

• Favorise la qualité informationnelle (intervalles homogènes)

• Fusinter (Zighed & co - Sinipa)• MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark)• MODL / PredicSis.ai (Boullé – http://predicsis.ai)

• Meilleur compromis basé sur la théorie de l’information

Vulgarisation : MODL

:ensembledecibles(ex:malade,sain)

I:𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖(

nDiscrétiseravecMODL=Minimiserlaformulesuivante:

𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678"78" +∑ log 5;6<8"

<8"7=>" +∑ log 5;!

5;,A!5;,B!…5;,D!E7=>"

contributionstatistiquecontributioninformationnelle

Conclusion

Références

• M.Boullé. Towards Automatic Feature ConstructionforSupervisedClassification.In ECML/PKDD2014,Pages181-196,2014.• M.Boullé. MODL:aBayesoptimaldiscretization method forcontinuous attributes. MachineLearning,65(1):131-165,2006.• M.Boullé. ABayesoptimalapproach forpartitioning thevaluesofcategorical attributes. JournalofMachineLearningResearch,6:1431-1452,2005.

Comment définir et optimiser ses hypothèses en utilisant le machine learning

Data & Analytics

1. L’approche keynésienne 1.1. Hypothèses

ANALYSES...Collecte-tri - hypothèses de volume 91 Régénération - hypothèses de volume 92 Chiffrage du marché en valeur 96 Collecte et tri 96 Régénération 97 Hypothèses de

Synthèse des hypothèses à caler

Document préliminaire – Deux hypothèses pour une réforme

Le e-learning pour optimiser la formation de notre réseau mondial de vente

Formations E-learning 2020 - Factorielles · Cumul emploi-retraite : maîtriser pour optimiser Départ en retraite : maîtriser pour optimiser Optimisation retraite Niveau 3 Niveau

Rencontres du e-learning et de la formation mixte 23 novembre 2011 Le e-learning pour optimiser la formation de notre réseau mondial de vente

HYPOTHÈSES ET RÉFLEXIONS SUR LA DÉGRADATION DES

Flipped learning

les hypothèses (Si…)

Le droit du e learning - Journées du E-Learning

Du E-Learning 1 au E-Learning 2 à l'USJ

Learning Analytics Architecture to Scaffold Learning ... · Learning Analytics Architecture to Scaffold Learning Experience through Technology-based Methods Jannicke Baalsrud Hauge1*,

Formation utilisateurs Hypothèses 2013-10

My Nell’ Learning MyNell-Learning@nellarmonia · Catalogue My Nell’ Learning •150 consultants, experts techniques, métiers, projets. •Certifications Oracle EPM, Anaplan,

Learning Echniques

Machine learning

Formation Hypothèses - mai 2014

BOLD, Hypothèses et Desseins Expérimentaux

Cahier des Charges Projet de Formation E-learning e-learning RH FORMA… · soit d’une formation e-learning soit d’un outil d’information. - une solution de formation e-learning