16
Définir et Optimiser ses hypothèses avec le Machine Learning Jean-Baptiste Priez Ph.D, Data Scientist

Comment définir et optimiser ses hypothèses en utilisant le machine learning

Embed Size (px)

Citation preview

Page 1: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Définir et Optimiser ses hypothèses avec le Machine Learning

Jean-BaptistePriezPh.D,DataScientist

Page 2: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Chloé,actuaire,neprévoitpasvotremort,maispresqueRue89,01mai2016RémiNoyon(Journaliste)

Page 3: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Nouvelles données?

commons.wikimedia.org

Page 4: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Comment choisir les données?

commons.wikimedia.orgIMOPbyI-MEDS

Page 5: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Comment choisir les données?

On se pose autour d’une table et on réfléchit ?

On essaye les tables et leurs variables une par une ?

• Laissons la machine réfléchir…• Extraction d’agrégats• Sélection des variables corrélées

Page 6: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Générations d’agrégats - Définition

Une fonction d’agrégation retourne une seule valeur à partir d’un ensemble de valeurs.

Exemple: • La somme des dépenses annuelle médicamenteuses (OCDE)• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)• La date de la dernière catastrophe naturelle (AREHN)• …

Page 7: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Générations d’agrégats - Limites

• Le nombre de décès par département• par overdose• chez les femmes• en surpoids• ayant au moins 4 enfants• avant la sortie de Pokémon GO

• Est-cepertinent?• NON!(…peutprobable…)

Page 8: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Génération d’agrégats – Bonnes pratiques

• Générerautomatiquement• ÉvalueretTrierensuite(automatiquementaussi)

• Commencerpardesagrégatssimples!puisessayerpluscomplexes…

Page 9: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Comment générer des agrégats?Algorithmes et outils:

• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)• Uniquement pour les variables numériques

• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)• Tendance à générer des variables complexes…

• Tilde (https://dtai.cs.kuleuven.be/ACE/)• Uniquement universitaire et complexe à paramétrer…

• PredicSis.ai (Boullé – http://predicsis.ai) • Variables numériques ou catégorielles• Priorisation et valorisation des agrégats simples

Page 10: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Comment évaluer les données?

• Réduction statistique / Discrétiser

• Sélection des variables contributives

Page 11: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Vulgarisation : Discrétisation

:ensembledecibles(ex:malade,sain)

Discrétiser:chercheràtrouverlemeilleurdécoupage

Page 12: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Méthodes de réductions (old fashion)

Discrétisation par:• Équidistance• Problème si distribution asymétrique

• Progression arithmétique• Problème si distribution non-asymétrique (selon loi normale)

• Équifréquence• Masque rapidement de fortes discontinuités

• …• Manuelle• « Idéale » mais chronophage

Page 13: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Méthodes de réductions (moderne)

Discrétisation par:• ChiMerge (R, SAS)

• Favorise l’aspect statistique (quantité suffisante)• C4.5 (…)

• Favorise la qualité informationnelle (intervalles homogènes)

• Fusinter (Zighed & co - Sinipa)• MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark)• MODL / PredicSis.ai (Boullé – http://predicsis.ai)

• Meilleur compromis basé sur la théorie de l’information

Page 14: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Vulgarisation : MODL

:ensembledecibles(ex:malade,sain)

I:𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖(

nDiscrétiseravecMODL=Minimiserlaformulesuivante:

𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678"78" +∑ log 5;6<8"

<8"7=>" +∑ log 5;!

5;,A!5;,B!…5;,D!E7=>"

contributionstatistiquecontributioninformationnelle

Page 15: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Conclusion

Page 16: Comment définir et optimiser ses hypothèses en utilisant le machine learning

Références

• M.Boullé. Towards Automatic Feature ConstructionforSupervisedClassification.In ECML/PKDD2014,Pages181-196,2014.• M.Boullé. MODL:aBayesoptimaldiscretization method forcontinuous attributes. MachineLearning,65(1):131-165,2006.• M.Boullé. ABayesoptimalapproach forpartitioning thevaluesofcategorical attributes. JournalofMachineLearningResearch,6:1431-1452,2005.