Comment définir et optimiser ses hypothèses en utilisant le machine learning

Preview:

Citation preview

Définir et Optimiser ses hypothèses avec le Machine Learning

Jean-BaptistePriezPh.D,DataScientist

Chloé,actuaire,neprévoitpasvotremort,maispresqueRue89,01mai2016RémiNoyon(Journaliste)

Nouvelles données?

commons.wikimedia.org

Comment choisir les données?

commons.wikimedia.orgIMOPbyI-MEDS

Comment choisir les données?

On se pose autour d’une table et on réfléchit ?

On essaye les tables et leurs variables une par une ?

• Laissons la machine réfléchir…• Extraction d’agrégats• Sélection des variables corrélées

Générations d’agrégats - Définition

Une fonction d’agrégation retourne une seule valeur à partir d’un ensemble de valeurs.

Exemple: • La somme des dépenses annuelle médicamenteuses (OCDE)• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)• La date de la dernière catastrophe naturelle (AREHN)• …

Générations d’agrégats - Limites

• Le nombre de décès par département• par overdose• chez les femmes• en surpoids• ayant au moins 4 enfants• avant la sortie de Pokémon GO

• Est-cepertinent?• NON!(…peutprobable…)

Génération d’agrégats – Bonnes pratiques

• Générerautomatiquement• ÉvalueretTrierensuite(automatiquementaussi)

• Commencerpardesagrégatssimples!puisessayerpluscomplexes…

Comment générer des agrégats?Algorithmes et outils:

• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)• Uniquement pour les variables numériques

• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)• Tendance à générer des variables complexes…

• Tilde (https://dtai.cs.kuleuven.be/ACE/)• Uniquement universitaire et complexe à paramétrer…

• PredicSis.ai (Boullé – http://predicsis.ai) • Variables numériques ou catégorielles• Priorisation et valorisation des agrégats simples

Comment évaluer les données?

• Réduction statistique / Discrétiser

• Sélection des variables contributives

Vulgarisation : Discrétisation

:ensembledecibles(ex:malade,sain)

Discrétiser:chercheràtrouverlemeilleurdécoupage

Méthodes de réductions (old fashion)

Discrétisation par:• Équidistance• Problème si distribution asymétrique

• Progression arithmétique• Problème si distribution non-asymétrique (selon loi normale)

• Équifréquence• Masque rapidement de fortes discontinuités

• …• Manuelle• « Idéale » mais chronophage

Méthodes de réductions (moderne)

Discrétisation par:• ChiMerge (R, SAS)

• Favorise l’aspect statistique (quantité suffisante)• C4.5 (…)

• Favorise la qualité informationnelle (intervalles homogènes)

• Fusinter (Zighed & co - Sinipa)• MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark)• MODL / PredicSis.ai (Boullé – http://predicsis.ai)

• Meilleur compromis basé sur la théorie de l’information

Vulgarisation : MODL

:ensembledecibles(ex:malade,sain)

I:𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖(

nDiscrétiseravecMODL=Minimiserlaformulesuivante:

𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678"78" +∑ log 5;6<8"

<8"7=>" +∑ log 5;!

5;,A!5;,B!…5;,D!E7=>"

contributionstatistiquecontributioninformationnelle

Conclusion

Références

• M.Boullé. Towards Automatic Feature ConstructionforSupervisedClassification.In ECML/PKDD2014,Pages181-196,2014.• M.Boullé. MODL:aBayesoptimaldiscretization method forcontinuous attributes. MachineLearning,65(1):131-165,2006.• M.Boullé. ABayesoptimalapproach forpartitioning thevaluesofcategorical attributes. JournalofMachineLearningResearch,6:1431-1452,2005.

Recommended