EGC-03. Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI)...

EGC-03.

Apprentissage supervisé Apprentissage supervisé et non supervisé et non supervisé

sur les sur les données INDANAdonnées INDANA

A. Cornuéjols (LRI)

Éric Bréchemier, Claire Lequeux

Matthieu Manceny & Natanel Sadres (CNAM-IIE)

INDANA (rapport AC) 10/03/03 2/34 © Antoine Cornuéjols

Apprentissage supervisé avec ré-équilibrageApprentissage supervisé avec ré-équilibrage

Utilisation de différents algorithmes d’apprentissage supervisé disponibles sur Weka

J48.48 (arbre de décision)

PMC (Perceptron Multi-Couche)

Boosting (sauf sur PMC)

Avec techniques de ré-équilibrage des classes event / ¬event Par matrice de coûts

Par bruitage des données event

RésultatsRésultats (avec matrice de coûts) (avec matrice de coûts)

Utilisation de matrices de coût Option minimizeExpectedCost=False de weka

Courbe ROC-like

(0,834 %)

RésultatsRésultats (avec matrice de coûts) (avec matrice de coûts)

RésultatsRésultats (avec bruitage) (avec bruitage)

1ère méthode :

event¬event

bruitage, x10base d’apprentissage

Validation croisée (10 x)

Bruitage : Un seul attribut numérique

± 10 %

RésultatsRésultats (avec bruitage) (avec bruitage)

RésultatsRésultats (avec bruitage) (2) (avec bruitage) (2)

Même bruit

2ème méthode :

2/3 event (71)1/2 ¬event (1062)

bruitage, x15base d’apprentissage

Test sur les (1/3 event / 1/2 ¬ event) restants

RésultatsRésultats (avec bruitage) (2) (avec bruitage) (2)

PerspectivesPerspectives

Améliorer le bruitage Bruit gaussien

Simultanément sur plusieurs attributs

Y compris sur attributs symboliques

Avec dépendance sur la nature des attributs

Modifier le protocole …

EM sur les données INDANAEM sur les données INDANA

MotivationEssayer de faire de la régression malgré l’absence d’étiquette temporelle

(deathcv) après délai seuil (~ 6 ans)

Démarche S’appuyer sur une méthode d’apprentissage semi-supervisée : EM

La développer pour le cas de la régression sans étiquette temporelle

EM sur les données INDANAEM sur les données INDANA

Résultats

L’extension de EM à la régression est conçue

Mais l’obtention de résultats requiert : avoir l’enveloppe temporelle des dates de décès pour la population générale

que des classes de patients se dégagent suffisamment clairement dans les données

étiquetées

Étapes

1.1. Développer EM standard et chercher des groupes de données dans les données Développer EM standard et chercher des groupes de données dans les données

étiquetéesétiquetées

2. Tester le nouvel algorithme sur des données artificielles

3. L’essayer sur les données INDANA

Rappels sur EMRappels sur EM

Expectation/Maximization

Algorithme d’estimation de maximum de vraisemblance par itération successive de deux étapes

Introduit par Dempster, Laird et Rubin en 1978

Le principe du maximum de vraisemblanceLe principe du maximum de vraisemblance

Soit S = {x1,x2, …, xm} un échantillon de données

gouverné par une distribution pX(x|)

Alors par hypothèse i.i.d. :

p(S | ) p(x i | ) L( | S)

On cherche :

ou encore :

* Argmax

L ( | S)

* Argmax

log L ( | S)

Le principe du maximum de vraisemblanceLe principe du maximum de vraisemblance

Parfois facile à résoudre

E.g. estimation d’une seule gaussienne : (, 2)

Parfois difficile

Augmentation de données

ML par EMML par EM

On suppose :

• Sobs = {xobs1,xobs

2,…,xobsm} un échantillon de données observéesdonnées observées

• Sc = {xc1,xc

2,…,xcm} un échantillon correspondant de données cachéesdonnées cachées

• St = (Sobs, Sc) = {(xobs1, xc

1), (xobs2, xc

2),…,(xobsm, xc

m)} : les données totalesdonnées totales

L ( | St) L( | Sobs, Sc ) p(Sobs,Sc |)

L ( | Sobs,Sc ) hSobs, (Sc )

Fonction de vraisemblance des données totalesFonction de vraisemblance des données totales :

Variable aléatoire car Sc est inconnue et gouvernée par une distribution cachée

ML par EMML par EM

On cherche donc :

Mais L(|Sobs,Sc) est une variable aléatoire en Sc

On va donc éliminer ce caractère aléatoire en passant par l’espérance de L(|Sobs,Sc) (ou de son logarithme)

par rapport aux données cachées

Ed. les données observées et l’estimation courante du paramètre

* Argmax

log L ( | Sobs ,Sc )

Q( |k ) E log p(Sobs,Sc |) Sobs ,k

log p(Sobs,sc |) . sc Xc

m p(sc | Sobs,) dsc

L’algorithme EML’algorithme EM

Étape d’expectationexpectation (E_étape) :

Étape de maximisationmaximisation (M_étape) :

Q( |k ) E log p(Sobs,Sc |) Sobs ,k

k 1 Argmax

Q( |k )

k := k+1 ; jusqu’à convergence

Initialisation de 0 et de Sc

L’algorithme EML’algorithme EM

EM intéressant seulement si Q(’) est plus facile à calculer que L(|S)

Les étapes E et M

Ne sont pas toujours faciles à calculer

(mais généralement plus faciles que L(|S) )

Mais ont une solution analytique pour une grande famille de fonctions paramétrées (e.g. les

distributions exponentielles)

Mélanges de gaussiennes

EM : l’ « intuition »EM : l’ « intuition »

Étape_E

Étape_M

Paramètres des données complètes

0.10.30.50.7

Contours de la log-vraisemblance

de la probabilité jointep(,Sc)

EMEM : Cas des mélanges de gaussiennes : Cas des mélanges de gaussiennes

On suppose un mélange de N gaussiennes :

p(x |) jj1

p j (x | j )

La log-vraisemblance des données incomplètes est alors :

… qui est très difficile à optimiser

log L( | Sobs ) log p(xobs

i | )i1

log jj1

p j (xobsi | j)

On augmente les données en ajoutant un ensemble de variables

latentes

Chaque xci correspond à la responsabilité présumée de la gaussienne

xci {1,…,N} pour la donnée

log L ( | Sobs, Sc ) log p(Sobs, Sc | ) log p(xobsi | xc

i ).p(xc) i1

log xc

i .pxci (xobs

i ) i1

Sc xci

Après calculs (…) :

m p (l |

xobsi ,k )

xobsi p(l | xobs

i ,k ) i1

mp( l | xobs

i ,k ) i1

p(l | xobsi ,k ) (xobs

i lnew) (xobs

i lnew )

mp(l | xobs

i ,k ) i1

Application de EM aux mélanges de GaussiennesApplication de EM aux mélanges de Gaussiennes

Soit le relevé des tailles d’un échantillon de personnes

S’explique-t-il par un mélange de gaussiennes ?

Application de EM aux mélanges de GaussiennesApplication de EM aux mélanges de Gaussiennes

Résultat de EM après 10 itérations

Application de EM aux données INDANAApplication de EM aux données INDANA

Problèmes Données en dimension > 2

Nécessite des calculs de vecteurs moyenne de variance (matrice de variance-covariance) d’écart-type (racine carrée de matrice : décomposition par méthode de Cholesky)

Malédiction de la dimensionnalité : croissance exponentielle du nombre de données requis en fct du nb de dimensions

Des attributs numériques et symboliques on traite les attributs symboliques comme des attributs numériques

Des problèmes de calcul dues aux probabilités très faibles Organiser les calculs Beaucoup de tests en cours d’éxécution

Problèmes généraux Initialisation des gaussiennes

Initialisation centrée, puis … Placement itératif des N gaussiennes

Choix du nombre de Gaussiennes Méthode par dichotomie successive

Mesure de la qualité du mélange obtenu (pour arrêter l’algorithme) Mesure de précision de Gaussienne

La max des écart-types de G1 ≤ max des écart-types de G2 Mieux vaut des Gaussiennes précises Mais plus de Gaussiennes => plus de précision

Mesure de proximité entre Gaussiennes On mesure d(i,j)= max[p(centre Gi|Gj), p(centre Gi|Gj)] Les Gaussiennes sont d’autant plus éloignées que cette mesure est faible On estime que les Gaussiennes Gi et Gj sont légitimes si d(i,j) ≈ 0

Initialisation des Gaussiennes

Expériences réaliséesExpériences réalisées

Sur la 1ère base : 2230 patients

Chaque variable a été bruitée avec une loi normale d’écart-type 0.1

Expériences répétées 5 fois (pour vérifier la stabilité)

Pour 2, 3, 5 et 10 gaussiennes

Mise en œuvre Initialisation telle que décrit plus haut Attribution stochastique des classes dans l’étape E

EM sur INDANA : résultats (2 classes)EM sur INDANA : résultats (2 classes)

Deux Gaussiennes :

EM sur INDANA : bilanEM sur INDANA : bilan

Précautions Résultats à confirmer

Il faudrait répéter davantage les expériences Tester sur le reste des données INDANA

Perspectives Les classes « aberrantes » correspondent-elles à un phénomène intéressant?

de protection naturelle (origine génétique) contre AVC ? … ?

EM pour la régression Espoir très faible (avec ce type de données)

EGC-03. Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI)...

Documents

La race bovine Limousine SIAM Meknès 2011 · INTERLIM Génétique Service Gilles Lequeux 00 336 88 20 61 57 France Limousin Sélection Olivier Rambert Olivier.rambert@limousine.org

Apprentissage non supervisé

ML lequeux - Beaux arts mag- biennale de venise - juin 2009

Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Projet supervisé

RESUME DU PROSPECTUS - CA Nord Est · 2012. 10. 3. · RESUME DU PROSPECTUS ... M. Pascal LEQUEUX LES ADMINISTRATEURS M. Francis CAPELLE M. J-Jacques COUCHOU-MEILLOT M. Yves DELAINE

La Revue d'Art Dramatiquarchivesjournaux.ville-cannes.fr/dossiers/courrier/...de Pologne, et de M. Lequeux sur cel du Japon, de M. Adrien Wagnon sur ihéàire Allemand. "La Revue"

Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département

2014 I 2015 GUIDE LES GANTS PROTECTION - Stahlstahl-vigne.com/ups/www/guide.pdf · 2016. 8. 22. · Philippe Lequeux stahl.vincelles@stahl-sa.fr 03 26 58 05 75 • Bar-sur-Seine :

Apprentissage semi-supervisé Extrait de : jye02 jye02

Préparé par Nancy Ibrahim R1 SUPERVISÉ PAR DR. J. O. JUTRAS UMF ANNA LABERGE JANVIER 2011 TROUBLES DES CONDUITES ALIMENTAIRES

Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

XebiCon'16 : Data Science & Craftsmanship : Je t'aime, moi non plus. Par Yoann Benoit et Sylvain Lequeux

Apprentissage statistique - Apprentissage supervisé

ASTHME Préparé par Nancy Ibrahim R1 SUPERVISÉ PAR DRE. NANHOU UMF ANNA LABERGE NOVEMBRE 2010

1 A. Cornuéjols Induction darbres de décision Induction darbres de décision Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université dOrsay

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting

Apprentissage non supervisé · 2017-11-28 · Apprentissage non supervisé M.-J. Huguet 2017-2018 Plan 1. Contexte : l’Intelligence Artificielle 2. Contexte : l’apprentissage

7 séances de 3h (cours + TD/TP) Programme et … · Mini-Projet Cours IA (A. Cornuéjols) ... Projet ONU! Capteurs ... Domotique ! Aide aux personnes handicapées !