Apprendre et optimiser la courbe ROC Une application médicale

Preview:

DESCRIPTION

CAP’03. Apprendre et optimiser la courbe ROC Une application médicale. Michèle Sébag, Jérôme Azé, Noël Lucas. Les risques d’athérosclérose. Les données L es buts Reformuler le problème Utilisation des courbes ROC R é sultats Conclusion. L’athérosclérose. - PowerPoint PPT Presentation

Citation preview

Apprendre et optimiser la Apprendre et optimiser la courbe ROCcourbe ROC

Une application médicaleUne application médicale

Michèle Sébag, Jérôme Azé, Noël Lucas

CAP’03CAP’03

2 CAP’03

Les risques d’athérosclérose

• Les données

• Les buts

• Reformuler le problème– Utilisation des courbes ROC

• Résultats

• Conclusion

3 CAP’03

L’athérosclérose

Association variable de remaniement de la paroi des artères consistant en une accumulation de lipides, de produits sanguins et de dépôts calcaires ; le tout s’accompagnant de modification de diamètre et de la solidité du vaisseau (OMS)

4 CAP’03

Une plaque d’athérosclérose

5 CAP’03

6 CAP’03

D’où viennent les données

Collecte des données sur 20 ansSt Charles University,Academy of Sciences, Prague

Contexte un challenge européen

Helsinki, Août 2002

European Conference on Machine LearningPrinciples and Practice of Knowledge Discovery in Databaseshttp://lisp.vse.cz/challenge/ecmlpkdd2003/

7 CAP’03

Deux bases de données

Entry (cliché + informations familiales)• 1419 hommes d’age moyen

• 219 attributs

• 3 classes (normal, à risque, pathologique)

Control (suivi sur ~20 ans : 1976-1999)• 10610 examens

• 66 attributs (changements, maladies, examen bio, …)

8 CAP’03

Objectifs

But – Prévention des maladies cardio-vasculaires– Identification des facteurs de risque

Questions– Quels facteurs sont importants ?– Comment interagissent-ils ?

Analyse exploratoire des données

9 CAP’03

Difficultés 1

Remarque : (1) et (2) sont renseignés dans la base

(3) est une information cachée

Identification des conditions nécessaires

mais pas des conditions suffisantes

Exemple de règle

Si diabète (1)

Et Tension élevée (2)

Et le patient ne rit pas assez (3)

Alors Risque Elevé

10 CAP’03

Difficultés 2

La base Entry

Identification

Caractéristiques sociales

Activités physiques

Tabac

Alcool

Sucre, café, thé

Anamnèse familiale

Anamnèse personnelle

Questionnaire A2

Examens biochimique

Examens physique

2

3

4

3

10

3

160

18

3

8

3

Description détaillée creuseInfarctus de la 4ème sœur, renseigné 4 fois dans la base

11 CAP’03

Redescription des données

Métaphore : Le corps est un pont

• La robustesse initiale du pont anamnèse familiale

• La robustesse courante du pont attributs personnels

• Le trafic qui charge le pont alcool, tabac, …

Redescription des facteurs de risque en utilisant cette métaphore et avec l’aide intensive de l’expert

• Facteurs familiaux 160 var 9 var, (ANAES1)

• État de santé 32 var 16 var

• Intoxication (tabac, alcool) 13 var 2 var1 Agence Nationale d’Accréditation et Évaluation en Santé

12 CAP’03

Difficulté 3Communication avec l’expert

Approches usuellesApprentissage artificiel

Fouille de données des hypothèses (nombreuses…)

L’expert dit : oui ou non.

Approche proposée

Représentation du risque des graphiques

L’expert dit : ceci suggère que …

Using vision to think

Card, Mackinlay, Schneiderman, 1999

13 CAP’03

Classes de risque Indicateur de risque

Besoin– Une perception fine du risque

• (risque du patient X > risque du patient Y)

Objectif– Apprendre un indicateur (numérique) de risque

Approche– Un critère d’évaluation : la courbe ROC

– Un moteur d’optimisation : algorithmes génétiques(problème d’optimisation mixte, combinatoire et numérique)

14 CAP’03

La courbe ROC(Receiver Operating Characteristics)

Évaluation d’un test médical : compromis entre– Taux de vrais positifs (sensibilité médicale)– Taux de vrais négatifs (spécificité médicale)

Faux positifs

Vra

is p

osit

ifs

15 CAP’03

Aire sous la courbe ROC

Critère plus fiable que la précision (Ling, Huang, Zhang, AI’03)– Insensible à la distribution

– Indépendant des coûts d’erreur

De plus en plus utilisé en apprentissage supervisé – Ferry, Flach, Hernandez-Orallo, ICML’2002

– Mozer et al., NIPS’01

16 CAP’03

Algorithme, 1

Espace de recherche / espace des hypothèsesCombinaison linéaire des attributs

h(Ex) = i x atti (Ex) avec (Ex, +/-)

Qualité d’une hypothèse : Aire sous la courbe ROCh (risque(Ex), Etiq(Ex))Trier les exemples par risque croissant

++++-+---++-----+++-----------

+ : malade (exemple positif pour l’athérosclérose)- : sain (exemple négatif pour l’athérosclérose)

risque

17 CAP’03

Algorithme, 2

Critère à optimiser maximiser l’aire sous la courbe ROC

minimiser la somme des rangs des ex. positifs

h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+-rang = 21 rang = 25 rang = 26

18 CAP’03

Algorithme, 3

Moteur d’optimisation– Stratégies d’évolution (utilisation d’EvolC)

Validation expérimentale– 2/3 apprentissage , 1/3 test– 21 exécutions indépendantes– Calcul de la courbe ROC médiane

19 CAP’03

Évaluation et courbe ROC

Courbe médiane, comparaison avec Machines à Vecteurs Supports

20 CAP’03

Évaluation et courbe ROCR

isqu

e

Normal

À risque

Pathologique

Individus triés par risque croissant

21 CAP’03

Analyse de sensibilité

Exploitation des 21 runs (algs. Stochastique)

22 CAP’03

Analyse d’impact le facteur tabac

ProcédureA = { 100 individus non fumeurs }

B = { 100 individus gros fumeurs }

Ordonner A et B par risque croissant

Tracer (i, risque(i))

23 CAP’03

Impact du tabac

24 CAP’03

Impact de l’alcool

25 CAP’03

Conclusion et perspectives

Mériter l’attention d’un expert médecin– Un algorithme stable– Des résultats précis et lisibles

La retenir– Explorer des hypothèses : que se passe-t-il si ?

• Je fige l’importance de l’alcool, de l’anamnèse familiale que devient l’importance de l’éducation ?

– Extension de comités d’experts– Apprendre la fonction d’intérêt de l’utilisateur

Recommended