8

Click here to load reader

Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

Embed Size (px)

Citation preview

Page 1: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 11

Data mining et identification Data mining et identification des effets inddes effets ind éésirables sirables mméédicamenteuxdicamenteux

I. Systèmes de règles de décision

II. Détection des effets indésirables médicamenteux (EIM)

III. Data mining et arbres de décision

IV. Exemple : détection automatisée des EIM par arbres de décision

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 22

I. SystI. Syst èèmes de mes de rrèègles de dgles de d éécisioncision

A. Définition, formalismeB. Métriques pour une règle isolée

C. Systèmes à plusieurs règlesD. Métriques pour un système de

règles

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 33

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsA. DA. Dééfinition, formalismefinition, formalisme

� Règles de décision :� ensemble de conditions qui, réunies, produisent un effet avec

une certaine probabilitéC1 & C2 & … & Ck � E

� Expression usuelle de la connaissance en médecine� Exemple : Héparine & âge>70 � hémorragie

(parfois seulement !)

� Notations :� On utilisera indifféremment Ci pour un événement,

ou pour l’ensemble correspondant : C1 ∩ C2 ∩ … ∩ Ck � E

� Pour simplifier, C = C1 ∩ C2 ∩ … ∩ Ck

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 44

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsA. DA. Dééfinition, formalismefinition, formalisme

� Eléments de la règle :� Conditions = événements binaires éventuellement

issus de variables non binaires :� Variable binaire telle quelle : « insuffisance rénale {0/1} »� Depuis une variable quantitative : « âge > 70 ans »� Depuis une variable qualitative : « couleur = brun »

� Conditions reliées par l’opérateur « et »� Effet = événement binaire (idem)

� Métriques : la confiance et le support

Page 2: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 55

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisions

B. MB. Méétriques pour une rtriques pour une r èègle gle isolisol ééee

Confiance :� Probabilité que l’effet se

produise, sachant que les conditions sont réunies

� Sorte de VPP de la règle� Confiance

= P( E | C )= #(C ∩ E) / # C

� => prédit un risque

SC

E

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 66

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisions

B. MB. Méétriques pour une rtriques pour une r èègle gle isolisol ééee

Support :� Probabilité que les

conditions et l’effet se produisent

� Support = P( E ∩ C )= #(C ∩ E) / # S

� => renseigne sur la portée (niche ?)

SC

E

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 77

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsC. SystC. Syst èèmes mes àà plusieurs plusieurs rrèèglesgles

� Système où plusieurs règles prédisent le même effet.� Exemple de système avec redondance :

� Médicament A � hémorragie� Médicament B � hémorragie� … or certains patient ont médicament A et médicament B

=> Pour un patient donné, quelle confiance choisir ?

� Exemple de système sans redondance :� Médicament A � hémorragie� Pas de médicament A & Médicament B � hémorragie� Personne ne remplit les conditions des deux règles en même

temps => une seule confiance pour un patient, mais règles complexes et support faible

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 88

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsD. MD. Méétriques pour un triques pour un systsyst èème de rme de r èèglesgles

Précision :� VPP globale du système� Probabilité globale

d’observer l’effet lorsque les conditions d’au moins une règle sont réunies

� Si système non redondant, moyenne pondérée des confiances des règles

S E

Système non redondant

S E

Système redondant

Page 3: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 99

SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsD. MD. Méétriques pour un triques pour un systsyst èème de rme de r èèglesgles

Rappel :� Sensibilité globale du

système� Probabilité qu’un effet

soit prédit par au moins une règle

� Si système non redondant, somme des sensibilités des règles

S E

Système non redondant

S E

Système redondant

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1010

II. DII. Déétection des effets tection des effets indind éésirables sirables mméédicamenteux (EIM)dicamenteux (EIM)

A. Définition des EIM

B. Méthodes de référenceC. Méthodes émergentes

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1111

DDéétection des EIMtection des EIMA. DA. Dééfinition des EIMfinition des EIM

� Plusieurs définitions� Définition utilisée ici :

� Réaction nocive et non voulue, � Survenant aux doses normalement utilisées (≠erreur

d’administration) chez l’homme,� Liée à l’utilisation du médicament (prise ou arrêt)

� Estimation épidémiologique :� 15 000 morts par an en France� Principalement chez les personnes âges,

sous anticoagulants ou insuline� Coût économique majeur

(hospitalisations, rallongement des durées de séjour)

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1212

DDéétection des EIMtection des EIMB. MB. Mééthodes de rthodes de r ééfféérencerence

� Pharmacovigilance :� basée sur la déclaration spontanée des

cas d’EIM� obligatoire, mais moins de 5% des cas

seraient déclarés

� Revue experte de dossiers� méthode reconnue (validation experte)� mais très chronophage, d’autant plus

que les EIM sont rares

Page 4: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1313

DDéétection des EIMtection des EIMC. MC. Mééthodes thodes éémergentesmergentes

� Natural language processing :� Analyse automatisée des courriers de

sortie des patients� Suppose que l’EIM est au moins évoqué

dans le courrier

� Data Mining(fouille statistique de données) :� Identification automatisée des EIM dans

les dossiers électroniques de patients

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1414

III. Data miningIII. Data mininget arbres de det arbres de d éécisioncision

A. Définition du data mining

B. MéthodesC. Les arbres de décision

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1515

Data Mining et arbres de dData Mining et arbres de d éécisioncisionA. DA. Dééfinition du data miningfinition du data mining

� = fouille de données� = KDD : Knowledge discovery in databases

� « Mise en évidence de connaissances jusqu’alors inconnues dans des bases de données de grande dimension, à l’aide de méthodes dérivées des statistiques, de la gestion de données et de l’intelligence artificielle »

� Grande dimension :� Beaucoup de lignes (patients)� Beaucoup de colonnes (variables)� Beaucoup de cardinalité (tables et relations)

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1616

Data Mining et arbres de dData Mining et arbres de d éécision cision B. MB. Mééthodesthodes

� Data mining non supervisé : � recherche de motifs et associations� Ex : règles d’associations

(problème du panier de la ménagère)

� Data mining supervisé : � Objectifs :

� Rétrospectif : expliquer une variable Y (à expliquer) par les autres variables Xi (explicatives)

� Prospectif : prédire la valeur inconnue de cette variable Y par les autres variables Xi

� Ex : arbres de décision

Page 5: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1717

Data Mining et arbres de dData Mining et arbres de d éécision cision C. Les arbres de dC. Les arbres de d éécisioncision

� Méthode de data mining supervisé

� Produit des règles� Variable à expliquer Y :

� variable binaire principalement� (mais il existe d’autres types d’arbres…)

� Variables explicatives Xi : � utilise tous les types de variables sous forme

binaire (cf. cours précédent)� peut mélanger des variables de types différents

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1818

Data Mining et arbres de dData Mining et arbres de d éécision cision C. Les arbres de dC. Les arbres de d éécisioncision

Racine

Branches

Nœud

Feuille

Unité de base : le nœud sépare une branche en deux branches, une avec f augmentée, l’autre avec f diminuée.

n

f

n2

f2

n1

f1

n=n1+n2

f=(n1/n).f1 + (n2/n).f2Objectif : f1 << f << f2

Condition

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1919

Data Mining et arbres de dData Mining et arbres de d éécision cision C. Les arbres de dC. Les arbres de d éécisioncision

Critère d’arrêt rempli ?

OUI

NON

Feuille (stop)

Nœud : Application de la condition qui sépare le mieux les Y=1 des Y=0

Branche 1Branche 2

Racine de l’arbre

Pour chaque branche…

Récursivité

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2020

DDéétection automatistection automatis éée e des EIM par arbres de des EIM par arbres de ddéécisioncision

A. Objectifs, schéma général

B. Approche par l’exempleC. Interprétation de l’exemple

D. Epilogue

Page 6: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2121

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionA. Objectifs, schA. Objectifs, sch ééma gma g éénnééralral

� Découvrir automatiquement des motifs, incluant des médicaments, fréquemment associés à des événements nocifs

Base dedonnées

Système d’information hospitalier : diagnostics, biologie, médicaments

Activitéquotidienne

de soins

Remplissage Analyse

Détection automatisée

des EIM

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2222

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionB. Approche par lB. Approche par l ’’exempleexemple

� Situation médicale :� Les antivitamine K (AVK) sont des anticoagulants,

indiqués en prévention des thromboses� Activité biologique suivie en mesurant l’INR (international normalized

ratio) sur des prélèvements sanguins� Effet indésirable fréquent :

surdosage en AVK � élévation de l’INR � hémorragie� Nombreuses interactions médicamenteuses :

à posologie constante, l’activité biologique varie fortement� Echantillon : 100 séjours hospitaliers� Variable à expliquer Y :

� Y=1 (10%) : le patient présente un INR>5 (risque hémorragique)� Y=0 (90%) : pas d’anomalie

� Variables explicatives Xi :� X1 à X500 : 500 variables binaires, portant sur les médicaments reçus

et résultats de biologieExercice n°1

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2323

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionB. Approche par lB. Approche par l ’’exempleexemple

n=100f=0.1

n=60f=0

n=40f=0.25

AVK ?NON OUI

Arrêt butyrophénone ?NON OUI

n=30f=0.2

Hypoalbuminémie ?NON OUI n=10

f=0.4

n=20f=0.05

n=10f=0.5

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2424

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionB. Approche par lB. Approche par l ’’exempleexemple

1. AVK & arrêt de butyrophénone � P=0.4

2. AVK & pas d’arrêt de butyrophénone& hypoalbuminémie � P=0.5

3. AVK & pas d’arrêt de butyrophénone& pas d’hypoalbuminémie � P=0.05

4. Pas d’AVK � P=0

4 feuilles => système non redondant de 4 règlesEnoncé des 4 règles de droite à gaucheP désigne P(Y=1), estimée par f :

4

3 2

1

Page 7: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2525

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionC. InterprC. Interpr éétation de ltation de l ’’exempleexemple

� 1°bifurcation :� les surdosages en AVK ne surviennent que

chez les patients traités par AVK... normal

� 2°et 3°bifurcations : deux interactions pharmacocinétiques� Surdosage en AVK à l’arrêt d’une

Butyrophénone� Surdosage en AVK lié à une

hypoalbuminémie

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2626

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionC. InterprC. Interpr éétation de ltation de l ’’exempleexemple

Butyrophénones : classe de médicaments antipsychotiques, qui ont pour effet secondaire d’accélérer le transit intestinal.

AVK

Etape 1 : posologie d’AVK adaptée pour une vitesse

normale de transit

INR

AVK

Etape 2 : butyrophénone=> accélération transit

=> sous-dosage en AVK

Buty.

INR

AVK

Etape 3 : adaptation de dose des AVK

=> dosage adapté

Buty.

INR

AVK

Etape 4 : arrêt buty.=> ralentissement transit

=> surdosage en AVK

INR

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2727

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionC. InterprC. Interpr éétation de ltation de l ’’exempleexemple

Albumine = une protéine plasmatique. L’AVK se lie à l’albumine, mais seule la fraction non liée est biologiquement active.

Albumine sérique AVK

Etat de base :99% des AVK sont liés à l’albumine.Seuls 1% sont biologiquement actifs.La dose administrée en tient compte.

Hypoalbuminémie :diminution de la fraction liée,augmentation de la fraction libre=> à dose identique, activité biologique accrue=> surdosage alors que la dose administrée est « normale »

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2828

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionD. EpilogueD. Epilogue

� Méthode CHAID :� Utilisée dans cet exemple, la plus ancienne� CHi-squared Automatic Interaction Detector� Prédit un Y binaire, avec des Xi de tous types

� Critère de choix des nœuds dans CHAID :� le nœud s’appuie sur la variable Xi la plus fortement associée à Y

par un test du Chi² (�petit p le plus faible)� Critères d’arrêt dans CHAID : au cours de la pousse de l’arbre

� Branche « pure » : f=0 ou f=1� Toutes les variables Xi sont constantes dans la branche� Aucun Chi² significatif

� � Il existe plusieurs autres méthodes d’arbres de décision

Page 8: Data mining et identification I. Syst èmes de des effets ...€¦ · Data mining et identification des effets ind ésirables ... Pas de médicament A & Médicament B ... C. Les arbres

20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2929

DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionD. EpilogueD. Epilogue

� Avantages des arbres de décision :� Construction facile, paramétrable� Natures variées de Y� Natures variées de Xi, utilisables en même temps� Fonctionne en grande dimension (nombreuses lignes,

nombreuses colonnes) sans difficulté� Arbre facile à lire, règles faciles à utiliser

� Inconvénients des arbres de décision :� Risque de sur-ajustement (associations fortuites)� Instabilité des arbres� Moins performants que les réseaux de neurones� Règles utiles à la prédiction mais pas forcément

théoriquement valides (variables corrélées)