Click here to load reader
Upload
phungthuy
View
212
Download
0
Embed Size (px)
Citation preview
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 11
Data mining et identification Data mining et identification des effets inddes effets ind éésirables sirables mméédicamenteuxdicamenteux
I. Systèmes de règles de décision
II. Détection des effets indésirables médicamenteux (EIM)
III. Data mining et arbres de décision
IV. Exemple : détection automatisée des EIM par arbres de décision
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 22
I. SystI. Syst èèmes de mes de rrèègles de dgles de d éécisioncision
A. Définition, formalismeB. Métriques pour une règle isolée
C. Systèmes à plusieurs règlesD. Métriques pour un système de
règles
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 33
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsA. DA. Dééfinition, formalismefinition, formalisme
� Règles de décision :� ensemble de conditions qui, réunies, produisent un effet avec
une certaine probabilitéC1 & C2 & … & Ck � E
� Expression usuelle de la connaissance en médecine� Exemple : Héparine & âge>70 � hémorragie
(parfois seulement !)
� Notations :� On utilisera indifféremment Ci pour un événement,
ou pour l’ensemble correspondant : C1 ∩ C2 ∩ … ∩ Ck � E
� Pour simplifier, C = C1 ∩ C2 ∩ … ∩ Ck
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 44
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsA. DA. Dééfinition, formalismefinition, formalisme
� Eléments de la règle :� Conditions = événements binaires éventuellement
issus de variables non binaires :� Variable binaire telle quelle : « insuffisance rénale {0/1} »� Depuis une variable quantitative : « âge > 70 ans »� Depuis une variable qualitative : « couleur = brun »
� Conditions reliées par l’opérateur « et »� Effet = événement binaire (idem)
� Métriques : la confiance et le support
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 55
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisions
B. MB. Méétriques pour une rtriques pour une r èègle gle isolisol ééee
Confiance :� Probabilité que l’effet se
produise, sachant que les conditions sont réunies
� Sorte de VPP de la règle� Confiance
= P( E | C )= #(C ∩ E) / # C
� => prédit un risque
SC
E
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 66
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisions
B. MB. Méétriques pour une rtriques pour une r èègle gle isolisol ééee
Support :� Probabilité que les
conditions et l’effet se produisent
� Support = P( E ∩ C )= #(C ∩ E) / # S
� => renseigne sur la portée (niche ?)
SC
E
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 77
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsC. SystC. Syst èèmes mes àà plusieurs plusieurs rrèèglesgles
� Système où plusieurs règles prédisent le même effet.� Exemple de système avec redondance :
� Médicament A � hémorragie� Médicament B � hémorragie� … or certains patient ont médicament A et médicament B
=> Pour un patient donné, quelle confiance choisir ?
� Exemple de système sans redondance :� Médicament A � hémorragie� Pas de médicament A & Médicament B � hémorragie� Personne ne remplit les conditions des deux règles en même
temps => une seule confiance pour un patient, mais règles complexes et support faible
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 88
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsD. MD. Méétriques pour un triques pour un systsyst èème de rme de r èèglesgles
Précision :� VPP globale du système� Probabilité globale
d’observer l’effet lorsque les conditions d’au moins une règle sont réunies
� Si système non redondant, moyenne pondérée des confiances des règles
S E
Système non redondant
S E
Système redondant
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 99
SystSyst èèmes de rmes de r èègles de dgles de d éécisionscisionsD. MD. Méétriques pour un triques pour un systsyst èème de rme de r èèglesgles
Rappel :� Sensibilité globale du
système� Probabilité qu’un effet
soit prédit par au moins une règle
� Si système non redondant, somme des sensibilités des règles
S E
Système non redondant
S E
Système redondant
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1010
II. DII. Déétection des effets tection des effets indind éésirables sirables mméédicamenteux (EIM)dicamenteux (EIM)
A. Définition des EIM
B. Méthodes de référenceC. Méthodes émergentes
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1111
DDéétection des EIMtection des EIMA. DA. Dééfinition des EIMfinition des EIM
� Plusieurs définitions� Définition utilisée ici :
� Réaction nocive et non voulue, � Survenant aux doses normalement utilisées (≠erreur
d’administration) chez l’homme,� Liée à l’utilisation du médicament (prise ou arrêt)
� Estimation épidémiologique :� 15 000 morts par an en France� Principalement chez les personnes âges,
sous anticoagulants ou insuline� Coût économique majeur
(hospitalisations, rallongement des durées de séjour)
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1212
DDéétection des EIMtection des EIMB. MB. Mééthodes de rthodes de r ééfféérencerence
� Pharmacovigilance :� basée sur la déclaration spontanée des
cas d’EIM� obligatoire, mais moins de 5% des cas
seraient déclarés
� Revue experte de dossiers� méthode reconnue (validation experte)� mais très chronophage, d’autant plus
que les EIM sont rares
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1313
DDéétection des EIMtection des EIMC. MC. Mééthodes thodes éémergentesmergentes
� Natural language processing :� Analyse automatisée des courriers de
sortie des patients� Suppose que l’EIM est au moins évoqué
dans le courrier
� Data Mining(fouille statistique de données) :� Identification automatisée des EIM dans
les dossiers électroniques de patients
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1414
III. Data miningIII. Data mininget arbres de det arbres de d éécisioncision
A. Définition du data mining
B. MéthodesC. Les arbres de décision
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1515
Data Mining et arbres de dData Mining et arbres de d éécisioncisionA. DA. Dééfinition du data miningfinition du data mining
� = fouille de données� = KDD : Knowledge discovery in databases
� « Mise en évidence de connaissances jusqu’alors inconnues dans des bases de données de grande dimension, à l’aide de méthodes dérivées des statistiques, de la gestion de données et de l’intelligence artificielle »
� Grande dimension :� Beaucoup de lignes (patients)� Beaucoup de colonnes (variables)� Beaucoup de cardinalité (tables et relations)
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1616
Data Mining et arbres de dData Mining et arbres de d éécision cision B. MB. Mééthodesthodes
� Data mining non supervisé : � recherche de motifs et associations� Ex : règles d’associations
(problème du panier de la ménagère)
� Data mining supervisé : � Objectifs :
� Rétrospectif : expliquer une variable Y (à expliquer) par les autres variables Xi (explicatives)
� Prospectif : prédire la valeur inconnue de cette variable Y par les autres variables Xi
� Ex : arbres de décision
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1717
Data Mining et arbres de dData Mining et arbres de d éécision cision C. Les arbres de dC. Les arbres de d éécisioncision
� Méthode de data mining supervisé
� Produit des règles� Variable à expliquer Y :
� variable binaire principalement� (mais il existe d’autres types d’arbres…)
� Variables explicatives Xi : � utilise tous les types de variables sous forme
binaire (cf. cours précédent)� peut mélanger des variables de types différents
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1818
Data Mining et arbres de dData Mining et arbres de d éécision cision C. Les arbres de dC. Les arbres de d éécisioncision
Racine
Branches
Nœud
Feuille
Unité de base : le nœud sépare une branche en deux branches, une avec f augmentée, l’autre avec f diminuée.
n
f
n2
f2
n1
f1
n=n1+n2
f=(n1/n).f1 + (n2/n).f2Objectif : f1 << f << f2
Condition
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 1919
Data Mining et arbres de dData Mining et arbres de d éécision cision C. Les arbres de dC. Les arbres de d éécisioncision
Critère d’arrêt rempli ?
OUI
NON
Feuille (stop)
Nœud : Application de la condition qui sépare le mieux les Y=1 des Y=0
Branche 1Branche 2
Racine de l’arbre
Pour chaque branche…
Récursivité
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2020
DDéétection automatistection automatis éée e des EIM par arbres de des EIM par arbres de ddéécisioncision
A. Objectifs, schéma général
B. Approche par l’exempleC. Interprétation de l’exemple
D. Epilogue
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2121
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionA. Objectifs, schA. Objectifs, sch ééma gma g éénnééralral
� Découvrir automatiquement des motifs, incluant des médicaments, fréquemment associés à des événements nocifs
Base dedonnées
Système d’information hospitalier : diagnostics, biologie, médicaments
Activitéquotidienne
de soins
Remplissage Analyse
Détection automatisée
des EIM
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2222
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionB. Approche par lB. Approche par l ’’exempleexemple
� Situation médicale :� Les antivitamine K (AVK) sont des anticoagulants,
indiqués en prévention des thromboses� Activité biologique suivie en mesurant l’INR (international normalized
ratio) sur des prélèvements sanguins� Effet indésirable fréquent :
surdosage en AVK � élévation de l’INR � hémorragie� Nombreuses interactions médicamenteuses :
à posologie constante, l’activité biologique varie fortement� Echantillon : 100 séjours hospitaliers� Variable à expliquer Y :
� Y=1 (10%) : le patient présente un INR>5 (risque hémorragique)� Y=0 (90%) : pas d’anomalie
� Variables explicatives Xi :� X1 à X500 : 500 variables binaires, portant sur les médicaments reçus
et résultats de biologieExercice n°1
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2323
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionB. Approche par lB. Approche par l ’’exempleexemple
n=100f=0.1
n=60f=0
n=40f=0.25
AVK ?NON OUI
Arrêt butyrophénone ?NON OUI
n=30f=0.2
Hypoalbuminémie ?NON OUI n=10
f=0.4
n=20f=0.05
n=10f=0.5
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2424
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionB. Approche par lB. Approche par l ’’exempleexemple
1. AVK & arrêt de butyrophénone � P=0.4
2. AVK & pas d’arrêt de butyrophénone& hypoalbuminémie � P=0.5
3. AVK & pas d’arrêt de butyrophénone& pas d’hypoalbuminémie � P=0.05
4. Pas d’AVK � P=0
4 feuilles => système non redondant de 4 règlesEnoncé des 4 règles de droite à gaucheP désigne P(Y=1), estimée par f :
4
3 2
1
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2525
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionC. InterprC. Interpr éétation de ltation de l ’’exempleexemple
� 1°bifurcation :� les surdosages en AVK ne surviennent que
chez les patients traités par AVK... normal
� 2°et 3°bifurcations : deux interactions pharmacocinétiques� Surdosage en AVK à l’arrêt d’une
Butyrophénone� Surdosage en AVK lié à une
hypoalbuminémie
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2626
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionC. InterprC. Interpr éétation de ltation de l ’’exempleexemple
Butyrophénones : classe de médicaments antipsychotiques, qui ont pour effet secondaire d’accélérer le transit intestinal.
AVK
Etape 1 : posologie d’AVK adaptée pour une vitesse
normale de transit
INR
AVK
Etape 2 : butyrophénone=> accélération transit
=> sous-dosage en AVK
Buty.
INR
AVK
Etape 3 : adaptation de dose des AVK
=> dosage adapté
Buty.
INR
AVK
Etape 4 : arrêt buty.=> ralentissement transit
=> surdosage en AVK
INR
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2727
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionC. InterprC. Interpr éétation de ltation de l ’’exempleexemple
Albumine = une protéine plasmatique. L’AVK se lie à l’albumine, mais seule la fraction non liée est biologiquement active.
Albumine sérique AVK
Etat de base :99% des AVK sont liés à l’albumine.Seuls 1% sont biologiquement actifs.La dose administrée en tient compte.
Hypoalbuminémie :diminution de la fraction liée,augmentation de la fraction libre=> à dose identique, activité biologique accrue=> surdosage alors que la dose administrée est « normale »
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2828
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionD. EpilogueD. Epilogue
� Méthode CHAID :� Utilisée dans cet exemple, la plus ancienne� CHi-squared Automatic Interaction Detector� Prédit un Y binaire, avec des Xi de tous types
� Critère de choix des nœuds dans CHAID :� le nœud s’appuie sur la variable Xi la plus fortement associée à Y
par un test du Chi² (�petit p le plus faible)� Critères d’arrêt dans CHAID : au cours de la pousse de l’arbre
� Branche « pure » : f=0 ou f=1� Toutes les variables Xi sont constantes dans la branche� Aucun Chi² significatif
� � Il existe plusieurs autres méthodes d’arbres de décision
20112011--1010--1010 Dr Emmanuel Chazard Dr Emmanuel Chazard -- BiomBioméédecine quantitativedecine quantitative 2929
DDéétection automatistection automatis éée des EIM par e des EIM par arbres de darbres de d éécisioncisionD. EpilogueD. Epilogue
� Avantages des arbres de décision :� Construction facile, paramétrable� Natures variées de Y� Natures variées de Xi, utilisables en même temps� Fonctionne en grande dimension (nombreuses lignes,
nombreuses colonnes) sans difficulté� Arbre facile à lire, règles faciles à utiliser
� Inconvénients des arbres de décision :� Risque de sur-ajustement (associations fortuites)� Instabilité des arbres� Moins performants que les réseaux de neurones� Règles utiles à la prédiction mais pas forcément
théoriquement valides (variables corrélées)