Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
DeFT 2019Recherche et extraction dinformation
dans des cas cliniquesNatalia Grabar (STL CNRS Universiteacute de Lille)
Cyril Grouin (LIMSI CNRS Universiteacute Paris Saclay)Thierry Hamon (Universiteacute Paris 13 LIMSI CNRS Universiteacute Paris Saclay)
Vincent Claveau (IRISA CNRS)
Introduction
IntroductionAnalyse de cas cliniques reacutedigeacutes en franccedilais
Tacircches recherche dinformation et extraction dinformation DEFT 2012 DEFT 2016 identification de mots-cleacutes DEFT 2013 appariement recetteingreacutedients
Premiegravere fois sur des donneacutees cliniques en franccedilais
Calendrier
Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora
Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai
Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes
Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs
Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps
Participants 5 eacutequipes acadeacutemiques
LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de
Ziguinchor 127480127475 Seacuteneacutegal
2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris
1 eacutequipe mixte SynapseIRIT 1041639 Toulouse
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Introduction
IntroductionAnalyse de cas cliniques reacutedigeacutes en franccedilais
Tacircches recherche dinformation et extraction dinformation DEFT 2012 DEFT 2016 identification de mots-cleacutes DEFT 2013 appariement recetteingreacutedients
Premiegravere fois sur des donneacutees cliniques en franccedilais
Calendrier
Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora
Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai
Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes
Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs
Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps
Participants 5 eacutequipes acadeacutemiques
LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de
Ziguinchor 127480127475 Seacuteneacutegal
2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris
1 eacutequipe mixte SynapseIRIT 1041639 Toulouse
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
IntroductionAnalyse de cas cliniques reacutedigeacutes en franccedilais
Tacircches recherche dinformation et extraction dinformation DEFT 2012 DEFT 2016 identification de mots-cleacutes DEFT 2013 appariement recetteingreacutedients
Premiegravere fois sur des donneacutees cliniques en franccedilais
Calendrier
Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora
Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai
Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes
Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs
Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps
Participants 5 eacutequipes acadeacutemiques
LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de
Ziguinchor 127480127475 Seacuteneacutegal
2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris
1 eacutequipe mixte SynapseIRIT 1041639 Toulouse
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Calendrier
Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora
Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai
Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes
Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs
Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps
Participants 5 eacutequipes acadeacutemiques
LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de
Ziguinchor 127480127475 Seacuteneacutegal
2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris
1 eacutequipe mixte SynapseIRIT 1041639 Toulouse
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes
Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs
Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps
Participants 5 eacutequipes acadeacutemiques
LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de
Ziguinchor 127480127475 Seacuteneacutegal
2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris
1 eacutequipe mixte SynapseIRIT 1041639 Toulouse
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Participants 5 eacutequipes acadeacutemiques
LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de
Ziguinchor 127480127475 Seacuteneacutegal
2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris
1 eacutequipe mixte SynapseIRIT 1041639 Toulouse
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Corpus
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Corpus
718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]
speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus
en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de
lrsquoInformation Scientifique etc
provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]
Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents
Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Corpus
Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)
acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories
(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq
cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie
Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable
Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples
Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement
meacutedical
Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose
pulmonaire actuellement en cours de traitement
Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)
Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircches
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes
utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par
ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)
Mot-cleacute Cas clinique et discussion Sous-corpus
ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement
ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test
ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019
ageacuteneacutesie reacutenale unilateacuterale
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant
Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques
Sortie appariement cas cliniquediscussion Evaluation preacutecision
Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement
clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees
Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant
motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo
Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Reacutesultats
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
ReacutesultatsBaseline
techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)
Significativiteacute
T-test paireacute avec p=005
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 1 indexation des cas cliniques
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 1 indexation des cas cliniquessignificatif
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Commentaires tacircche 1Significativiteacute
LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N
Approches
approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Commentaires tacircche 2Significativiteacute
reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P
(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)
Approches
repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 3 extraction drsquoinformations
genre
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 3 extraction drsquoinformations
genre
significatifsignificatif
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 3 extraction drsquoinformations
acircge
significatif non significatif
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 3 extraction drsquoinformations
issuesignificatif
non significatif
significatif
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Tacircche 3 extraction drsquoinformations
origine
significatif
non significatif
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Commentaires tacircche 3Significativiteacute
toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines
Approches
classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Conclusions
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
ParticipationSuccegraves en nombre de participants
Approches
reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats
inteacuteressants quelques bugs dans certains runs
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
FuturSuites directes
analyse des cas derreurs compleacutementariteacute des approches combinaison des approches
Cas cliniques
deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
FuturFutures eacuteditions de DeFT
Souhaits de tacircches
Ideacutees de corpus
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)
Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)