16
NOTES et DOCUMENTS LIMSI N o : 2015-07 Juillet 2015 Guide d’annotation des effets secondaires rapport´ es par les patients sur les r´ eseaux sociaux Cyril Grouin

Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

NOTES et DOCUMENTS LIMSI No : 2015-07Juillet 2015

Guide d’annotation des effets secondaires rapportes par lespatients sur les reseaux sociaux

Cyril Grouin

Page 2: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21
Page 3: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

Guide d’annotation des effets secondairesrapportés par les patients sur les réseaux sociaux

Cyril Grouin

21 juillet 2015

Résumé

Ce guide s’inscrit dans le cadre du projet Vigi4MED 1 [Bousquet, 2014]. Il vise à donnerles informations nécessaires à un humain pour annoter un corpus de messages publiés surdes réseaux sociaux, relatifs à des expériences d’effets secondaires dus à des traitementsmédicaux.

Le résultat de ces annotations manuelles servira, d’une part à entraîner un modèle in-formatique par apprentissage statistique (avec pour objectif final de disposer d’un systèmede détection automatique des effets secondaires), et d’autre part à servir de référence pourévaluer les capacités d’un tel système à identifier correctement les effets secondaires.

Ce guide présente l’outil d’annotation (BRAT), les principes d’annotation et le détail des16 catégories d’annotation retenues (parmi 3 types d’information : traitements médicaux,informations cliniques, et informations complémentaires) ainsi que des exemples permet-tant de se faire une représentation du contenu de chaque catégorie.

Table des matières1 Introduction 2

1.1 Outil d’annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Objectif du travail d’annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Principes 4

3 Catégories 53.1 Traitements médicaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.1 Informations de traitement . . . . . . . . . . . . . . . . . . . . . . . . . . 53.1.2 Informations de posologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.2 Informations cliniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.3 Informations complémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3.1 Informations sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3.2 Informations temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

A Historique 11

B Retours d’expérience 12

1. Vigi4MED : recherche et analyse des effets indésirables rapportés par les patients dans les réseaux sociaux,financement ANSM-2013-S-060.

1

Page 4: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

1 Introduction1.1 Outil d’annotation

Le travail d’annotation se fait avec l’interface BRAT 2 [Stenetorp et al., 2012], au moyendes fichiers de configuration définis pour ce schéma d’annotation (liste des catégories autori-

sées, raccourcis clavier, choix des couleurs pour la visualisation, etc.).

Préparation Préalablement à l’utilisation de BRAT, il faut :1. préparer le dossier contenant les textes à annoter (fichiers d’extension *.txt) et les fi-

chiers qui vont contenir les annotations (fichiers d’extension *.ann) avec autant de fi-chiers *.ann que de fichiers *.txt, et déplacer ce répertoire dans le sous-répertoire nommé« data » dans le répertoire principal BRAT ;

2. préparer les fichiers de configuration (d’extension *.conf) à mettre dans le même réper-toire que les fichiers *.ann et *.txt, pour spécifier les catégories autorisées, les raccourcisclavier, et le code couleur associé à chaque catégorie.

Les fichiers à annoter (*.ann et *.txt) ainsi que les fichiers de configuration (*.conf) pourutiliser BRAT sont fournis avec ce guide pour permettre le travail d’annotation de corpus.

Utilisation L’interface se lance en lignes de commande (python standalone.py) et s’uti-lise en ouvrant l’adresse http://127.0.0.1:8001dans un navigateur internet.

FIGURE 1 – Annotation sous BRAT2. BRAT Rapid Annotation Tool : http://brat.nlplab.org

2

Page 5: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

Après avoir choisi le corpus, l’annotation 3 se fait fichier par fichier, (i) en sélectionnant àla souris le mot ou la portion à annoter, et (ii) en choisissant la catégorie relative au termeou à la portion sélectionnée dans un menu déroulant (figure 1).

1.2 Objectif du travail d’annotationL’objectif poursuivi dans ce guide consiste à produire des corpus annotés en entités sur le

plan sémantique, qu’il s’agisse d’entités du domaine biomédical (anatomie, maladies, signesou symptômes, etc.) ou d’entités plus générales (dates, durées, fréquences, etc.). Le schémad’annotation (voir section 3) repose sur un ensemble de 16 catégories inspirées des typessémantiques de l’UMLS [Lindberg et al., 1993]. La figure 2 donne un exemple d’annotationsattendues (capture d’écran BRAT) réalisées sur un message du corpus MeaMedica 4 ayantfait l’objet d’une tokénisation 5.

FIGURE 2 – Exemple de message du corpus MeaMedica annoté en entités

Repérage des entités A partir de corpus ainsi annotés, il est alors possible de développerdes systèmes informatiques qui vont permettre le repérage automatique des entités relevantdes catégories sémantiques présentes dans le corpus annoté (i.e., toutes les entités de typeAnatomy, Disorders, Sign or Symptom, etc., telles que définies dans le schéma d’annotation).

Construction des expressions candidates L’idée sous-jacente consiste à regrouper lesentités précédemment identifiées entre elles de manière à « construire » des expressions quiseraient susceptible de constituer un effet secondaire (figure 3).

L’exemple donnée en figure 2 permet de construire :– l’expression « crises de migraines » par la combinaison d’un élément de type Sign or

Symptom (SOSY) suivi d’un élément de type Disorders (DISO) ;– les expressions « insensibilité de la mâchoire », « mal à la gorge » et « douleurs de tête »

par la combinaison d’un élément de type Sign or Symptom (SOSY) suivi d’un élémentde type Anatomy (ANAT) ;

– l’expression « difficultés pour mâcher » par la combinaison d’un élément de type Sign or

Symptom (SOSY) suivi d’un élément de type Biological Process or Function (FUNC).

3. Pour pouvoir annoter, l’utilisateur doit s’être identifié au moyen d’un couple nom d’utilisateur/mot de passequi a été défini lors de l’installation de l’outil. Faute d’authentification, l’interface ne pourra pas enregistrer lesannotations. L’accès à la fonction d’authentification est disponible en passant la souris en haut à droite de l’interfacepour faire apparaître le menu. Se reporter à la documentation BRAT pour plus d’informations.

4. https://www.meamedica.fr, plateforme collaborative d’expériences sur les médicaments.5. La tokénisation est le processus de découpage d’un texte en tokens, un token étant une suite de caractères

entre deux espaces. Ce processus inclut généralement l’ajout d’espaces autour des signes de ponctuation (e.g. autourdes parenthèses, avant la virgule et le point, etc.), voire le regroupement d’éléments constituant une locution (e.g.« par_rapport_aux » dans l’exemple 2).

3

Page 6: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

⇤⇥ ��sosy insensibilité de la⌥⌃ ⌅⇧anat mâchoire (

⇤⇥ ��sosy difficulté pour⌥⌃ ⌅⇧func mâcher ) et parfois

rattachement rattachement

⇤⇥ ��sosy mal à la⌥⌃ ⌅⇧anat gorge . C’ est

⌥⌃ ⌅⇧sosy désagréable mais un moindre mal

rattachement

par_rapport_aux⇤⇥ ��sosy douleurs de

⌥⌃ ⌅⇧anat tête !

rattachement

FIGURE 3 – Construction des expressions susceptibles de constituer un effet secondaire

Pour information, nous envisageons de construire ces expressions au moyen d’une analysesyntaxique, en combinant informations sémantiques et syntaxiques. Par exemple, le patron[SOSY prep det* ANAT] pour indiquer une séquence composée d’un Sign or Symptom suivid’une préposition, éventuellement d’un déterminant, puis d’une Anatomy.

2 PrincipesNous avons retenu les principes suivants :– Annotation d’entités selon leur valeur sémantique, et non selon le rôle joué par la por-

tion annotée (indication vs. événement comme dans l’ancien schéma d’annotation) 6 ;– Annotation de mots simples (le mot porteur de l’information sémantique),

– sauf si une portion composée de plusieurs mots apporte une information essentiellepar opposition à un mot simple (e.g. « dents de sagesse » vs. « dents »)

Les mots seront ensuite regroupés en expression pour former un effet secondaire ;– Les déterminants et prépositions ne sont pas annotés (sauf s’ils participent de la com-

préhension du passage annoté : « de temps en temps » et non « temps en temps », mais« nuit » et non « la nuit ») ;

– Annotation des éléments porteurs de sens, quelle que soit l’orthographe (e.g. « parceta-mol, bactlofen » au lieu de « paracétamol, baclofène »).

6. Nous considérons que cette distinction relève d’une étape ultérieure.

4

Page 7: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

3 CatégoriesNous distinguons trois types de catégories d’information à annoter (voir schéma 4) : (i) les

informations relatives aux traitements médicaux, (ii) les informations d’ordre clinique, et(iii) les informations complémentaires. Le schéma d’annotation se compose de seize catégo-ries, inspirées des types sémantiques de l’UMLS.

FIGURE 4 – Organisation des catégories du schéma d’annotation

3.1 Traitements médicaux3.1.1 Informations de traitement

Chemical or Drug. Médicament, principe actif, classe pharmacologique. On annote aussibien les médicaments (exemples 1 et 9), le principe actif (exemple 4), la classe pharmacolo-gique, y compris sous forme d’acronyme (exemple 3), que les produits génériques (exemples 2et 10).

(1) Actuellement je prends⌥⌃ ⌅⇧chem Abilify depuis 2 jours et j’ai déjà perdue 1kg.

(2) Bien sûr il semble avéré que le⌥⌃ ⌅⇧chem magnésium a un effet sur les lipides mais est-il

besoin de l’administrer en injection ?

(3) Certains⌥⌃ ⌅⇧chem ADO 7 ont des effets secondaires, propres à chacun..

(4) J’ai essayé 2 cachets de⌥⌃ ⌅⇧chem parcetamol 500/50 à la

⌥⌃ ⌅⇧chem codéïne .

(5) J’ai eu un cancer au sein en 2001 et afin de m’aider à stabiliser mon poids mon docteurm’a prescrit

⌥⌃ ⌅⇧chem médiator es ce que je ne risque rien

(6) Mon médecin m’a prescrit du⌥⌃ ⌅⇧chem Kestin , qui me mettait dans un état second (fatigue,

incapacité à me concentrer...).

7. ADO : anti-diabétique oral.

5

Page 8: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

(7) Mon médecin m’as prescrit du⌥⌃ ⌅⇧chem Mediator pour faire chuter mon taux de triglycerine

a raison de 3 comprimés / jour.

(8) Prenez de la⌥⌃ ⌅⇧chem cokaine pendant 5 mois vous maigrirez aussi et c pas sur que vous

ferez un arret cardiaque

(9) Prise de⌥⌃ ⌅⇧chem Lariam en prophylaxie contre le paludisme.

(10) Regarder par vous meme le⌥⌃ ⌅⇧chem benfluorex c des

⌥⌃ ⌅⇧chem amphet .

3.1.2 Informations de posologie

Concentration. Concentration d’un médicament. Cette information est généralement as-sociée à des médicaments vendus sous forme de comprimés. Attention de bien la distinguerdu dosage.

(11) J’ai essayé 2 cachets de parcetamol⇤⇥ ��conc 500/50 à la codéïne.

Dosage. Dosage associée à un médicament. Attention, la forme galénique (voir ci-dessous)est exclue de la portion annotée comme « dosage » et doit être annotée comme « mode ».

(12) J’ai essayé⌥⌃ ⌅⇧dose 2 cachets de parcetamol 500/50 à la codéïne.

(13) Mon médecin m’as prescrit du Mediator pour faire chuter mon taux de triglycerine araison de

⌥⌃ ⌅⇧dose 3 comprimés / jour.

Mode. Forme galénique sous laquelle se présente le traitement (comprimé, gellule, sirop).

(14) A chaque prise de l’⌥⌃ ⌅⇧mode ampoule , je suis tombée sans raison quelques heures après,

jambe qui se dérobe.

(15) J’ai essayé 2⌥⌃ ⌅⇧mode cachets de parcetamol 500/50 à la codéïne.

(16) Mon médecin m’as prescrit du Mediator pour faire chuter mon taux de triglycerine araison de 3

⌥⌃ ⌅⇧mode comprimés / jour.

3.2 Informations cliniquesAnatomy. Parties du corps, y compris fluides et tissus.

Remarque : Les annotations portent aussi bien sur des noms que sur des adjectifs (exemples 29

et 30).

(17) A chaque prise de l’ampoule, je suis tombée sans raison quelques heures après,⌥⌃ ⌅⇧anat jambe

qui se dérobe.

(18) C’est en mars 2009 que j’ai été opérée à⌥⌃ ⌅⇧anat coeur ouvert pour changer 2

⌥⌃ ⌅⇧anat valves

contre des⌥⌃ ⌅⇧anat valves mécaniques.

(19) Cela doit m’aider à perdre du poids, arrêter de perdre mes⌥⌃ ⌅⇧anat cheveux ...

(20) Cependant j’ai mon⌥⌃ ⌅⇧anat ventre qui gargouille beaucoup et des

⌥⌃ ⌅⇧anat selles liquides.

(21) Effets secondaires : 24/7 léger mal de⌥⌃ ⌅⇧anat tête avec de temps en temps de fortes pous-

sées surtout du côté droit du⌥⌃ ⌅⇧anat cerveau .

(22) J’ai eu un cancer au⌥⌃ ⌅⇧anat sein en 2001 et afin de m’aider à stabiliser mon poids mon

docteur m’a prescrit médiator es ce que je ne risque rien

6

Page 9: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

(23) J’ai toujours des protéines dans les⌥⌃ ⌅⇧anat urines .. m’enfin !

(24) J’avais régulièrement mal à la⌥⌃ ⌅⇧anat tête et je voyais moins bien.

(25) Je me sens patraque au niveau du⌥⌃ ⌅⇧anat foie et de mon

⌥⌃ ⌅⇧anat estomac ...

(26) Mais depuis j’ai eut un cancer à la⌥⌃ ⌅⇧anat thyroïde .

(27) Malgré le régime à la dernière prise de⌥⌃ ⌅⇧anat sang j’avais encore 3.50g/l.

(28) Mon⌥⌃ ⌅⇧anat pancreas produit bcp trop d’insuline

(29) Prenez de la cokaine pendant 5 mois vous maigrirez aussi et c pas sur que vous ferez unarret

⌥⌃ ⌅⇧anat cardiaque

(30) Réaction⌥⌃ ⌅⇧anat cutanée sur le

⌥⌃ ⌅⇧anat corps (beaucoup de boutons) acné sur les endroits les

plus bizarres de la⌥⌃ ⌅⇧anat tête .

Genes Proteins. Protéines, lipides, acides nucléiques, gènes.

(31) Bien sûr il semble avéré que le magnésium a un effet sur les⌥⌃ ⌅⇧prot lipides mais est-il

besoin de l’administrer en injection ?

(32) J’ai toujours des⌥⌃ ⌅⇧prot protéines dans les urines.. m’enfin !

(33) Mon médecin m’as prescrit du Mediator pour faire chuter mon taux de⌥⌃ ⌅⇧prot triglycerine

a raison de 3 comprimés / jour.

(34) Mon pancreas produit bcp trop d’⌥⌃ ⌅⇧prot insuline

Biological Process or Function. Processus ou état qui se produit naturellement, ou ré-sultant d’une activité.

(35) C’est un médicament pour diabétique et non pour⌥⌃ ⌅⇧func maigrir .

(36) Cela doit m’aider à perdre du⌥⌃ ⌅⇧func poids , arrêter de perdre mes cheveux...

(37) J’ai du mal à⌥⌃ ⌅⇧func respirer la nuit (angoisses ? ? ?)

(38) J’ai eu un cancer au sein en 2001 et afin de m’aider à stabiliser mon⌥⌃ ⌅⇧func poids mon

docteur m’a prescrit médiator es ce que je ne risque rien

(39) J’avais régulièrement mal à la tête et je⌥⌃ ⌅⇧func voyais moins bien.

(40) J’éprouve : une perte d’⌥⌃ ⌅⇧func équilibre très génante et n’arrive plus à me situer dans

l’espace (tape contre les murs, problèmes en voiture) j’ai froid même par chaleur élevéeet somnolence très lourde à gérer toute la journée.

(41) Mon médecin m’a prescrit du Kestin, qui me mettait dans un état second (fatigue, inca-pacité à me

⌥⌃ ⌅⇧func concentrer ...).

(42) Prenez de la cokaine pendant 5 mois vous⌥⌃ ⌅⇧func maigrirez aussi et c pas sur que vous

ferez un arret cardiaque

7

Page 10: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

Disorders. Maladies. Concerne aussi bien le nom de la maladie (diabète) que le nom despatients qui souffrent de cette maladie (diabétique) puisqu’il est alors possible d’inférer lenom de la maladie de l’adjectif.

(43) C’est un médicament pour⌥⌃ ⌅⇧diso diabétique et non pour maigrir.

(44) Ceci dit j’ai fait les test chez l’allergo et je ne suis⌥⌃ ⌅⇧diso allergique à rien du tout donc la

cause est bien le médiator...

(45) Dernière prise, crise de⌥⌃ ⌅⇧diso folie , sensation de

⌥⌃ ⌅⇧diso mort imminente, cauchemars constant.

(46) J’ai eu un⌥⌃ ⌅⇧diso cancer au sein en 2001 et afin de m’aider à stabiliser mon poids mon

docteur m’a prescrit médiator es ce que je ne risque rien

(47) Mais depuis j’ai eut un⌥⌃ ⌅⇧diso cancer à la thyroïde.

(48) Prise de Lariam en prophylaxie contre le⌥⌃ ⌅⇧diso paludisme .

(49) Réaction cutanée sur le corps (beaucoup de boutons)⌥⌃ ⌅⇧diso acné sur les endroits les plus

bizarres de la tête.

Sign or Symptom. Manifestation observable d’une maladie, condition fondée sur un juge-ment clinique. Les concepts familiers, absents de l’UMLS, sont néanmoins annotés (exemple 54)car on cherche à identifier les expériences rapportées par les patients et non à produire uncorpus normatif.

(50) A chaque prise de l’ampoule, je suis⇤⇥ ��sosy tombée sans raison quelques heures après,

jambe qui se⇤⇥ ��sosy dérobe .

(51) Actuellement je prends Abilify depuis 2 jours et j’ai déjà⌥⌃ ⌅⇧sosy perdue 1kg.

(52) Bien sûr il semble avéré que le magnésium a un⇤⇥ ��sosy effet sur les lipides mais est-il

besoin de l’administrer en injection ?

(53) Cela doit m’aider à perdre du poids, arrêter de⌥⌃ ⌅⇧sosy perdre mes cheveux...

(54) Cependant j’ai mon ventre qui⌥⌃ ⌅⇧sosy gargouille beaucoup et des selles

⌥⌃ ⌅⇧sosy liquides .

(55) Dernière prise,⇤⇥ ��sosy crise de folie,

⇤⇥ ��sosy sensation de mort imminente,⇤⇥ ��sosy cauchemars

constant.(56) Effets secondaires : 24/7 léger

⇤⇥ ��sosy mal de tête avec de temps en temps de fortes⌥⌃ ⌅⇧sosy poussées

surtout du côté droit du cerveau.(57) J’ai du

⇤⇥ ��sosy mal à respirer la nuit (⌥⌃ ⌅⇧sosy angoisses ? ? ?)

(58) J’avais régulièrement⇤⇥ ��sosy mal à la tête et je voyais

⇤⇥ ��sosy moins bien .

(59) J’éprouve : une⌥⌃ ⌅⇧sosy perte d’équilibre très génante et n’arrive plus à me

⌥⌃ ⌅⇧sosy situer dans l’espace

(tape contre les murs, problèmes en voiture) j’ai⇤⇥ ��sosy froid même par chaleur élevée et⇤⇥ ��sosy somnolence très lourde à gérer toute la journée.

(60) Je me sens⌥⌃ ⌅⇧sosy patraque au niveau du foie et de mon estomac...

(61) Mon médecin m’a prescrit du Kestin, qui me mettait dans un état second (⌥⌃ ⌅⇧sosy fatigue ,⌥⌃ ⌅⇧sosy incapacité à me concentrer...).

(62) Prenez de la cokaine pendant 5 mois vous maigrirez aussi et c pas sur que vous ferez un⇤⇥ ��sosy arret cardiaque

(63)⇤⇥ ��sosy Réaction cutanée sur le corps (beaucoup de boutons) acné sur les endroits les plus

bizarres de la tête.

8

Page 11: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

Medical Procedure. Activité médicale ou chirurgicale, liée au soin des patients, y comprisdiagnostique, procédures, examens et méthodes de traitement.(64) Bien sûr il semble avéré que le magnésium a un effet sur les lipides mais est-il besoin

de l’administrer en⌥⌃ ⌅⇧proc injection ?

(65) C’est en mars 2009 que j’ai été⌥⌃ ⌅⇧proc opérée à coeur ouvert pour changer 2 valves contre

des valves mécaniques.Remarque : Dans l’exemple 53, l’occurrence « perdre » est étiquetée Sign or Symptom car

elle se rapporte aux cheveux et constitue un processus non souhaité (perte de cheveux), alors

que dans l’exemple 66, l’occurrence « perdre » est étiquetée Medical Procedure puisqu’elle se

rapporte à la perte de poids, ce qui constitue un processus recherché.

(66) Cela doit m’aider à⌥⌃ ⌅⇧proc perdre du poids, arrêter de perdre mes cheveux...

(67) J’ai eu un cancer au sein en 2001 et afin de m’aider à⇤⇥ ��proc stabiliser mon poids mon

docteur m’a⌥⌃ ⌅⇧proc prescrit médiator es ce que je ne risque rien

(68) Malgré le⌥⌃ ⌅⇧proc régime à la dernière

⌥⌃ ⌅⇧proc prise de sang j’avais encore 3.50g/l.

(69) Mon médecin m’as⌥⌃ ⌅⇧proc prescrit du Mediator pour faire

⇤⇥ ��proc chuter mon taux de trigly-cerine a raison de 3 comprimés / jour.

(70) Prise de Lariam en⌥⌃ ⌅⇧proc prophylaxie contre le paludisme.

3.3 Informations complémentairesCe dernier ensemble rassemble des catégories supplémentaires jugées utiles car appor-

tant des informations complémentaires, soit pour compléter les informations cliniques, soitpour faciliter l’identification automatique des informations utiles (par un système par ap-prentissage statistique) en ajoutant des catégories annexes.

3.3.1 Informations sociales

Job. Activité professionnelle, généralement médicale, concernant la personne avec qui ainteragi la personne qui s’exprime sur le forum.

(71) Ceci dit j’ai fait les test chez l’⌥⌃ ⌅⇧job allergo et je ne suis allergique à rien du tout donc la

cause est bien le médiator...

(72) J’ai eu un cancer au sein en 2001 et afin de m’aider à stabiliser mon poids mon⌥⌃ ⌅⇧job docteur

m’a prescrit médiator es ce que je ne risque rien

(73) Mon⌥⌃ ⌅⇧job médecin m’a prescrit du Kestin, qui me mettait dans un état second (fatigue,

incapacité à me concentrer...).

Weight. Poids total, poids gagné ou poids perdu dans le cadre d’un traitement.

(74) Actuellement je prends Abilify depuis 2 jours et j’ai déjà perdue⌥⌃ ⌅⇧wght 1kg .

3.3.2 Informations temporelles

Date. Date absolue ou relative la plus précise possible.

(75) C’est en⌥⌃ ⌅⇧date mars 2009 que j’ai été opérée à coeur ouvert pour changer 2 valves contre

des valves mécaniques.

(76) J’ai eu un cancer au sein en⌥⌃ ⌅⇧date 2001 et afin de m’aider à stabiliser mon poids mon

docteur m’a prescrit médiator es ce que je ne risque rien

9

Page 12: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

Duration. Durée d’un traitement ou d’une maladie. Il s’agit d’une quantité. On ne va doncgénéralement pas inclure le déclencheur (depuis, durant, pendant).

(77) A chaque prise de l’ampoule, je suis tombée sans raison⌥⌃ ⌅⇧dura quelques heures après ,

jambe qui se dérobe.

(78) Actuellement je prends Abilify depuis⌥⌃ ⌅⇧dura 2 jours et j’ai déjà perdue 1kg.

(79) Prenez de la cokaine pendant⌥⌃ ⌅⇧dura 5 mois vous maigrirez aussi et c pas sur que vous

ferez un arret cardiaque

Frequency. Fréquence d’un traitement ou d’un problème.

(80) Effets secondaires :⌥⌃ ⌅⇧freq 24/7 léger mal de tête avec

⌥⌃ ⌅⇧freq de temps en temps de fortespoussées surtout du côté droit du cerveau.

(81) J’avais⌥⌃ ⌅⇧freq régulièrement mal à la tête et je voyais moins bien.

(82) Mon médecin m’as prescrit du Mediator pour faire chuter mon taux de triglycerine araison de 3 comprimés

⌥⌃ ⌅⇧freq / jour .

Time. Moment de la journée inférieur à 24h (matin, soir, nuit).

(83) J’ai du mal à respirer la⌥⌃ ⌅⇧time nuit (angoisses ? ? ?)

10

Page 13: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

A HistoriqueCe guide fait suite à une première réflexion élaborée dans le cadre du stage de Mme Dalia

Megahed entre avril et octobre 2014 [Megahed, 2014], et poursuivi avec une comparaison surle traitement de données cliniques en anglais [Grouin et al., 2014, Grouin, 2014].

Présentation Dans cette première version, nous envisagions l’annotation de corpus parle biais de quatre catégories seulement (traitement, posologie, indication, événement)

8. Lafigure 5 donne un exemple d’annotations du corpus Doctissimo en suivant le schéma initiale-ment envisagé (capture d’écran BRAT).

FIGURE 5 – Exemple de message du corpus Doctissimo annoté avec le schéma initial

Discussion Nous avons constaté plusieurs problèmes lors de l’utilisation du résultat de cesannotations humaines pour construire des systèmes de repérage automatique des élémentsappartenant à ces catégories :

– Des éléments similaires sur le plan sémantique, voire strictement identiques, peuventappartenir à deux catégories différentes : « mal de tête » est aussi bien une indication

(le problème qui nécessite un traitement médical) qu’un événement (le problème causépar un traitement médical).Il ressort de cette observation qu’il est préférable (i) de repérer les entités pertinentes,avant (ii) d’identifier le rôle joué par ces entités (indication vs. événement ), par exempleau moyen d’indices linguistiques [Morlane-Hondère et al., 2015a] ou en se fondant surle verbe introduisant le nom de médicament [Morlane-Hondère et al., 2015b] ;

– La catégorie posologie regroupe des informations de nature diverse, ne permettant pasun bon apprentissage des caractéristiques des éléments de cette catégorie (absence d’ho-mogénéité) : des chiffres suivis d’une unité de mesure (concentration, dosage), des ex-pressions en toutes lettres (fréquence, durée), la combinaison de chiffres et de lettres,voire de signes de ponctuation (fréquence) ;

– La taille des portions annotées varient fortement (de 1 à 9 tokens dans l’exemple 5), nepermettant pas un bon usage de ces annotations par les approches statistiques testées 9.

Pour ces différentes raisons (absence d’homogénéité à l’intérieur d’une catégorie, difficultéà distinguer sémantiquement deux catégories opposées, et variation importante de la tailledes portions annotées), nous avons entièrement revu le schéma d’annotation. Les principes etcatégories d’annotation proposés dans ce guide sont donc issus des réflexions engagées aprèscette première expérience d’annotation.

8. Dans le détail, traitement pour le traitement médicamenteux (nom commercial, principe actif, classe pharma-cologique), posologie pour toute information de posologie (dosage, concentration, fréquence, durée), indication pourtout problème existant préalablement à la prise d’un médicament et justifiant cette prise, et événement pour toutproblème causé par la prise d’un traitement médical.

9. Plus une portion est longue, moins il y a de chances pour que les derniers éléments composant cette portionsoient correctement traités par les systèmes statistiques.

11

Page 14: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

B Retours d’expérienceCe guide d’annotation a été appliqué sur un corpus de 60 messages par deux annotateurs,

avec un sous-ensemble composé de 20 messages qui ont fait l’objet d’une double-annotation,puis d’un consensus entre annotateurs.

Nous avons calculé des taux d’accord inter-annotateurs sur ce sous-ensemble de 20 fi-chiers, évalués en terme de F-mesure (tableau 1), au moyen de l’outil BRATeval :

– d’une part entre chacun des deux annotateurs (Cyril / François),– puis entre chaque annotateur et le résultat du consensus (Cyril / consensus ; François /

consensus).Le travail d’annotation ayant été réalisé à partir d’une version pré-annotée automatique-

ment par un système informatique, nous indiquons également les accords– entre chaque annotateur et la pré-annotation (Cyril / pré-annot. ; François / pré-annot.),– et entre le consensus et la pré-annotation (consensus / pré-annot.).Les résultats de ces accords sont donnés au niveau global, et pour les quatre catégories

(Disorders, Sign or Symptom, Anatomy et Chemical or Drugs) les plus importantes pour lerepérage d’effets secondaires potentiels.

Annotateurs Global DISO SOSY ANAT CHEMCyril / François 0,825 0,800 0,813 0,929 0,976Cyril / consensus 0,916 0,920 0,892 0,977 0,964François / consensus 0,876 0,857 0,875 0,952 0,988Cyril / pré-annot. 0,556 0,703 0,601 0,778 0,750François / pré-annot. 0,557 0,722 0,555 0,771 0,727consensus / pré-annot. 0,514 0,634 0,515 0,750 0,716

TABLE 1 – Accords inter-annotateurs (F-mesure) sur le corpus MeaMedica

Si la pré-annotation fournit un résultat de qualité moyenne (F=0,514 au niveau global,avec une meilleure réussite sur les parties anatomiques), les deux annotateurs obtiennentdes accords élevés, confirmant qu’ils ont compris le guide d’annotation de la même manière.

12

Page 15: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

References[Bousquet, 2014] BOUSQUET, C. (2014). Veille sanitaire sur internet et sur les réseaux so-

ciaux — recherche et analyse des effets indésirables médicamenteux rapportés par lespatients dans les réseaux sociaux. Toxicol Anal et Clin, 26(4):214–5. – Cité page 1.

[Grouin, 2014] GROUIN, C. (2014). Identification of medication side effects in clinical records:an experiment based on the 2014 i2b2/uthealth corpus. In i2b2/UTHealth Shared-TasksProc, Washington, DC. – Cité page 11.

[Grouin et al., 2014] GROUIN, C., MEGAHED, D. et ZWEIGENBAUM, P. (2014). Medicationside effects identification from clinical records and health social media. In Forum STICParis-Saclay, Palaiseau, France. – Cité page 11.

[Lindberg et al., 1993] LINDBERG, D. A., HUMPHREYS, B. L. et MCRAY, A. T. (1993). TheUnified Medical Language System. Methods Inf Med, 32(4):281–91. – Cité page 3.

[Megahed, 2014] MEGAHED, D. (2014). Etude des forums de santé pour la détectiond’événements secondaires. Master’s thesis, INaLCO, Paris, France. – Cité page 11.

[Morlane-Hondère et al., 2015a] MORLANE-HONDÈRE, F., GROUIN, C., MORICEAU, V. etZWEIGENBAUM, P. (2015a). Médicaments qui soignent, médicaments qui rendent malade :étude des relations causales pour identifier les effets secondaires. In Actes de TALN, Caen,France. Articles courts. – Cité page 11.

[Morlane-Hondère et al., 2015b] MORLANE-HONDÈRE, F., GROUIN, C. et ZWEIGENBAUM, P.(2015b). Etude des verbes introducteurs de noms de médicaments dans les forums desanté. In Actes de TALN, Caen, France. Articles courts. – Cité page 11.

[Stenetorp et al., 2012] STENETORP, P., PYYSALO, S., TOPIC, G., OHTA, T., ANANIADOU, S.et TSUJII, J. (2012). BRAT: a web-based tool for NLP-assisted text annotation. In Proc ofEACL Demonstrations, pages 102–7, Avignon, France. ACL. – Cité page 2.

13

Page 16: Guide d’annotation des effets secondaires rapportes par les ......Guide d’annotation des effets secondaires rapportés par les patients sur les réseaux sociaux Cyril Grouin 21

Notes et Documents LIMSI No : 2015-07Juillet 2015

Auteurs (Authors) : C. Grouin

Titre : Guide d’annotation des effets secondaires rapport´es par

les patients sur les r´eseaux sociaux

Title: Annotation guidelines for adverse drug reactions repor-

ted by patients on social media

Nombre de pages (Number of pages) : 16

Resume : Ce guide vise `a donner les informations n´ecessaires `a un humain pour annoter un corpus de messages publi´es sur

des r´eseaux sociaux, relatifs `a des exp´eriences d’effets secondaires dus `a des traitements m´edicaux (projet Vigi4MED). Le

r´esultat de ces annotations manuelles servira, d’une part `a entraˆıner un mod`ele informatique par apprentissage statistique

(avec pour objectif final de disposer d’un syst`eme de d´etection automatique des effets secondaires), et d’autre part `a servir

de r´ef´erence pour ´evaluer les capacit´es d’un tel syst`eme `a identifier correctement les effets secondaires. Ce guide pr´esente

l’outil d’annotation (BRAT), les principes d’annotation et le d´etail des 16 cat´egories d’annotation retenues (parmi 3 types

d’information : traitements m´edicaux, informations cliniques, et informations compl´ementaires) ainsi que des exemples

permettant de se faire une repr´esentation du contenu de chaque cat´egorie.

Mots cles : Annotation de corpus, Information s´emantique, Pharmacovigilance

Abstract : These guidelines provide useful information to annotate corpora of messages reporting adverse drug reactions

due to medical treatment, as expressed by patients on health care forums (project Vigi4MED). The result of such manual

annotations will be used both to train statistical models through machine-learning algorithms (in order to design a system

to automatically identify adverse drug reactions) and to evaluate system outputs. These guidelines present the annotation

tool (BRAT), the annotation principles (among 3 kinds of information : medical treatments, clinical information, and

additional information) as well as annotation examples.

Key words: Corpus Annotation, Semantic Information, Pharmacovigilance