Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

IC 2009

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

Inès Jilani (SPIM)Florence Amardeilh(MoDyCo)

Projet STIC-AMSUD Microbio

Contexte 1

Maîtrise des techniques deMaîtrise des techniques deséquençage du génomeséquençage du génome

Explosion des données et desExplosion des données et desconnaissancesconnaissances

La littérature est la source dedonnées et de connaissances la plus importante.Le travail des annotateurs est assuré manuellement.

Besoin d’outils automatiques

Projet Microbio

Programme STIC-AMSUD

Collaboration avec l’Institut Pasteur de Montevideo (Uruguay)

Recherche de connaissances sur les miARN: ARN simple-brin (21 à 24 nucléotides) qui s'apparient à des ARN messagers, ils guident leur dégradation, ou la répression de leur traduction en protéine, entraînant l’apparition ou au contraire l'inhibition de maladies

Problématique Microbio Phases du projet Microbio :

1. Construire une ontologie de domaine sur les miARNs

1. Identifier et extraire les mutations et les régulations impliquant des miARNs

Identifier l’information modale pour enrichir la connaissance extraite des textes bio-médicaux

Fournir aux biologistes des interfaces pour explotier la basede connaissance ainsi générée

Construction manuelle d’une ontologie de domaine

A partir de : la littérature scientifique bio-médicale Les bases de données existantes sur les gènes, les

maladies, les miARN, les mutations, etc. Les modélisation de terminologies ou d’ontologies existantes

se rapprochant du sujet de notre étude (Gene Ontology, Sequence Ontologgy, …)

Entretiens avec les biologistes de l’IP¨Uruguay

Modélisation d’une ontologie au sujet des régulations et des mutations entre miARN et mARN

Ontologie Microbio

Extension de la « Sequence

Ontology » pour prendre en compte les spécificités des

miARN

Validation de l’ontologie miARN

En cours par les biologistes de l’IP

Travail également en cours : création semi-automatique d’une ontologie des

miARNs à partir des corpus issus de MedLine Comparaison des deux ontologies pour leur

validation et enrichissement potentiel

Matériel pour l’extraction de connaissances

Pubmed: portail de Medline1

Règlessurlignées parl’expertbiologiste

1 www.ncbi.nlm.nih.gov/entrez/

Matériel pour l’extraction de connaissances

Terminologies utilisées pour construire les dictionnaires

Corpus collecté

Requête:SNPs [MH] AND miRNAs [MH] AND human [MH]

Résultat: 35 articles dont 21 disponibles en entier (533 853 tokens pour une taille de 2,2 Mo)

Méthode d’extraction

Patrons de tri/quadri-occurrence:

Evaluation de la tâche de Peuplement de l’ontologie

Résultats de l’extraction de connaissances sur les miARN: 35 annotations différentes extraites automatiquement

Evaluation: 30 annotations étaient à retrouver (annotations réalisées manuellement par l’expert biologiste)

Précision = 25/35 = 0,72 Rappel = 15/30 = 0,50

Discussion sur l’évaluation Rappel relativement bas: pas de prise en

compte des variantes morphologiques des maladies par exemple. L’outil ne détecte pas une phrase qui contient « lung

cancers » car notre dictionnaire n’inclut que les formes au singulier « lung cancer ».

Le chiffre de la précision souffre de la synonymie des noms de gènes avec les noms propres, ou des acronymes utilisés pour référencer des techniques en biologie.

Mise en place du processus de peuplement de l’ontologie

Utilisation de l’infrastructure offerte par le CA Manager Outil d’extraction d’information « miR Discovery » exploitant les

patrons présentés Référentiel sémantique : Sesame

Définition des règles d’acquisition de connaissance pour exprimer le passage des informations extraites en instances de connaissances

Définition des algorithmes de consolidation pour fsiltrer et améliorer les résultats obtenus par l’extraction

Conclusion et travaux futurs Améliorer la performance de l’outil d’extraction et continuer

le développement de sa couverture

Achever les connecteurs au serveur de connaissance Sesame (via le CA Manager) et ajouter l’enrichissement automatique à partir d’autres sources de données accessibbles par web services

Fournir des informations de confiance aux biologistes concernant les nouvelles instances créées dans la base de connaissance (information sur les relations identifiées entre les entités, preuves de l’expérimentation, etc.) grâce à l’information modale pouvant être identifiée dans les textes analysés

Technology

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique