16
09/03/2004 WSM 2004 - Rouen Vers une génération automatique du mapping de sources biomédicales Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes

Vers une génération automatique du mapping de sources biomédicales

  • Upload
    evers

  • View
    28

  • Download
    4

Embed Size (px)

DESCRIPTION

Vers une génération automatique du mapping de sources biomédicales. Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes. Introduction. Besoin des biologistes et médecins de disposer de l’information accessible sur Internet - PowerPoint PPT Presentation

Citation preview

Page 1: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Vers une génération automatique du mapping de sources

biomédicales

Fleur Mougin, Christine Golbreich,Anita Burgun & Pierre Le Beux

Laboratoire d'Informatique Médicale, Rennes

Page 2: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Introduction

• Besoin des biologistes et médecins de disposer de l’information accessible sur Internet

• Sources biomédicales– Multiple hétérogénéité– Évolution très rapide– Ajout fréquent

nécessité de créer un système homogène manipulant de l’information à jour

Page 3: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Objectifs

• Système d’intégration virtuelle– Faciliter la collecte d’information– Offrir un accès global

• Description explicite des sources : mapping– Le plus automatiquement possible– Pour faire face aux mises à jour et ajouts

éventuels

• Définir un schéma par source

Page 4: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Système de médiation

• Médiateur (SIMS, IM, Picsel, DWQ, TSIMMIS)– Composants

• Les sources• Des adaptateurs associés• Un (ou plusieurs) médiateur(s)

– Différents types de mapping (GAV, LAV, GLAV)

• Peer-to-peer– Composants : les sources– Principe

• Pas de schéma global• Définition du mapping en fonction des schémas des sources

Page 5: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Schéma des sources• Rarement disponible ou sous une forme

difficilement exploitable• Aucun standard existant• Identifier le schéma de la source en utilisant la

structure sous-jacente des banques de données biomédicales

• Extraction à partir des pages Web du site de chaque source

• 2 méthodes différentes en fonction du format de sortie de l’outil d’interrogation des sources– HTML– XML

Page 6: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Schéma de Swiss-Prot

Page 7: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Format HTML : méthode (1/2)

• Basée sur la similarité intra-pages– Programmes CGI– Même structure HTML

• Corpus– 100 termes biomédicaux– Genetics Home Reference– ex : breast cancer 1, early onset + BRCA1 (HGNC)

• Interrogation de la source– Dynamiquement– Pour chaque terme du corpus Constitution d’un échantillon de 100 pages Web

Page 8: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Format HTML : méthode (2/2)

• Traitement par page– Nettoyage des en-tête et pied de page– Nettoyage des balises HTML non informatives– Extraction de couples (balise,termes)

• Traitement de l’échantillon– Regroupement des couples (balise,termes)

similaires– Ceux présents dans + de 75% des pages sont

gardés

Page 9: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Principe

Page 10: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Format XML : méthode

Exploitation de la DTD– Associée aux fichiers XML– Ontologie correspondant à une vue

abstraite du domaine [1]– Pour obtenir les métadonnées

[1] Giraldo G., Reynaud C., Construction semi-automatique d'ontologies à partir de DTDs relatives à un même domaine, 13èmes journées francophones d'Ingénierie des Connaissances, Rouen, 28-30 Mai 2002

Page 11: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Premiers résultats

• Banques de données– OMIM (gène ou pathologie)– Swiss-Prot (protéine)– Genecards (symbole du gène)

• Termes obtenus– Attributs (schéma de BD) ou relations (RDF)– Indiquent le type d’informations contenues

dans la source

Page 12: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Exemple OMIM

Page 13: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Exemple Swiss-Prot

Page 14: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Perspectives

• Étape suivante : définir le schéma de chaque source– Sous forme d’une ontologie locale– Exploitation des termes extraits

• Les organiser• Les trier

– Choix d’un vocabulaire commun

• Mapper les ontologies locales– Systèmes existant (Prompt, Chimaera, …) ?

Page 15: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

Conclusion

• BioMeKE (GO et UMLS)

• Méthode simple– Extraire des métadonnées d’une source– Pour réaliser un système d’intégration– Gérer l’évolution du système

Page 16: Vers une génération automatique du mapping de sources biomédicales

09/03/2004 WSM 2004 - Rouen

GDR STIC-SANTE : Journée Thématique Informatique Médicale dans le cadre du thème C : Systèmes d’information médicaux et bases

de données

Ontologies biomédicales partagées pour l’intégration de données et d’outils

distribués

Michel Dojat & Christine Golbreich