Upload
evers
View
28
Download
4
Embed Size (px)
DESCRIPTION
Vers une génération automatique du mapping de sources biomédicales. Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes. Introduction. Besoin des biologistes et médecins de disposer de l’information accessible sur Internet - PowerPoint PPT Presentation
Citation preview
09/03/2004 WSM 2004 - Rouen
Vers une génération automatique du mapping de sources
biomédicales
Fleur Mougin, Christine Golbreich,Anita Burgun & Pierre Le Beux
Laboratoire d'Informatique Médicale, Rennes
09/03/2004 WSM 2004 - Rouen
Introduction
• Besoin des biologistes et médecins de disposer de l’information accessible sur Internet
• Sources biomédicales– Multiple hétérogénéité– Évolution très rapide– Ajout fréquent
nécessité de créer un système homogène manipulant de l’information à jour
09/03/2004 WSM 2004 - Rouen
Objectifs
• Système d’intégration virtuelle– Faciliter la collecte d’information– Offrir un accès global
• Description explicite des sources : mapping– Le plus automatiquement possible– Pour faire face aux mises à jour et ajouts
éventuels
• Définir un schéma par source
09/03/2004 WSM 2004 - Rouen
Système de médiation
• Médiateur (SIMS, IM, Picsel, DWQ, TSIMMIS)– Composants
• Les sources• Des adaptateurs associés• Un (ou plusieurs) médiateur(s)
– Différents types de mapping (GAV, LAV, GLAV)
• Peer-to-peer– Composants : les sources– Principe
• Pas de schéma global• Définition du mapping en fonction des schémas des sources
09/03/2004 WSM 2004 - Rouen
Schéma des sources• Rarement disponible ou sous une forme
difficilement exploitable• Aucun standard existant• Identifier le schéma de la source en utilisant la
structure sous-jacente des banques de données biomédicales
• Extraction à partir des pages Web du site de chaque source
• 2 méthodes différentes en fonction du format de sortie de l’outil d’interrogation des sources– HTML– XML
09/03/2004 WSM 2004 - Rouen
Schéma de Swiss-Prot
09/03/2004 WSM 2004 - Rouen
Format HTML : méthode (1/2)
• Basée sur la similarité intra-pages– Programmes CGI– Même structure HTML
• Corpus– 100 termes biomédicaux– Genetics Home Reference– ex : breast cancer 1, early onset + BRCA1 (HGNC)
• Interrogation de la source– Dynamiquement– Pour chaque terme du corpus Constitution d’un échantillon de 100 pages Web
09/03/2004 WSM 2004 - Rouen
Format HTML : méthode (2/2)
• Traitement par page– Nettoyage des en-tête et pied de page– Nettoyage des balises HTML non informatives– Extraction de couples (balise,termes)
• Traitement de l’échantillon– Regroupement des couples (balise,termes)
similaires– Ceux présents dans + de 75% des pages sont
gardés
09/03/2004 WSM 2004 - Rouen
Principe
09/03/2004 WSM 2004 - Rouen
Format XML : méthode
Exploitation de la DTD– Associée aux fichiers XML– Ontologie correspondant à une vue
abstraite du domaine [1]– Pour obtenir les métadonnées
[1] Giraldo G., Reynaud C., Construction semi-automatique d'ontologies à partir de DTDs relatives à un même domaine, 13èmes journées francophones d'Ingénierie des Connaissances, Rouen, 28-30 Mai 2002
09/03/2004 WSM 2004 - Rouen
Premiers résultats
• Banques de données– OMIM (gène ou pathologie)– Swiss-Prot (protéine)– Genecards (symbole du gène)
• Termes obtenus– Attributs (schéma de BD) ou relations (RDF)– Indiquent le type d’informations contenues
dans la source
09/03/2004 WSM 2004 - Rouen
Exemple OMIM
09/03/2004 WSM 2004 - Rouen
Exemple Swiss-Prot
09/03/2004 WSM 2004 - Rouen
Perspectives
• Étape suivante : définir le schéma de chaque source– Sous forme d’une ontologie locale– Exploitation des termes extraits
• Les organiser• Les trier
– Choix d’un vocabulaire commun
• Mapper les ontologies locales– Systèmes existant (Prompt, Chimaera, …) ?
09/03/2004 WSM 2004 - Rouen
Conclusion
• BioMeKE (GO et UMLS)
• Méthode simple– Extraire des métadonnées d’une source– Pour réaliser un système d’intégration– Gérer l’évolution du système
09/03/2004 WSM 2004 - Rouen
GDR STIC-SANTE : Journée Thématique Informatique Médicale dans le cadre du thème C : Systèmes d’information médicaux et bases
de données
Ontologies biomédicales partagées pour l’intégration de données et d’outils
distribués
Michel Dojat & Christine Golbreich