Service sémantique de découverte de données géospatiales

Preview:

DESCRIPTION

Les interfaces et technologies pour découvrir et accéder aux jeux de données et services Web n’ont pas beaucoup changé depuis les premières implantations d’infrastructures de données géospatiales. L’utilisateur entre des critères qui correspondent à des champs de métadonnées conservés par le diffuseur, lance la requête et reçoit la liste des résultats qui respectent les coordonnées, chaines de caractères et/ou valeurs numériques entrées. Ceci cause plusieurs problèmes, par exemple : l’utilisateur n’a aucune idée du nombre résultats ni de la diversité des réponses qu’il obtiendra avant d’avoir lancé sa requête; ces réponses ne sont souvent pas triées par ordre d’importance; lorsque l’utilisateur utilise des critères de contenu, il doit utiliser exactement les mêmes concepts, vocabulaires et langues qu’utilisés par chaque diffuseur lors de la saisie de ces métadonnées sans quoi il n’obtiendra pas les résultats pertinents; lorsque l’utilisateur utilise un nom de lieu pour identifier sa zone d’intérêt, celle-ci est souvent mal interprétée. Le bût du projet est de mettre au point un système de recherche interactif et ontologique pour la recherche de services et de jeux de données géospatiaux. Ce système utilise un service ontologique pour décrire les caractéristiques de contenu et de localisation et conserve les métadonnées dans un cube multidimensionnel (OLAP). Il aura une capacité de raisonnement sémantique et sera développé dans un environnement conforme aux normes d’interopérabilité. La conférence présentera des enjeux du projet et les résultats obtenus. Le service a été développé avec la Défense nationale et le ministère des Ressources naturelles et de la Faune du Québec. Le programme GéoConnexions a contribué financièrement au projet.

Citation preview

Service sémantique de découverte de données géospatiales

Serge Kéna-Cohen et Yvan Bédard

Conférence Géomatique 2009

Menu

1. Introduction

2. Besoins

3. Domaines d’application envisagés

4. Solution

5. Enjeux et orientations

6. Environnement technologique

7. Conclusion

Introduction• Contexte• Problématique• But• Objectifs • Besoins

Contexte- Projet GéoConnexions

• Partenaires:

– Ministère des Ressources naturelles et de la Faune du Québec, Secteur du territoire

– Ministère des Ressources naturelles et de la Faune du Québec, Secteur des mines

– Défense nationale du Canada – RDDC-V

– Ressources naturelles Canada, GéoConnexions

• Développeurs

– DMR

– Université Laval – Centre de recherche en géomatique

Contexte

• On veut découvrir et accéder aux jeux de données géospatiales (et aux services géospatiaux)

– Spécifier les critères de recherche

– Découvrir les données pertinentes

Problématique

• Aucune idée du nombre de résultats

• Les résultats ne sont pas triés par ordre d’importance

• On doit utiliser un vocabulaire spécifique

• On doit chercher dans la langue des données

• Certains termes ont une portée géographique

Buts

• Mettre au point un système de recherche interactif et ontologique pour la recherche de services et de jeux de données géospatiales.

– Capacité de raisonnement sémantique

– Environnement conforme aux normes OGC et ISO

Objectifs

• Réviser les besoins reliés à la découverte des données dans un concept d’utilisation d’ontologies, de services Web et de cube multidimensionnel spatial

• Identifier les fonctions et les opérations de services pour répondre à ces besoins

• Définir les protocoles Web pour les services

• Développer les fonctions

• Valider avec les partenaires

• Intégrer au portail des partenaires.

Besoins• Besoins fonctionnels• Besoins non-fonctionnels

Besoins fonctionnels

• Identifier l’information à l’aide des concepts métiers:

– Identification par concepts

– Indépendance de la langue.

• Naviguer selon la modélisation du domaine:

– Structuration des concepts

– Permettre de comprendre, assimiler et exploiter la modélisation

• Examiner les données de manière plus dynamique:

– Naviguer selon la sémantique.

• Assister l’utilisateur dans l’expression de ses besoins:

– Choisir les bons éléments

– Exploiter les connaissances du domaine et leur organisation.

• Présenter les résultats:

– Afficher selon l’ordre d’importance des résultats.

• Avoir une vision globale:

– Vision globale et synthétique de l’information.

Besoins non-fonctionnels

Volumes Plus de 1,000,000 d’enregistrements

Chargements Chargement générique, chaque partenaire a son format de métadonnées respectif

Mise-à-jour régulière

Performance Très rapide dû à la technologie OLAP

Sécurité Usagers authentifiés

Pas de restriction d’accès pour les données individuelles

Disponibilité 7 jours par semaine, 20 heures par jour

4 heures de nuit réservées aux mise-à-jour

Flexibilité Doit accommoder les différents partenaires

Interopérabilité Fonctions implantées comme services Web

Bases de données Interface JDBC

Environnement de développement

Open Source (Java)

Interface Fureteur Web

Solution

Domaines de solutions• Ontologies• Ontologies et Web sémantique• Services Web sémantiques• Systèmes décisionnels• SOLAP – Spatial On-Line Analytical

Processing

Domaines de solutions

• Les Ontologies

• Les Ontologies et le Web sémantique

• Le Spatial On-Line Analytical Processing (SOLAP)

• Les CRM

Enjeux et Orientations• Portée des ontologies• Accès aux ontologies• Inconsistances et incohérences• Concepts ou termes• Contenu des ontologies• Services d’ontologie• Contenu des ontologies

• Dimensions du cube• Intégration des aspects spatiaux• Intégration des ontologies• Conversion générique• Rafraichissement du cube• Ordre d’importance• Perfomance

Solution fonctionnelle

Enjeux – Portée des ontologies

• Restreint à l’information géospatiale

• Pas gérer toute la connaissance d’un domaine

• Offrir les opérations les plus importantes nécessaires pour répondre aux besoins exprimés

• Information documentée par des métadonnées normées

• La langue des informations est connue

• Limitée aux:– Termes

– Descriptions

– Traductions

– Relations• Termes apparentés• Synonymes• Termes englobés (hiérarchie ou classes et sous-classes)

Enjeux – Accès aux ontologies

• Chacun décrit sa propre ontologie

• Modèle commun de données ontologiques

• Serveur d’ontologie centralisé

• Accessible en utilisant des services Web.

Enjeux – Inconsistances et incohérences

• Ontologies limitées aux domaines d’intérêt

• Ontologies ne sont pas volumineuses

• Risque d’incohérences est minime

• Élimination des références circulaires.

Enjeux – Concepts ou termes

• Concepts

• Énoncés simples RDF (Resource Description Framework)

• Multilingue

Enjeux – Services d’ontologie

• Récupérer les services OGM3:

Enjeux – Services d’ontologie

• Récupérer les services OGM3:

– GetCapabilities – retourne les capacités du service

– GetOntology – retourne l'ontologie

– GetDefinition- retourne la définition d'un terme

– GetPrefered – retourne le terme de préférence

– GetSimilar – retourne les termes similaires

– GetTranslation – retourne la traduction d'un terme

– GetGraph – retourne le graphe d'un terme dans l'ontologie

Enjeux – Contenu des ontologies

• Canadian Core Subjects Thesaurus – CCST (Thesaurus des sujets de base du gouvernement du Canada – TSB)

• OpenDirectory

• Getty Thesaurus of Geographical Names (TGN)

• Library of Congres Subject Headings

• Center for International Earth Science Information Network (CIESIN)

• Global Change Master Directory (GCMD)

• Dictionnaire des entités géographiques du Québec

• Constitution à partir des métadonnées

Enjeux – Dimension du cube de données

• Dimensions sont les critères de recherche

• Sept plus ou moins deux

• Différentes représentations– Étoile

– Flocon

– Parent-enfant

• Différents types– Numérique

– Date

– Spatial

– Nominal

Enjeux – Conversion générique

• Critères de recherche paramétrisés

• Utilisés lors de la création du cube

• Utilisés lors de la recherche

• Dimensions pas nécessairement dans la métadonnée

• Interprétation humaine requise dans la conception d’un cube

• Besoin de spécifier les niveaux d’agrégation

• Définir une structure fixe avec dimensions typiques

• Choisir les critères parmi les dimensions potentielles

Enjeux – Intégration des aspects spatiaux

• Structure matricielle

• Territoire découpé en petites régions régulières

• Forment la cellule de base pour l’indexation

• Sélection d’un groupe de cellules détermine le nombre de documents

Enjeux – Intégration des ontologies

• Trois possibilités:– Au moment de la constitution du cube

• Permet la représentation généralisée (termes englobant) ou étendue (termes englobés)

• Réponse instantanée• Cube plus volumineux

– Au moment de la recherche• Choisir l’ontologie lors de la recherche• Volume du cube limité aux métadonnées• Réponse moins rapide

– Mixte:• Plus grande latitude de recherche

Enjeux – Ordre d’importance des résultats

• Priorisation de l’affichage des résultats en fonction:

– Du nombre de critères respectés

– Du type et pourcentage de relation sémantique respectés

– De l’utilisation de critères de popularité (ventes)

Enjeux - Performance

• Création du cube

• Requêtes de découverte

• Services d’ontologie

• Priorisation des résultats

Enjeux - Normes

Enjeux - Normes

– ISO 639 pour la définition des langages et le codage en UTF8 pour les caractères.

– Thésaurus monolingues (ISO 2788) et multilingues (ISO 5964) pour la codification des liens sémantiques.

– Les normes W3C :• DAML-OIL et OWL, pour décrire les ontologies• SVG, pour afficher les liens graphiques entre concepts

d’ontologies• XML, pour coder les protocoles d’échange inter-service• WSDL pour décrire les services• SOAP pour les protocoles d’accès• UDDI pour publiciser les services

Enjeux - Normes

– Les normes géomatiques:• le profil nord américain des métadonnées d’ISO 19115 pour la

source des métadonnées à extraire par l’ETL• ISO 19115 et CSDGM de FGDC pour la définition des types de

mots-clés de contenu à conserver dans les ontologies (thème, entité, attribut, catégories, etc.)

• ISO 19110 pour définir les critères de contenu• ISO 19112 pour définir les critères géographiques• WMS pour l’identification des critères d’étendues géographiques

lors de recherches et d’affichage géographique de résultats• CAT 2.0 pour l’interface normalisée au cube de données

Protocoles

• Protocoles d’accès aux services d’ontologie– Basés sur les protocoles HTTP et XML

– Requête de description des capacités (GetCapabilities)• Opérations supportées• Domaines de l’ontologie• Langages• Données géographiques

– Requête pour obtenir les ontologies

– Requête pour obtenir:• Terme préféré• Termes similaires• Traduction• Définition

Environnement technologique

Environnement technologique - Services

• Intégrés à l'environnement technologique du client.

• Facilité par une architecture orientée services.

– Services autonomes

– Accessibles via un protocole Web normalisé basé sur XML et décrit avec la norme WSDL.

– Inscrits dans un registre UDDI.

– Adaptation du progiciel Protégé-2000

Environnement technologique

• Open Source, Développement en Java

• Permet de récupérer des composantes existantes (API Java de Protégé 2000)

• Connexion au SGBD à travers une couche indépendante JDBC – MS SQL Server

– Oracle

• Affichage géographique OpenLayers

• Affichage graphique JFreeChart

• Site Web permettant de démontrer la technologie

Conclusion

• L’architecture s’est terminée en février 2009

• Le module d’extraction et de constitution du cube est terminé

• Le module sémantique est en tests, nous avons encore 2 enjeux: la performance et le contenu

• Le module de recherche est en développement

• Le développement du module de priorisation n’a pas débuté

• Fin prévue février 2010

Conclusion

Recommended