39
Service sémantique de découverte de données géospatiales Serge Kéna-Cohen et Yvan Bédard Conférence Géomatique 2009

Service sémantique de découverte de données géospatiales

Embed Size (px)

DESCRIPTION

Les interfaces et technologies pour découvrir et accéder aux jeux de données et services Web n’ont pas beaucoup changé depuis les premières implantations d’infrastructures de données géospatiales. L’utilisateur entre des critères qui correspondent à des champs de métadonnées conservés par le diffuseur, lance la requête et reçoit la liste des résultats qui respectent les coordonnées, chaines de caractères et/ou valeurs numériques entrées. Ceci cause plusieurs problèmes, par exemple : l’utilisateur n’a aucune idée du nombre résultats ni de la diversité des réponses qu’il obtiendra avant d’avoir lancé sa requête; ces réponses ne sont souvent pas triées par ordre d’importance; lorsque l’utilisateur utilise des critères de contenu, il doit utiliser exactement les mêmes concepts, vocabulaires et langues qu’utilisés par chaque diffuseur lors de la saisie de ces métadonnées sans quoi il n’obtiendra pas les résultats pertinents; lorsque l’utilisateur utilise un nom de lieu pour identifier sa zone d’intérêt, celle-ci est souvent mal interprétée. Le bût du projet est de mettre au point un système de recherche interactif et ontologique pour la recherche de services et de jeux de données géospatiaux. Ce système utilise un service ontologique pour décrire les caractéristiques de contenu et de localisation et conserve les métadonnées dans un cube multidimensionnel (OLAP). Il aura une capacité de raisonnement sémantique et sera développé dans un environnement conforme aux normes d’interopérabilité. La conférence présentera des enjeux du projet et les résultats obtenus. Le service a été développé avec la Défense nationale et le ministère des Ressources naturelles et de la Faune du Québec. Le programme GéoConnexions a contribué financièrement au projet.

Citation preview

Page 1: Service sémantique de découverte de données géospatiales

Service sémantique de découverte de données géospatiales

Serge Kéna-Cohen et Yvan Bédard

Conférence Géomatique 2009

Page 2: Service sémantique de découverte de données géospatiales

Menu

1. Introduction

2. Besoins

3. Domaines d’application envisagés

4. Solution

5. Enjeux et orientations

6. Environnement technologique

7. Conclusion

Page 3: Service sémantique de découverte de données géospatiales

Introduction• Contexte• Problématique• But• Objectifs • Besoins

Page 4: Service sémantique de découverte de données géospatiales

Contexte- Projet GéoConnexions

• Partenaires:

– Ministère des Ressources naturelles et de la Faune du Québec, Secteur du territoire

– Ministère des Ressources naturelles et de la Faune du Québec, Secteur des mines

– Défense nationale du Canada – RDDC-V

– Ressources naturelles Canada, GéoConnexions

• Développeurs

– DMR

– Université Laval – Centre de recherche en géomatique

Page 5: Service sémantique de découverte de données géospatiales

Contexte

• On veut découvrir et accéder aux jeux de données géospatiales (et aux services géospatiaux)

– Spécifier les critères de recherche

– Découvrir les données pertinentes

Page 6: Service sémantique de découverte de données géospatiales

Problématique

• Aucune idée du nombre de résultats

• Les résultats ne sont pas triés par ordre d’importance

• On doit utiliser un vocabulaire spécifique

• On doit chercher dans la langue des données

• Certains termes ont une portée géographique

Page 7: Service sémantique de découverte de données géospatiales

Buts

• Mettre au point un système de recherche interactif et ontologique pour la recherche de services et de jeux de données géospatiales.

– Capacité de raisonnement sémantique

– Environnement conforme aux normes OGC et ISO

Page 8: Service sémantique de découverte de données géospatiales

Objectifs

• Réviser les besoins reliés à la découverte des données dans un concept d’utilisation d’ontologies, de services Web et de cube multidimensionnel spatial

• Identifier les fonctions et les opérations de services pour répondre à ces besoins

• Définir les protocoles Web pour les services

• Développer les fonctions

• Valider avec les partenaires

• Intégrer au portail des partenaires.

Page 9: Service sémantique de découverte de données géospatiales

Besoins• Besoins fonctionnels• Besoins non-fonctionnels

Page 10: Service sémantique de découverte de données géospatiales

Besoins fonctionnels

• Identifier l’information à l’aide des concepts métiers:

– Identification par concepts

– Indépendance de la langue.

• Naviguer selon la modélisation du domaine:

– Structuration des concepts

– Permettre de comprendre, assimiler et exploiter la modélisation

• Examiner les données de manière plus dynamique:

– Naviguer selon la sémantique.

• Assister l’utilisateur dans l’expression de ses besoins:

– Choisir les bons éléments

– Exploiter les connaissances du domaine et leur organisation.

• Présenter les résultats:

– Afficher selon l’ordre d’importance des résultats.

• Avoir une vision globale:

– Vision globale et synthétique de l’information.

Page 11: Service sémantique de découverte de données géospatiales

Besoins non-fonctionnels

Volumes Plus de 1,000,000 d’enregistrements

Chargements Chargement générique, chaque partenaire a son format de métadonnées respectif

Mise-à-jour régulière

Performance Très rapide dû à la technologie OLAP

Sécurité Usagers authentifiés

Pas de restriction d’accès pour les données individuelles

Disponibilité 7 jours par semaine, 20 heures par jour

4 heures de nuit réservées aux mise-à-jour

Flexibilité Doit accommoder les différents partenaires

Interopérabilité Fonctions implantées comme services Web

Bases de données Interface JDBC

Environnement de développement

Open Source (Java)

Interface Fureteur Web

Page 12: Service sémantique de découverte de données géospatiales

Solution

Page 13: Service sémantique de découverte de données géospatiales

Domaines de solutions• Ontologies• Ontologies et Web sémantique• Services Web sémantiques• Systèmes décisionnels• SOLAP – Spatial On-Line Analytical

Processing

Page 14: Service sémantique de découverte de données géospatiales

Domaines de solutions

• Les Ontologies

• Les Ontologies et le Web sémantique

• Le Spatial On-Line Analytical Processing (SOLAP)

• Les CRM

Page 15: Service sémantique de découverte de données géospatiales

Enjeux et Orientations• Portée des ontologies• Accès aux ontologies• Inconsistances et incohérences• Concepts ou termes• Contenu des ontologies• Services d’ontologie• Contenu des ontologies

• Dimensions du cube• Intégration des aspects spatiaux• Intégration des ontologies• Conversion générique• Rafraichissement du cube• Ordre d’importance• Perfomance

Page 16: Service sémantique de découverte de données géospatiales

Solution fonctionnelle

Page 17: Service sémantique de découverte de données géospatiales

Enjeux – Portée des ontologies

• Restreint à l’information géospatiale

• Pas gérer toute la connaissance d’un domaine

• Offrir les opérations les plus importantes nécessaires pour répondre aux besoins exprimés

• Information documentée par des métadonnées normées

• La langue des informations est connue

• Limitée aux:– Termes

– Descriptions

– Traductions

– Relations• Termes apparentés• Synonymes• Termes englobés (hiérarchie ou classes et sous-classes)

Page 18: Service sémantique de découverte de données géospatiales

Enjeux – Accès aux ontologies

• Chacun décrit sa propre ontologie

• Modèle commun de données ontologiques

• Serveur d’ontologie centralisé

• Accessible en utilisant des services Web.

Page 19: Service sémantique de découverte de données géospatiales

Enjeux – Inconsistances et incohérences

• Ontologies limitées aux domaines d’intérêt

• Ontologies ne sont pas volumineuses

• Risque d’incohérences est minime

• Élimination des références circulaires.

Page 20: Service sémantique de découverte de données géospatiales

Enjeux – Concepts ou termes

• Concepts

• Énoncés simples RDF (Resource Description Framework)

• Multilingue

Page 21: Service sémantique de découverte de données géospatiales

Enjeux – Services d’ontologie

• Récupérer les services OGM3:

Page 22: Service sémantique de découverte de données géospatiales

Enjeux – Services d’ontologie

• Récupérer les services OGM3:

– GetCapabilities – retourne les capacités du service

– GetOntology – retourne l'ontologie

– GetDefinition- retourne la définition d'un terme

– GetPrefered – retourne le terme de préférence

– GetSimilar – retourne les termes similaires

– GetTranslation – retourne la traduction d'un terme

– GetGraph – retourne le graphe d'un terme dans l'ontologie

Page 23: Service sémantique de découverte de données géospatiales

Enjeux – Contenu des ontologies

• Canadian Core Subjects Thesaurus – CCST (Thesaurus des sujets de base du gouvernement du Canada – TSB)

• OpenDirectory

• Getty Thesaurus of Geographical Names (TGN)

• Library of Congres Subject Headings

• Center for International Earth Science Information Network (CIESIN)

• Global Change Master Directory (GCMD)

• Dictionnaire des entités géographiques du Québec

• Constitution à partir des métadonnées

Page 24: Service sémantique de découverte de données géospatiales

Enjeux – Dimension du cube de données

• Dimensions sont les critères de recherche

• Sept plus ou moins deux

• Différentes représentations– Étoile

– Flocon

– Parent-enfant

• Différents types– Numérique

– Date

– Spatial

– Nominal

Page 25: Service sémantique de découverte de données géospatiales

Enjeux – Conversion générique

• Critères de recherche paramétrisés

• Utilisés lors de la création du cube

• Utilisés lors de la recherche

• Dimensions pas nécessairement dans la métadonnée

• Interprétation humaine requise dans la conception d’un cube

• Besoin de spécifier les niveaux d’agrégation

• Définir une structure fixe avec dimensions typiques

• Choisir les critères parmi les dimensions potentielles

Page 26: Service sémantique de découverte de données géospatiales

Enjeux – Intégration des aspects spatiaux

• Structure matricielle

• Territoire découpé en petites régions régulières

• Forment la cellule de base pour l’indexation

• Sélection d’un groupe de cellules détermine le nombre de documents

Page 27: Service sémantique de découverte de données géospatiales

Enjeux – Intégration des ontologies

• Trois possibilités:– Au moment de la constitution du cube

• Permet la représentation généralisée (termes englobant) ou étendue (termes englobés)

• Réponse instantanée• Cube plus volumineux

– Au moment de la recherche• Choisir l’ontologie lors de la recherche• Volume du cube limité aux métadonnées• Réponse moins rapide

– Mixte:• Plus grande latitude de recherche

Page 28: Service sémantique de découverte de données géospatiales

Enjeux – Ordre d’importance des résultats

• Priorisation de l’affichage des résultats en fonction:

– Du nombre de critères respectés

– Du type et pourcentage de relation sémantique respectés

– De l’utilisation de critères de popularité (ventes)

Page 29: Service sémantique de découverte de données géospatiales

Enjeux - Performance

• Création du cube

• Requêtes de découverte

• Services d’ontologie

• Priorisation des résultats

Page 30: Service sémantique de découverte de données géospatiales

Enjeux - Normes

Page 31: Service sémantique de découverte de données géospatiales

Enjeux - Normes

– ISO 639 pour la définition des langages et le codage en UTF8 pour les caractères.

– Thésaurus monolingues (ISO 2788) et multilingues (ISO 5964) pour la codification des liens sémantiques.

– Les normes W3C :• DAML-OIL et OWL, pour décrire les ontologies• SVG, pour afficher les liens graphiques entre concepts

d’ontologies• XML, pour coder les protocoles d’échange inter-service• WSDL pour décrire les services• SOAP pour les protocoles d’accès• UDDI pour publiciser les services

Page 32: Service sémantique de découverte de données géospatiales

Enjeux - Normes

– Les normes géomatiques:• le profil nord américain des métadonnées d’ISO 19115 pour la

source des métadonnées à extraire par l’ETL• ISO 19115 et CSDGM de FGDC pour la définition des types de

mots-clés de contenu à conserver dans les ontologies (thème, entité, attribut, catégories, etc.)

• ISO 19110 pour définir les critères de contenu• ISO 19112 pour définir les critères géographiques• WMS pour l’identification des critères d’étendues géographiques

lors de recherches et d’affichage géographique de résultats• CAT 2.0 pour l’interface normalisée au cube de données

Page 33: Service sémantique de découverte de données géospatiales

Protocoles

• Protocoles d’accès aux services d’ontologie– Basés sur les protocoles HTTP et XML

– Requête de description des capacités (GetCapabilities)• Opérations supportées• Domaines de l’ontologie• Langages• Données géographiques

– Requête pour obtenir les ontologies

– Requête pour obtenir:• Terme préféré• Termes similaires• Traduction• Définition

Page 34: Service sémantique de découverte de données géospatiales

Environnement technologique

Page 35: Service sémantique de découverte de données géospatiales

Environnement technologique - Services

• Intégrés à l'environnement technologique du client.

• Facilité par une architecture orientée services.

– Services autonomes

– Accessibles via un protocole Web normalisé basé sur XML et décrit avec la norme WSDL.

– Inscrits dans un registre UDDI.

– Adaptation du progiciel Protégé-2000

Page 36: Service sémantique de découverte de données géospatiales

Environnement technologique

• Open Source, Développement en Java

• Permet de récupérer des composantes existantes (API Java de Protégé 2000)

• Connexion au SGBD à travers une couche indépendante JDBC – MS SQL Server

– Oracle

• Affichage géographique OpenLayers

• Affichage graphique JFreeChart

• Site Web permettant de démontrer la technologie

Page 37: Service sémantique de découverte de données géospatiales

Conclusion

Page 38: Service sémantique de découverte de données géospatiales

• L’architecture s’est terminée en février 2009

• Le module d’extraction et de constitution du cube est terminé

• Le module sémantique est en tests, nous avons encore 2 enjeux: la performance et le contenu

• Le module de recherche est en développement

• Le développement du module de priorisation n’a pas débuté

• Fin prévue février 2010

Conclusion

Page 39: Service sémantique de découverte de données géospatiales