4
www.antidot.net Les cas d’usage Antidot Open Data : démo Monuments Historiques Antidot a réalisé une base de connaissance riche sur les Monuments Historiques Français par agrégation et utilisation de sept sources de données distinctes. Ce projet a été exclusivement réalisé avec les solutions Antidot : Antidot Information Factory pour la collecte, le traitement et l’enrichissement des données ; Antidot Finder Suite pour fournir les interfaces de recherche et de navigation.. L’application Monuments Historiques L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France. Nous avons profité de l’ouverture des données pour réaliser une application qui démontre la valeur du Linked Data en maillant des données issues de différentes sources publiques. Les données souches sont la liste des immeubles protégés au titre des Monuments Historiques. Disponible sur data.gouv.fr dans un fichier CSV, cette source de données décrit 43 720 monuments. L’enrichissement de cette base a été réalisé en exploitant 6 sources de données ouvertes : La liste des 3 065 gares de voyageurs du Réseau Ferré National avec leurs coordonnées géographiques, telle que fournie par data.gouv.fr au format XLS. Elle est exploitée pour lier monuments et gares qui sont à proximité. La liste des 301 stations du métro parisien avec leurs coordonnées, fournie par OpenStreetMap. Cette source est exploitée pour situer les monuments parisiens à proximité d’une station de métro. Les données du code officiel géographique (COG) de l’INSEE. Cette source, disponible au format RDF, décrit 22 régions, 99 départements, plus de 4 000 cantons et chefs lieux. Les photos des monuments historiques proposées par Wikimedia Commons. Cette source, notamment alimentée par le concours « Wiki loves monuments », apporte 122 828 photos pour 12 586 monuments historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste souche des monuments. La description des monuments historiques de Wikipedia fournie par DBpedia. Cette source de données (au format RDF) décrit 3,64 millions d’objets, dont 413 000 lieux. Elle est accessible directement à partir des informations de Wikimedia Commons. Le service de géolocalisation Yahoo! PlaceFinder permet de géolocaliser les monuments à partir de leur adresse (calcul des coordonnées latitude et longitude).

Open Data : démo Monuments Historiques

  • Upload
    vodang

  • View
    226

  • Download
    7

Embed Size (px)

Citation preview

Page 1: Open Data : démo Monuments Historiques

www.antidot.net

Les cas d’usage Antidot

Open Data : démo Monuments Historiques

Antidot a réalisé une base de connaissance riche sur les Monuments Historiques Français par agrégation et utilisation de sept sources de données distinctes.

Ce projet a été exclusivement réalisé avec les solutions Antidot : Antidot Information Factory pour la collecte, le traitement et l’enrichissement des données ; Antidot Finder Suite pour fournir les interfaces de recherche et de navigation..

L’application Monuments Historiques

L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France. Nous avons profité de l’ouverture des données pour réaliser une application qui démontre la valeur du Linked Data en maillant des données issues de différentes sources publiques.

Les données souches sont la liste des immeubles protégés au titre des Monuments Historiques. Disponible sur data.gouv.fr dans un fichier CSV, cette source de données décrit 43 720 monuments.

L’enrichissement de cette base a été réalisé en exploitant 6 sources de données ouvertes :

• La liste des 3 065 gares de voyageurs du Réseau Ferré National avec leurs coordonnées géographiques, telle que fournie par data.gouv.fr au format XLS. Elle est exploitée pour lier monuments et gares qui sont à proximité.

• La liste des 301 stations du métro parisien avec leurs coordonnées, fournie par OpenStreetMap. Cette source est exploitée pour situer les monuments parisiens à proximité d’une station de métro.

• Les données du code officiel géographique (COG) de l’INSEE. Cette source, disponible au format RDF, décrit 22 régions, 99 départements, plus de 4 000 cantons et chefs lieux.

• Les photos des monuments historiques proposées par Wikimedia Commons. Cette source, notamment alimentée par le concours « Wiki loves monuments », apporte 122 828 photos pour 12 586 monuments historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste souche des monuments.

• La description des monuments historiques de Wikipedia fournie par DBpedia. Cette source de données (au format RDF) décrit 3,64 millions d’objets, dont 413 000 lieux. Elle est accessible directement à partir des informations de Wikimedia Commons.

• Le service de géolocalisation Yahoo! PlaceFinder permet de géolocaliser les monuments à partir de leur adresse (calcul des coordonnées latitude et longitude).

Page 2: Open Data : démo Monuments Historiques

Les données contenues dans le fichier souche (monuments) sont relativement sommaires. Si on prend l’exemple de la Tour Eiffel, les informations fournies sont :

REF : PA00088801

ETUD : Recensement immeubles MH

INSEE : 75107

TICO : Tour Eiffel

ADRS : Champ-de-Mars

STAT : propriété de la commune

PPRO : La tour Eiffel : inscription par arrêté du 24 juin 1964

AUTR : Eiffel Gustave (maître de l’œuvre)

SCLE : 4e quart 19e siècle

Web Servicede géo localisation

normalisationenrichissement

Sources complémentairesSources complémentaires

Moteurde recherche

ApplicationMonumentsHistoriques

Source principaleSource principale

Les données souches, la liste des gares et les référentiels Insee sont récupérées sous forme de fichiers, alors que les sources OpenStreetMap, Wikimedia, Wikipedia et Yahoo! sont collectées à travers des API spécifiques.

En utilisant la solution Antidot Information Factory, toutes ces données sont collectées, nettoyées, normalisées puis transformées en RDF, le format de représentation des données standardisé par le W3C pour le Web de données.

La tour Ei�el est une tour de ferpuddlé de 324 mètres...

région

adresse

lat, long

lat, longligne

photos

description

code PAréférenceinseecode insee

département

Ile deFrance

Paris

Paris7ème

Champde Mars

Champde Mars

MétroLigne 6

BirHakeimTour

Ei�elTourEi�el

75107 75107

48.8542.289

48.8582.294

88801 88801

Le schéma suivant illustre comment ces données initiales sont enrichies en exploitant les données contenues dans les sources complémentaires.

Page 3: Open Data : démo Monuments Historiques

L’objet métier cible ainsi créé est un « monument » dont la définition est complétée avec les informations suivantes apportées par les sources complémentaires :

•coordonnées géographiques,

•adresse, ville, département et région,

•gares ferroviaires à moins de 20 km

• stations de métro à moins de 1 km pour les bâtiments parisiens,

•description étendue en plusieurs langues,

•période historique,

•type de monument,

•propriétaire,

•photos.

Ce processus est réalisé automatiquement à l’échelle de toutes les bases et le résultat est un graphe comprenant plus de 4,5 millions d’éléments (triplets RDF), dont près de 450 000 ont été inférés, c’est-à-dire créés par applications de règles.

Ces objets cibles sont fournis en entrée du moteur de recherche AFS. Le résultat est accessible à travers une application web qui offre les fonctions de recherche et de navigation suivantes :•recherche en plein texte

•filtrage pour une région, un département ou une ville donnés

•par type de monument : église, château, statue, site industriel

•par période historique : préhistoire, moyen-âge, renaissance etc

• par type de propriétaire : personne ou société privée, commune, Etat…

avec combinaison possible de tous ces critères, sous forme de « facettes de recherche » très simples à manipuler.

Consultez l’application en ligne pour voir le résultat : http://labs.antidot.net/demo/monuments

Page 4: Open Data : démo Monuments Historiques

www.antidot.net [email protected]

Web Sémantique et Linked Data

Le terme Web sémantique a été introduit dès 1998 par Tim Berners-Lee, l’inventeur du World Wide Web, pour décrire l’évolution à long terme d’un Web où les machines pour-raient exploiter et échanger automatiquement des données.

Le Linked Data (web de données) décrit une méthode de publication des données struc-turées de telle façon qu’elles puissent être liées entre elles et ainsi devenir plus utiles. A l’instar du web qui relie des pages HTML, le Linked Data permet de lier des données au niveau le plus fin : ces liens sont comme des jointures dans les bases relationnelles, mais ici à l’échelle du Web qui devient alors une immense base de données distribuée.

Le Web de données utilise les normes du web sémantique qui ont été développées par le W3C depuis plus de 10 ans : modélisation par OWL, représentation des données en RDF, interrogation en SPARQL, échanges de règles en RIF.

Open Data

Beaucoup de données sont déjà disponibles sur Internet : les catalogues des sites marchands, les horaires de train ou d’avion, la description des produits d’une entreprise, etc. Certains sites ont déjà fait le travail de publier ces données selon les principes du Web de données, dont les grands réseaux sociaux qui exposent les profils et les liens entre utilisa-teurs selon ce paradigme.

Mais il est un ensemble de données que nombre d’associations, d’orga-nisations et de personnes aimeraient voir publiées : ce sont les données publiques, c’est-à-dire les données générées par les organismes gou-vernementaux et para gouvernementaux : statistiques, indicateurs de fonctionnement, éléments budgétaires, etc.

L’Open Data, qui signifie littéralement « données ouvertes », est un mouvement qui vise à ce que les données publiques — celles qui sont liées au fonctionnement de la collectivité et sont souvent payées par l’argent public — soient rendues non seulement accessibles à tous, mais aussi libres de droit et d’utilisation. Cette demande se situe pour l’instant principalement dans un cadre politique et ne se focalise pas sur la façon dont les données sont publiées. Mais il est évident que la publication des statistiques de natalité par maternité/région sous forme d’un tableau dans un fichier PDF est moins réutilisable que les mêmes informations fournies dans un fichier Excel, qui sont elles-mêmes moins utilisables que ces données publiées selon les principes et format du Linked Data afin d’être automatiquement exploitables par des serveurs.

Tim Berners-Lee a d’ailleurs formalisé la démarche d’ouverture des données en 5 étapes (de 1 à 5 étoiles) qui apportent chacune une valeur supplémentaire :

ETAPE DÉMARCHE BÉNÉFICES

★ Rendre des données disponibles sur le Web sans restriction de licence quel que soit le format.

Les utilisateurs peuvent voir, imprimer, stocker ces données, et les saisir à la main dans un autre système.

★★ Publier ces données dans un format structuré (ex : fichier Excel au lieu d’un scan).

Les données peuvent être traitées de façon automatique, visualisées, transformées dans d’autres formats.

★★★ Utiliser un format non propriétaire (ex : CSV plutôt que Excel). Les données peuvent être manipulées indépendamment d’un format et d’un logiciel propriétaire.

★★★★ Utiliser des URIs pour identifier les choses afin qu’il soit possible de pointer dessus.

Les données peuvent être liées, marquées et réutilisées.

★★★★★ Lier vos données avec des données publiées par d’autres afin de fournir du contexte.

Les schémas de données sont découvrables automatiquement et on découvre dynamiquement des données complémentaires liées aux données lues.

Source : http://lab.linkeddata.deri.ie/2010/star-scheme-by-example

Impliqué dans le Web Sémantique depuis 2005, Antidot est un acteur référent du secteur. Nos solutions logicielles AIF et AFS supportent et intègrent les normes du Web Sémantique et permettent de créer des solutions industrielles de publica-tion ou d'exploitation des données ouvertes. Antidot est également précurseur dans la démarche du Linked Data appliqué au système d'information des entreprises avec sa solution Linked Enterprise Data.