Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Données ouvertes liées
Benoit Ferland Directeur général de la conservation Pat Riva coordonnatrice au traitement documentaire des collections patrimoniales
Plan
Le Web sémantique et les données ouvertes liées (DOL)
RDF et URI
Pourquoi les intégrer les données ouvertes liées
LODLAM
Une expérience vécue – Au-delà des tranchées
Les ressources en données ouvertes liées
Les données ouvertes liées à BAnQ
Le Web sémantique
Web sémantique ou Web 3.0 est :
« ensemble de technologies développé par le W3C (l'un des principaux organismes de normalisation du Web) visant à faciliter l'exploitation des données structurées, notamment en permettant leur interprétation par des machines »
http://www.bnf.fr/fr/professionnels/web_semantique_donnees/s.web_semantique_intro.html
Le Web sémantique
La sémantique : étude du langage considéré du point de vue du sens.
Du grec sêmantikos, qui signifie (Le nouveau Petit Robert)
La sémantique de quelque chose est la signification de quelque chose
Le Web sémantique = un Web avec une signification
Donc, le Web sémantique n’est pas seulement un lien entre des pages
Web
Le Web sémantique décrit les relations entre des choses (comme A est
une partie de B et Y est un membre de Z) et les attributs des choses
(comme la taille, le poids, l’âge, le prix, etc.)
« Si le langage HTML et le WEB ont fait en sorte que tous les documents
en ligne ressemblent à un immense livre, le RDF, le schéma et les
langages d’inférence feront en sorte que toutes les données dans le
monde ressemblent à une immense base de données. » (traduction libre)
Tim Berners-Lee, Weaving the Web, 1999
Le Web sémantique
• Le Web évolue constamment • Le Web sémantique indique le passage du Web
de documents vers un Web de données • Présentement une URL pointe invariablement
vers un document (HTML ou autre). Ce n’est pas le cas avec le Web de données où les objets sont nommés via des URI. En retour, un URI peut être mis en relation pour exploiter la donnée qui y est associée.
Le Web sémantique
Le Web de données
Web de données (Linked Data) :
« initiative visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolées les unes des autres, mais en les reliant entre elles pour constituer un réseau global d'informations »
Source des définitions :
http://www.bnf.fr/fr/professionnels/web_semantique_donnees/s.web_semantique_intro.html
Un exemple de Web de données : Freebase
• Freebase est un projet collaboratif libre de rassemblement et de connexion des connaissances présentes sur le Web sous forme sémantique. Il est distribué sous licence Creative Commons avec attribution. Le projet a été développé à l’origine par la société Metaweb
• La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été faite le 16 juillet 2010
Un exemple de Web de données
Les données ouvertes
Principes fondamentaux
les données sont facilement disponibles
les données sont librement accessibles (publiées sous licence libre)
les données peuvent être réutilisées
Les données ouvertes liées
Données ouvertes liées
Il faut différencier « données ouvertes » et « données ouvertes liées »
Une donnée ouverte est une donnée qui peut être librement utilisée, réutilisée et redistribuée par quiconque - sujette seulement à une exigence d’attribution et de partage à l’identique
Une donnée liée est unie à au moins une autre donnée
Une donnée peut être liée sans être ouverte et vice versa
L’idéal dans le cas présent est qu’elle soit à la fois ouverte et liée
http://opendatahandbook.org
Les 5 étoiles des données ouvertes liées selon Tim Berners-Lee
Sur le web (licence ouverte)
ex: PDF, image
Données lisibles par machine
ex.: Excel, Word
En format non-propriétaire
ex.: CSV
Utiliser normes RDF
ex.: XML
Lier les données en RDF
ex.: données avec URI
Tim Berners-Lee : un des « inventeurs » du Web. Il préside depuis près de 10 ans le World Wide Web Consortium (W3C)
CSV = format informatique ouvert. Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Comma-separated values
Le Web sémantique et les données ouvertes liées
Le Web sémantique s’exprime par les
Données ouvertes liées (DOL)
à travers un
Canevas de description de ressources
RDF (Resource Description Framework)
… de manière à comprendre les relations entre les
choses
Adapté de : SlideShare.net – Content Used to be King, Judy O’Connell, St Joseph’s College ISTE2010 Denver,
Colorado, June 27-30
RDF (Resource Description Framework)
Langage pour représenter l’information sur des ressources dans le Web
Modèle de données pour les métadonnées
Langage de base du Web sémantique
Permet de décrire les propriétés des ressources sous forme de déclarations simples
Déclaration RDF (triplet)
Une déclaration comporte 3 éléments :
• Sujet (Ressource)
• Prédicat (Propriété)
• Objet (Valeur)
Déclaration RDF
Exemple de déclaration sous forme de graphe:
Ce livre Leméac
a pour éditeur
sujet prédicat objet
Uniform Resource Identifier (URI)
Le sujet et le prédicat doivent pouvoir être représentés par des URI (Uniform Resource Identifier, protocole HTTP) pour que les déclarations puissent être traitées par machine
Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI
Sinon, l'objet est une chaîne de caractères (un littéral)
Tout peut être représenté par un URI
Les URI des prédicats (propriétés ou attributs) sont définis dans des espaces de noms
URI : Espaces de noms
Les espaces de noms permettent d’héberger des ensembles de termes appartenant à un même répertoire et les URI qui leur sont attribués
• Vocabulaires de valeurs (des vocabulaires contrôles)
• Ensembles d'éléments de données
DCMI/RDA Task Group a commencé à publier les éléments et vocabulaires RDA dans l’Open Metadata Registry
IFLA y publie les éléments et vocabulaires ISBD et FRBR
URI et déclaration RDF
Exemple de déclaration sous forme de graphe avec URI :
http://lccn.loc.gov/2010467196
http://rdvocab.info/Elements/PublishersName
<http://lccn.loc.gov/2010467196> <http://rdvocab.info/Elements/publishersName> "Leméac" .
Tout sujet ou objet sous forme d’URI peut être relié à un autre
sujet ou objet
Leméac
Exemple de déclaration sous forme de triplet :
http://lccn.loc.gov/2010467196 Leméac
Pourquoi les données liées ouvertes devraient-elles intéresser les bibliothèques et les archives? • Les institutions culturelles et patrimoniales ont la
responsabilité de fournir au public l’accès à leurs ressources
• L’ouverture des (méta)données permet la réutilisation de celles-ci pour les besoins potentiellement imprévisibles que rencontrent les professionnels de l’information d’aujourd’hui
• La liaison des (méta)données ouvertes permet la connexion ultime des ressources provenant d’une vaste communauté d’institutions pour créer une riche expérience sur le plan sémantique pour le public
• Les (méta)données ouvertes liées fournissent les moyens aux institutions culturelles et patrimoniales de présenter leurs ressources dans un contexte qui franchit les limites organisationnelles et celles des domaines
Le défi pour les bibliothèques et les archives
Participer au web sémantique (web de données)
Au-delà du web hypertextuel (web de documents)
Être dans le web, pas seulement sur le web
Le Lodlam movement
• Linked Open Data in Libraries, Archives and
Museums.
• Objectif : permettre aux institutions culturelles de
diffuser plus largement leurs riches bases de
données
• Colloque en 2013 tenu à BAnQ
Démonstration de données ouvertes liées
Le projet Au-delà des tranchées
• Thématique retenue: Première Guerre mondiale
• Participants: Projet du Réseau pancanadien du patrimoine documentaire (RPCPD) avec la participation de BAnQ
• Objectif: présenter un échantillon de la richesse des ressources numériques en utilisant les « données ouvertes liées » et les principes du Web sémantique
http://www.canadiana.ca/rpcpd-dol
24
25
Quelques ressources déjà en données liées ouvertes
DBpedia
Geonames
MusicBrainz
Authorities and Vocabularies (LC)
FAST (Faceted Application of Subject Terminology)
dewey.info
VIAF (Virtual International Authority File)
data.bnf.fr
Les données ouvertes liées et BAnQ
Les données ouvertes liées à BAnQ
Au-delà des tranchées
Réseau francophone numérique
Bibliographie du Québec (en projet)
Vos questions et commentaires
Merci !
Titre
Région de Montréal : 514 873-1100
Sans frais, d’ailleurs au Québec : 1 800 363-9028
GRANDE BIBLIOTHÈQUE
475, boulevard De Maisonneuve Est
Montréal (Québec) H2L 5C4
CENTRE DE CONSERVATION
2275, rue Holt
Montréal (Québec) H2G 3H1
CENTRES D’ARCHIVES
Abitibi-Témiscamingue et Nord-du-Québec
27, rue du Terminus Ouest
Rouyn-Noranda (Québec) J9X 2P3
Bas-Saint-Laurent et
Gaspésie–Îles-de-la-Madeleine
337, rue Moreault
Rimouski (Québec) G5L 1P4
Point de service de Gaspé
80, boulevard de Gaspé
Gaspé (Québec) G4X 1A9
Côte-Nord
700, boulevard Laure, bureau 190
Sept-Îles (Québec) G4R 1Y1
Estrie
225, rue Frontenac, bureau 401
Sherbrooke (Québec) J1H 1K1
Mauricie et Centre-du-Québec
225, rue des Forges, bureau 208
Trois-Rivières (Québec) G9A 2G7
Montréal
535, avenue Viger Est
Montréal (Québec) H2L 2P3
Outaouais
855, boulevard de la Gappe
Gatineau (Québec) J8T 8H9
Québec
Pavillon Louis-Jacques-Casault
Campus de l’Université Laval
1055, avenue du Séminaire
Québec (Québec) G1V 4N1
Saguenay–Lac-Saint-Jean
930, rue Jacques-Cartier Est, bureau C-103
Saguenay (Québec) G7H 7K9