29
Données ouvertes liées Benoit Ferland Directeur général de la conservation Pat Riva coordonnatrice au traitement documentaire des collections patrimoniales

Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Données ouvertes liées

Benoit Ferland Directeur général de la conservation Pat Riva coordonnatrice au traitement documentaire des collections patrimoniales

Page 2: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Plan

Le Web sémantique et les données ouvertes liées (DOL)

RDF et URI

Pourquoi les intégrer les données ouvertes liées

LODLAM

Une expérience vécue – Au-delà des tranchées

Les ressources en données ouvertes liées

Les données ouvertes liées à BAnQ

Page 3: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le Web sémantique

Web sémantique ou Web 3.0 est :

« ensemble de technologies développé par le W3C (l'un des principaux organismes de normalisation du Web) visant à faciliter l'exploitation des données structurées, notamment en permettant leur interprétation par des machines »

http://www.bnf.fr/fr/professionnels/web_semantique_donnees/s.web_semantique_intro.html

Page 4: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le Web sémantique

La sémantique : étude du langage considéré du point de vue du sens.

Du grec sêmantikos, qui signifie (Le nouveau Petit Robert)

La sémantique de quelque chose est la signification de quelque chose

Le Web sémantique = un Web avec une signification

Donc, le Web sémantique n’est pas seulement un lien entre des pages

Web

Le Web sémantique décrit les relations entre des choses (comme A est

une partie de B et Y est un membre de Z) et les attributs des choses

(comme la taille, le poids, l’âge, le prix, etc.)

« Si le langage HTML et le WEB ont fait en sorte que tous les documents

en ligne ressemblent à un immense livre, le RDF, le schéma et les

langages d’inférence feront en sorte que toutes les données dans le

monde ressemblent à une immense base de données. » (traduction libre)

Tim Berners-Lee, Weaving the Web, 1999

Page 5: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le Web sémantique

Page 6: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

• Le Web évolue constamment • Le Web sémantique indique le passage du Web

de documents vers un Web de données • Présentement une URL pointe invariablement

vers un document (HTML ou autre). Ce n’est pas le cas avec le Web de données où les objets sont nommés via des URI. En retour, un URI peut être mis en relation pour exploiter la donnée qui y est associée.

Le Web sémantique

Page 7: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le Web de données

Web de données (Linked Data) :

« initiative visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolées les unes des autres, mais en les reliant entre elles pour constituer un réseau global d'informations »

Source des définitions :

http://www.bnf.fr/fr/professionnels/web_semantique_donnees/s.web_semantique_intro.html

Page 8: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Un exemple de Web de données : Freebase

• Freebase est un projet collaboratif libre de rassemblement et de connexion des connaissances présentes sur le Web sous forme sémantique. Il est distribué sous licence Creative Commons avec attribution. Le projet a été développé à l’origine par la société Metaweb

• La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été faite le 16 juillet 2010

Page 9: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Un exemple de Web de données

Page 10: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Les données ouvertes

Principes fondamentaux

les données sont facilement disponibles

les données sont librement accessibles (publiées sous licence libre)

les données peuvent être réutilisées

Page 11: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Les données ouvertes liées

Données ouvertes liées

Il faut différencier « données ouvertes » et « données ouvertes liées »

Une donnée ouverte est une donnée qui peut être librement utilisée, réutilisée et redistribuée par quiconque - sujette seulement à une exigence d’attribution et de partage à l’identique

Une donnée liée est unie à au moins une autre donnée

Une donnée peut être liée sans être ouverte et vice versa

L’idéal dans le cas présent est qu’elle soit à la fois ouverte et liée

http://opendatahandbook.org

Page 12: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Les 5 étoiles des données ouvertes liées selon Tim Berners-Lee

Sur le web (licence ouverte)

ex: PDF, image

Données lisibles par machine

ex.: Excel, Word

En format non-propriétaire

ex.: CSV

Utiliser normes RDF

ex.: XML

Lier les données en RDF

ex.: données avec URI

Tim Berners-Lee : un des « inventeurs » du Web. Il préside depuis près de 10 ans le World Wide Web Consortium (W3C)

CSV = format informatique ouvert. Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Comma-separated values

Page 13: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le Web sémantique et les données ouvertes liées

Le Web sémantique s’exprime par les

Données ouvertes liées (DOL)

à travers un

Canevas de description de ressources

RDF (Resource Description Framework)

… de manière à comprendre les relations entre les

choses

Adapté de : SlideShare.net – Content Used to be King, Judy O’Connell, St Joseph’s College ISTE2010 Denver,

Colorado, June 27-30

Page 14: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

RDF (Resource Description Framework)

Langage pour représenter l’information sur des ressources dans le Web

Modèle de données pour les métadonnées

Langage de base du Web sémantique

Permet de décrire les propriétés des ressources sous forme de déclarations simples

Page 15: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Déclaration RDF (triplet)

Une déclaration comporte 3 éléments :

• Sujet (Ressource)

• Prédicat (Propriété)

• Objet (Valeur)

Page 16: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Déclaration RDF

Exemple de déclaration sous forme de graphe:

Ce livre Leméac

a pour éditeur

sujet prédicat objet

Page 17: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Uniform Resource Identifier (URI)

Le sujet et le prédicat doivent pouvoir être représentés par des URI (Uniform Resource Identifier, protocole HTTP) pour que les déclarations puissent être traitées par machine

Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI

Sinon, l'objet est une chaîne de caractères (un littéral)

Tout peut être représenté par un URI

Les URI des prédicats (propriétés ou attributs) sont définis dans des espaces de noms

Page 18: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

URI : Espaces de noms

Les espaces de noms permettent d’héberger des ensembles de termes appartenant à un même répertoire et les URI qui leur sont attribués

• Vocabulaires de valeurs (des vocabulaires contrôles)

• Ensembles d'éléments de données

DCMI/RDA Task Group a commencé à publier les éléments et vocabulaires RDA dans l’Open Metadata Registry

IFLA y publie les éléments et vocabulaires ISBD et FRBR

Page 19: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

URI et déclaration RDF

Exemple de déclaration sous forme de graphe avec URI :

http://lccn.loc.gov/2010467196

http://rdvocab.info/Elements/PublishersName

<http://lccn.loc.gov/2010467196> <http://rdvocab.info/Elements/publishersName> "Leméac" .

Tout sujet ou objet sous forme d’URI peut être relié à un autre

sujet ou objet

Leméac

Exemple de déclaration sous forme de triplet :

http://lccn.loc.gov/2010467196 Leméac

Page 20: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Pourquoi les données liées ouvertes devraient-elles intéresser les bibliothèques et les archives? • Les institutions culturelles et patrimoniales ont la

responsabilité de fournir au public l’accès à leurs ressources

• L’ouverture des (méta)données permet la réutilisation de celles-ci pour les besoins potentiellement imprévisibles que rencontrent les professionnels de l’information d’aujourd’hui

• La liaison des (méta)données ouvertes permet la connexion ultime des ressources provenant d’une vaste communauté d’institutions pour créer une riche expérience sur le plan sémantique pour le public

• Les (méta)données ouvertes liées fournissent les moyens aux institutions culturelles et patrimoniales de présenter leurs ressources dans un contexte qui franchit les limites organisationnelles et celles des domaines

Page 21: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le défi pour les bibliothèques et les archives

Participer au web sémantique (web de données)

Au-delà du web hypertextuel (web de documents)

Être dans le web, pas seulement sur le web

Page 22: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Le Lodlam movement

• Linked Open Data in Libraries, Archives and

Museums.

• Objectif : permettre aux institutions culturelles de

diffuser plus largement leurs riches bases de

données

• Colloque en 2013 tenu à BAnQ

Page 23: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Démonstration de données ouvertes liées

Le projet Au-delà des tranchées

• Thématique retenue: Première Guerre mondiale

• Participants: Projet du Réseau pancanadien du patrimoine documentaire (RPCPD) avec la participation de BAnQ

• Objectif: présenter un échantillon de la richesse des ressources numériques en utilisant les « données ouvertes liées » et les principes du Web sémantique

http://www.canadiana.ca/rpcpd-dol

Page 24: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

24

Page 25: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

25

Page 26: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Quelques ressources déjà en données liées ouvertes

DBpedia

Geonames

MusicBrainz

Authorities and Vocabularies (LC)

FAST (Faceted Application of Subject Terminology)

dewey.info

VIAF (Virtual International Authority File)

data.bnf.fr

Page 27: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Les données ouvertes liées et BAnQ

Les données ouvertes liées à BAnQ

Au-delà des tranchées

Réseau francophone numérique

Bibliographie du Québec (en projet)

Page 28: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Vos questions et commentaires

Merci !

Page 29: Données ouvertes liées - cbpq.qc.ca · Si l'objet vient d'un vocabulaire contrôlé, il peut aussi être représenté par un URI Sinon, l'objet est une chaîne de caractères (un

Titre

Région de Montréal : 514 873-1100

Sans frais, d’ailleurs au Québec : 1 800 363-9028

GRANDE BIBLIOTHÈQUE

475, boulevard De Maisonneuve Est

Montréal (Québec) H2L 5C4

CENTRE DE CONSERVATION

2275, rue Holt

Montréal (Québec) H2G 3H1

CENTRES D’ARCHIVES

Abitibi-Témiscamingue et Nord-du-Québec

27, rue du Terminus Ouest

Rouyn-Noranda (Québec) J9X 2P3

Bas-Saint-Laurent et

Gaspésie–Îles-de-la-Madeleine

337, rue Moreault

Rimouski (Québec) G5L 1P4

Point de service de Gaspé

80, boulevard de Gaspé

Gaspé (Québec) G4X 1A9

Côte-Nord

700, boulevard Laure, bureau 190

Sept-Îles (Québec) G4R 1Y1

Estrie

225, rue Frontenac, bureau 401

Sherbrooke (Québec) J1H 1K1

Mauricie et Centre-du-Québec

225, rue des Forges, bureau 208

Trois-Rivières (Québec) G9A 2G7

Montréal

535, avenue Viger Est

Montréal (Québec) H2L 2P3

Outaouais

855, boulevard de la Gappe

Gatineau (Québec) J8T 8H9

Québec

Pavillon Louis-Jacques-Casault

Campus de l’Université Laval

1055, avenue du Séminaire

Québec (Québec) G1V 4N1

Saguenay–Lac-Saint-Jean

930, rue Jacques-Cartier Est, bureau C-103

Saguenay (Québec) G7H 7K9