37
Mettre nos données en réseau Yann NICOLAS ADBU 2009

Mettre nos données en réseau (données de l'IST en France)

Embed Size (px)

DESCRIPTION

Intervention lors de la journée d'étude 2009 de l'ADBU : Quelle économie de l’IST en France ? et pour quelle politique ? Je fais une intro ultra light au Web des données pour un public de décideurs des bibliothèques universitaires françaises. J'annonce les futurs services de l'ABES autour des autorités Sudoc.

Citation preview

Page 1: Mettre nos données en réseau (données de l'IST en France)

Mettre nos données en réseau

Yann NICOLAS

ADBU 2009

Page 2: Mettre nos données en réseau (données de l'IST en France)

Les données. Un enjeu politique

Page 3: Mettre nos données en réseau (données de l'IST en France)
Page 4: Mettre nos données en réseau (données de l'IST en France)

“Searchability and data formats are a problem in

a large number of member states.

Search functions are hard to use in several

countries. In some countries they are non-

existent.”

“Several countries do provide the whole data in

a CSV or XLS or other format – and this is

welcomed as good practice. Many countries do

not and worse still, a few countries appear to

have designed their websites with the deliberate

aim of obstructing screen scrapers.”

farmsubsidy.org , Evaluation of the implementation of transparency in CAP beneficiaries. Mai 2009

Page 5: Mettre nos données en réseau (données de l'IST en France)

Association pour la transparence des données publiques

Va chercher les données « publiques », les nettoie, les

agrège, les republie, les rend exploitables par des

programmes informatiques(API)

Courtier ? Activiste ? Pirate ?

Page 6: Mettre nos données en réseau (données de l'IST en France)

VERS

UNE POLITIQUE PUBLIQUE

DES DONNÉES

En général

Des données de l’IST en particulier

Fondée sur quels principes ?

Page 7: Mettre nos données en réseau (données de l'IST en France)

MÉTADONNÉES = DONNÉES

DONNÉES = MÉTADONNÉES

Métadonnées = informations sur des documents ?

Nos métadonnées parlent de tout. Ex: portail des

thèses

Les métadonnées sont partout – et pas seulement

dans les métiers de la doc.

Page 8: Mettre nos données en réseau (données de l'IST en France)

SC2D

Service Commun de la Documentation et des Données

Page 9: Mettre nos données en réseau (données de l'IST en France)

WEB DE DOCUMENTSVS

WEB DE DONNÉES

Le Web est une collection de documents (HTML, PDF…)

Le Web devient une collection de bases de données (RDF, RDFa)

Page 10: Mettre nos données en réseau (données de l'IST en France)

hier aujourd’hui demain

Page 11: Mettre nos données en réseau (données de l'IST en France)

LE CONTENU DES DONNÉES EST

UTILISÉ DANS UN DOCUMENT HTML

Le Document HTML est fait pour être lu par des

humains ;

pas pour être exploité par des programmes

Données

Page HTML

Page 12: Mettre nos données en réseau (données de l'IST en France)

hier aujourd’hui demain

Page 13: Mettre nos données en réseau (données de l'IST en France)

LES DONNÉES SONT PRÉSENTES

DANS LE DOCUMENT HTML

Le Document HTML + RDFa peut être lu par des humains et

exploité par des programmes

La base de données est dans le Web, pas sous le Web (deep Web)

Données

Page HTML

HTML + RDFa

Page 14: Mettre nos données en réseau (données de l'IST en France)
Page 15: Mettre nos données en réseau (données de l'IST en France)

<div>

<span>Date : </span>

<span content="1601/1700" property="dc:date">XVII<sup>e</sup>

siècle</span>

</div>

<http://www.calames.abes.fr/pub/ms/res/MAZB10378> <dc:date> "1601/1700"

Page 16: Mettre nos données en réseau (données de l'IST en France)

AVEC RDFa, LES DONNÉES DE

CALAMES SONT DANS LA BASE DE

YAHOO, SINDICE…

On parle bien des données dans toute leur richesse !

RDFa est désormais supporté par les « grossistes » du

Web : Google, Yahoo.

Page 17: Mettre nos données en réseau (données de l'IST en France)

HTTP://BOSS.YAHOOAPIS.COM/YSEARCH/WEB/V1/"ALGRIN SIT

E: CALAMES.ABES.FR…

On peut accéder aux données de Calames à

travers les services de Yahoo

Un tiers peut refaire Calames à partir de Yahoo

Page 18: Mettre nos données en réseau (données de l'IST en France)

LE WEB DES DONNÉES DOIT AUSSI

CONCERNER L’INFORMATION

SCIENTIFIQUE, TECHNIQUE ET

PATRIMONIALE

Pas seulement les produits commerciaux, les congrès,

les vidéos…

Cibles : Sudoc, HAL, Star, Bases CNRS, Persée,

Revues.org,…

Page 19: Mettre nos données en réseau (données de l'IST en France)

POUR UN SERVICES PUBLIC DES

DONNÉES BRUTES

Exposer les données « à la cantonade »

On ignore à qui, à quoi elles peuvent servir

Permettre à d’autres de les réutiliser

Usages nouveaux, variés, spécialisés. Visualisations.

Combinaisons de différents corpus (mashups)

Contre les monopoles privés et les monopoles publics

LAISSER LES AUTRES LES

RÉUTILISER

Page 20: Mettre nos données en réseau (données de l'IST en France)

LIER LES DONNÉES ENTRE ELLES

LINKED DATA

Le Web comme collection de base de données ?

Ou le Web comme base de données ?

Interconnecter les bases

Page 21: Mettre nos données en réseau (données de l'IST en France)
Page 22: Mettre nos données en réseau (données de l'IST en France)
Page 23: Mettre nos données en réseau (données de l'IST en France)
Page 24: Mettre nos données en réseau (données de l'IST en France)

2 BASES DE DONNÉES EN RDF

DÉCRIVENT LA MÊME PERSONNE

Base RDF accessible en ligne Identifiant de Tricky (URL)

Dbpedia (Wikipedia en RDF) http://dbpedia.org/resource/Tricky

BBC Music http://www.bbc.co.uk/music/artists/5bf64d94-

efd9-4334-96fd-e6197b0b02b8#artist

Page 25: Mettre nos données en réseau (données de l'IST en France)

CONNECTER LES DEUX BASES RDF

http://www.bbc.co.uk/music/artists/5bf64d

94-efd9-4334-96fd-e6197b0b02b8#artist

owl:sameAs

http://dbpedia.org/resource/Tricky

Les informations des deux bases peuvent fusionner

C’est le principe d’un Web de données liées

Page 26: Mettre nos données en réseau (données de l'IST en France)

COMMENT INTERCONNECTER LES

BASES DE L’ABES ?

DE L’IST FRANÇAISE ?

Aligner les identifiants des uns et des autres (avec

owl:sameAs) ?

Mieux : si possible, partager à la source les mêmes

identifiants

Page 27: Mettre nos données en réseau (données de l'IST en France)

LES AUTORITÉS SUDOC,

AU-DELÀ DU SUDOC

Normaliser les noms de personne en les liant aux autorités Sudoc,

pour :

. Star

. Calames

. Persée

. ORI-OAI

. Adonis

. ?

Page 28: Mettre nos données en réseau (données de l'IST en France)

POURQUOI SE LIER AUX AUTORITÉS

SUDOC ?

Qualité interne de chaque base *

Economies d’échelle *

Enrichir chaque base avec les informations des autres ***

A terme, permettre des requêtes et des explorations plus riches ***

Page 29: Mettre nos données en réseau (données de l'IST en France)
Page 30: Mettre nos données en réseau (données de l'IST en France)

2006 –

STAR ET CALAMES INTERROGENT

LES AUTORITÉS SUDOC EN Z 39.50

Solution provisoire

Limitations :

. Performances

. Index limités

. Et quand la notice d’autorité n’existe pas ?

Page 31: Mettre nos données en réseau (données de l'IST en France)

2010 T1

LES AUTORITÉS SUDOC COMME

SERVICE PUBLIC

POUR LES APPLICATIONS TIERCES

Lire et écrire !

Comme le réseau électrique ? Contribuer (solaire) et recevoir

Production décentralisée

Consommation décentralisée

Page 32: Mettre nos données en réseau (données de l'IST en France)

2010

T1

Page 33: Mettre nos données en réseau (données de l'IST en France)

2010-2011

LES AUTORITÉS SUDOC AU

SERVICE DU MÉTA-PORTAIL

ADONIS(SI FINANCEMENT CONFIRMÉ)

Méta-portail = risque de l’auberge espagnole

Les autorités Sudoc comme pivot

Harmoniser en masse les noms du méta-portail

Avec les technologies du Web sémantique (RDF, ontologies,

règles)

Avec le CNRS : équipe RCR du laboratoire LIRMM (Mtpellier)

Page 34: Mettre nos données en réseau (données de l'IST en France)

DANS LE CADRE DU PROJET AVEC

ADONIS,

L’UTILISATION DES TECHNOLOGIES

SÉMANTIQUE EST INTERNE

Lien aux

autoritésCorpus de

métadonnées à

enrichir

Données enrichies du lien aux autorités

Page 35: Mettre nos données en réseau (données de l'IST en France)

DEMAIN

LINKED DATA DE L’IST FRANÇAIS ?

Linked data : données ouvertes et liées

OUVRIR n’est pas le plus compliqué (sauf contraintes juridiques)

Le plus dur est de LIER - d’où l’importance des autorités

Ne suppose pas un Plan quinquennal centralisé

« Coopération décentralisée » des données

Page 36: Mettre nos données en réseau (données de l'IST en France)
Page 37: Mettre nos données en réseau (données de l'IST en France)

ABES

Département Etudes & Projets

[email protected]