Mettre nos données en réseau (données de l'IST en France)

Preview:

DESCRIPTION

Intervention lors de la journée d'étude 2009 de l'ADBU : Quelle économie de l’IST en France ? et pour quelle politique ? Je fais une intro ultra light au Web des données pour un public de décideurs des bibliothèques universitaires françaises. J'annonce les futurs services de l'ABES autour des autorités Sudoc.

Citation preview

Mettre nos données en réseau

Yann NICOLAS

ADBU 2009

Les données. Un enjeu politique

“Searchability and data formats are a problem in

a large number of member states.

Search functions are hard to use in several

countries. In some countries they are non-

existent.”

“Several countries do provide the whole data in

a CSV or XLS or other format – and this is

welcomed as good practice. Many countries do

not and worse still, a few countries appear to

have designed their websites with the deliberate

aim of obstructing screen scrapers.”

farmsubsidy.org , Evaluation of the implementation of transparency in CAP beneficiaries. Mai 2009

Association pour la transparence des données publiques

Va chercher les données « publiques », les nettoie, les

agrège, les republie, les rend exploitables par des

programmes informatiques(API)

Courtier ? Activiste ? Pirate ?

VERS

UNE POLITIQUE PUBLIQUE

DES DONNÉES

En général

Des données de l’IST en particulier

Fondée sur quels principes ?

MÉTADONNÉES = DONNÉES

DONNÉES = MÉTADONNÉES

Métadonnées = informations sur des documents ?

Nos métadonnées parlent de tout. Ex: portail des

thèses

Les métadonnées sont partout – et pas seulement

dans les métiers de la doc.

SC2D

Service Commun de la Documentation et des Données

WEB DE DOCUMENTSVS

WEB DE DONNÉES

Le Web est une collection de documents (HTML, PDF…)

Le Web devient une collection de bases de données (RDF, RDFa)

hier aujourd’hui demain

LE CONTENU DES DONNÉES EST

UTILISÉ DANS UN DOCUMENT HTML

Le Document HTML est fait pour être lu par des

humains ;

pas pour être exploité par des programmes

Données

Page HTML

hier aujourd’hui demain

LES DONNÉES SONT PRÉSENTES

DANS LE DOCUMENT HTML

Le Document HTML + RDFa peut être lu par des humains et

exploité par des programmes

La base de données est dans le Web, pas sous le Web (deep Web)

Données

Page HTML

HTML + RDFa

<div>

<span>Date : </span>

<span content="1601/1700" property="dc:date">XVII<sup>e</sup>

siècle</span>

</div>

<http://www.calames.abes.fr/pub/ms/res/MAZB10378> <dc:date> "1601/1700"

AVEC RDFa, LES DONNÉES DE

CALAMES SONT DANS LA BASE DE

YAHOO, SINDICE…

On parle bien des données dans toute leur richesse !

RDFa est désormais supporté par les « grossistes » du

Web : Google, Yahoo.

HTTP://BOSS.YAHOOAPIS.COM/YSEARCH/WEB/V1/"ALGRIN SIT

E: CALAMES.ABES.FR…

On peut accéder aux données de Calames à

travers les services de Yahoo

Un tiers peut refaire Calames à partir de Yahoo

LE WEB DES DONNÉES DOIT AUSSI

CONCERNER L’INFORMATION

SCIENTIFIQUE, TECHNIQUE ET

PATRIMONIALE

Pas seulement les produits commerciaux, les congrès,

les vidéos…

Cibles : Sudoc, HAL, Star, Bases CNRS, Persée,

Revues.org,…

POUR UN SERVICES PUBLIC DES

DONNÉES BRUTES

Exposer les données « à la cantonade »

On ignore à qui, à quoi elles peuvent servir

Permettre à d’autres de les réutiliser

Usages nouveaux, variés, spécialisés. Visualisations.

Combinaisons de différents corpus (mashups)

Contre les monopoles privés et les monopoles publics

LAISSER LES AUTRES LES

RÉUTILISER

LIER LES DONNÉES ENTRE ELLES

LINKED DATA

Le Web comme collection de base de données ?

Ou le Web comme base de données ?

Interconnecter les bases

2 BASES DE DONNÉES EN RDF

DÉCRIVENT LA MÊME PERSONNE

Base RDF accessible en ligne Identifiant de Tricky (URL)

Dbpedia (Wikipedia en RDF) http://dbpedia.org/resource/Tricky

BBC Music http://www.bbc.co.uk/music/artists/5bf64d94-

efd9-4334-96fd-e6197b0b02b8#artist

CONNECTER LES DEUX BASES RDF

http://www.bbc.co.uk/music/artists/5bf64d

94-efd9-4334-96fd-e6197b0b02b8#artist

owl:sameAs

http://dbpedia.org/resource/Tricky

Les informations des deux bases peuvent fusionner

C’est le principe d’un Web de données liées

COMMENT INTERCONNECTER LES

BASES DE L’ABES ?

DE L’IST FRANÇAISE ?

Aligner les identifiants des uns et des autres (avec

owl:sameAs) ?

Mieux : si possible, partager à la source les mêmes

identifiants

LES AUTORITÉS SUDOC,

AU-DELÀ DU SUDOC

Normaliser les noms de personne en les liant aux autorités Sudoc,

pour :

. Star

. Calames

. Persée

. ORI-OAI

. Adonis

. ?

POURQUOI SE LIER AUX AUTORITÉS

SUDOC ?

Qualité interne de chaque base *

Economies d’échelle *

Enrichir chaque base avec les informations des autres ***

A terme, permettre des requêtes et des explorations plus riches ***

2006 –

STAR ET CALAMES INTERROGENT

LES AUTORITÉS SUDOC EN Z 39.50

Solution provisoire

Limitations :

. Performances

. Index limités

. Et quand la notice d’autorité n’existe pas ?

2010 T1

LES AUTORITÉS SUDOC COMME

SERVICE PUBLIC

POUR LES APPLICATIONS TIERCES

Lire et écrire !

Comme le réseau électrique ? Contribuer (solaire) et recevoir

Production décentralisée

Consommation décentralisée

2010

T1

2010-2011

LES AUTORITÉS SUDOC AU

SERVICE DU MÉTA-PORTAIL

ADONIS(SI FINANCEMENT CONFIRMÉ)

Méta-portail = risque de l’auberge espagnole

Les autorités Sudoc comme pivot

Harmoniser en masse les noms du méta-portail

Avec les technologies du Web sémantique (RDF, ontologies,

règles)

Avec le CNRS : équipe RCR du laboratoire LIRMM (Mtpellier)

DANS LE CADRE DU PROJET AVEC

ADONIS,

L’UTILISATION DES TECHNOLOGIES

SÉMANTIQUE EST INTERNE

Lien aux

autoritésCorpus de

métadonnées à

enrichir

Données enrichies du lien aux autorités

DEMAIN

LINKED DATA DE L’IST FRANÇAIS ?

Linked data : données ouvertes et liées

OUVRIR n’est pas le plus compliqué (sauf contraintes juridiques)

Le plus dur est de LIER - d’où l’importance des autorités

Ne suppose pas un Plan quinquennal centralisé

« Coopération décentralisée » des données

ABES

Département Etudes & Projets

nicolas@abes.fr

Recommended