Upload
y-nicolas
View
3.133
Download
2
Embed Size (px)
DESCRIPTION
Intervention lors de la journée d'étude 2009 de l'ADBU : Quelle économie de l’IST en France ? et pour quelle politique ? Je fais une intro ultra light au Web des données pour un public de décideurs des bibliothèques universitaires françaises. J'annonce les futurs services de l'ABES autour des autorités Sudoc.
Citation preview
Mettre nos données en réseau
Yann NICOLAS
ADBU 2009
Les données. Un enjeu politique
“Searchability and data formats are a problem in
a large number of member states.
Search functions are hard to use in several
countries. In some countries they are non-
existent.”
“Several countries do provide the whole data in
a CSV or XLS or other format – and this is
welcomed as good practice. Many countries do
not and worse still, a few countries appear to
have designed their websites with the deliberate
aim of obstructing screen scrapers.”
farmsubsidy.org , Evaluation of the implementation of transparency in CAP beneficiaries. Mai 2009
Association pour la transparence des données publiques
Va chercher les données « publiques », les nettoie, les
agrège, les republie, les rend exploitables par des
programmes informatiques(API)
Courtier ? Activiste ? Pirate ?
VERS
UNE POLITIQUE PUBLIQUE
DES DONNÉES
En général
Des données de l’IST en particulier
Fondée sur quels principes ?
MÉTADONNÉES = DONNÉES
DONNÉES = MÉTADONNÉES
Métadonnées = informations sur des documents ?
Nos métadonnées parlent de tout. Ex: portail des
thèses
Les métadonnées sont partout – et pas seulement
dans les métiers de la doc.
SC2D
Service Commun de la Documentation et des Données
WEB DE DOCUMENTSVS
WEB DE DONNÉES
Le Web est une collection de documents (HTML, PDF…)
Le Web devient une collection de bases de données (RDF, RDFa)
hier aujourd’hui demain
LE CONTENU DES DONNÉES EST
UTILISÉ DANS UN DOCUMENT HTML
Le Document HTML est fait pour être lu par des
humains ;
pas pour être exploité par des programmes
Données
Page HTML
hier aujourd’hui demain
LES DONNÉES SONT PRÉSENTES
DANS LE DOCUMENT HTML
Le Document HTML + RDFa peut être lu par des humains et
exploité par des programmes
La base de données est dans le Web, pas sous le Web (deep Web)
Données
Page HTML
HTML + RDFa
<div>
<span>Date : </span>
<span content="1601/1700" property="dc:date">XVII<sup>e</sup>
siècle</span>
</div>
<http://www.calames.abes.fr/pub/ms/res/MAZB10378> <dc:date> "1601/1700"
AVEC RDFa, LES DONNÉES DE
CALAMES SONT DANS LA BASE DE
YAHOO, SINDICE…
On parle bien des données dans toute leur richesse !
RDFa est désormais supporté par les « grossistes » du
Web : Google, Yahoo.
HTTP://BOSS.YAHOOAPIS.COM/YSEARCH/WEB/V1/"ALGRIN SIT
E: CALAMES.ABES.FR…
On peut accéder aux données de Calames à
travers les services de Yahoo
Un tiers peut refaire Calames à partir de Yahoo
LE WEB DES DONNÉES DOIT AUSSI
CONCERNER L’INFORMATION
SCIENTIFIQUE, TECHNIQUE ET
PATRIMONIALE
Pas seulement les produits commerciaux, les congrès,
les vidéos…
Cibles : Sudoc, HAL, Star, Bases CNRS, Persée,
Revues.org,…
POUR UN SERVICES PUBLIC DES
DONNÉES BRUTES
Exposer les données « à la cantonade »
On ignore à qui, à quoi elles peuvent servir
Permettre à d’autres de les réutiliser
Usages nouveaux, variés, spécialisés. Visualisations.
Combinaisons de différents corpus (mashups)
Contre les monopoles privés et les monopoles publics
LAISSER LES AUTRES LES
RÉUTILISER
LIER LES DONNÉES ENTRE ELLES
LINKED DATA
Le Web comme collection de base de données ?
Ou le Web comme base de données ?
Interconnecter les bases
2 BASES DE DONNÉES EN RDF
DÉCRIVENT LA MÊME PERSONNE
Base RDF accessible en ligne Identifiant de Tricky (URL)
Dbpedia (Wikipedia en RDF) http://dbpedia.org/resource/Tricky
BBC Music http://www.bbc.co.uk/music/artists/5bf64d94-
efd9-4334-96fd-e6197b0b02b8#artist
CONNECTER LES DEUX BASES RDF
http://www.bbc.co.uk/music/artists/5bf64d
94-efd9-4334-96fd-e6197b0b02b8#artist
owl:sameAs
http://dbpedia.org/resource/Tricky
Les informations des deux bases peuvent fusionner
C’est le principe d’un Web de données liées
COMMENT INTERCONNECTER LES
BASES DE L’ABES ?
DE L’IST FRANÇAISE ?
Aligner les identifiants des uns et des autres (avec
owl:sameAs) ?
Mieux : si possible, partager à la source les mêmes
identifiants
LES AUTORITÉS SUDOC,
AU-DELÀ DU SUDOC
Normaliser les noms de personne en les liant aux autorités Sudoc,
pour :
. Star
. Calames
. Persée
. ORI-OAI
. Adonis
. ?
POURQUOI SE LIER AUX AUTORITÉS
SUDOC ?
Qualité interne de chaque base *
Economies d’échelle *
Enrichir chaque base avec les informations des autres ***
A terme, permettre des requêtes et des explorations plus riches ***
2006 –
STAR ET CALAMES INTERROGENT
LES AUTORITÉS SUDOC EN Z 39.50
Solution provisoire
Limitations :
. Performances
. Index limités
. Et quand la notice d’autorité n’existe pas ?
2010 T1
LES AUTORITÉS SUDOC COMME
SERVICE PUBLIC
POUR LES APPLICATIONS TIERCES
Lire et écrire !
Comme le réseau électrique ? Contribuer (solaire) et recevoir
Production décentralisée
Consommation décentralisée
2010
T1
2010-2011
LES AUTORITÉS SUDOC AU
SERVICE DU MÉTA-PORTAIL
ADONIS(SI FINANCEMENT CONFIRMÉ)
Méta-portail = risque de l’auberge espagnole
Les autorités Sudoc comme pivot
Harmoniser en masse les noms du méta-portail
Avec les technologies du Web sémantique (RDF, ontologies,
règles)
Avec le CNRS : équipe RCR du laboratoire LIRMM (Mtpellier)
DANS LE CADRE DU PROJET AVEC
ADONIS,
L’UTILISATION DES TECHNOLOGIES
SÉMANTIQUE EST INTERNE
Lien aux
autoritésCorpus de
métadonnées à
enrichir
Données enrichies du lien aux autorités
DEMAIN
LINKED DATA DE L’IST FRANÇAIS ?
Linked data : données ouvertes et liées
OUVRIR n’est pas le plus compliqué (sauf contraintes juridiques)
Le plus dur est de LIER - d’où l’importance des autorités
Ne suppose pas un Plan quinquennal centralisé
« Coopération décentralisée » des données