29
theses.fr un exemple d'ouverture de l'information scientifique sur le web de données mediadix :: 12 octobre 2

theses.fr : un exemple d'ouverture de l'information scientifique sur le web de données

Embed Size (px)

Citation preview

theses.fr

un exemple d'ouverture de l'information scientifique

sur le web de données

mediadix :: 12 octobre 2012

Les identifiants, marchepied vers le web de données

• 2011LYO20079 N° national de thèse• http://www.theses.fr/2011LYO20079• http://www.theses.fr/2011LYO20079/document• http://www.theses.fr/2011LYO20079.rdf

• 030807069 Autorité Sudoc (IdRef)• http://www.theses.fr/030807069• http://www.theses.fr/030807069.rdf

Les données ABES sur le web de données, avec IdRef pour pivot

IdRef =

autorités Sudoc

Le nuage du web de données liées

Le nuage du web de données liées

Sindice,agrégateur RDF,en sait autant sur theses.fr que theses.fr !

Comment faire pour récupérer le RDF de theses.fr

• Moissonnage– OAI-PMH– Sitemaps + RDF

• Dump– Extraction de tout le RDF– Asynchrone (photo au temps t)– Celui qui a récupéré le dump a toute liberté• Ex : monter un serveur SPARQL et une appli dessus

@todo

Adopte un directeur de thèse

Requête fine avec SPARQL :

Je veux un directeur, qui a déjà dirigé une thèse sur la colonisation dans les 5 ans, qui n’encadre pas plus de 4 étudiants, qui est relié à tel vieux prof…

Et encore plus de possibilités, via les liens RDF vers IdRef, Sudoc, Wikipedia…

MAIS CE N’EST PAS SI SIMPLE…

FOURNIR D’AUTRES MOYENS D’EXPLOITER LES DONNÉES

Les technologies sémantiques, c’est pas magique

Fournir d’autres moyens d’exploiter les données

• OAI-PMH (pour thèses élec. Soutenues)• Notices Sudoc (!)

• Web services de recherche :

http://www.theses.fr/?q=colonialisme+allemagne

http://www.theses.fr/?q=colonialisme+allemagne&format=atom

http://www.theses.fr/?q=colonialisme+allemagne&format=solr

Echange de données

≠Ouverture des données

theses.fr en RDF

L’INTEROPÉRABILITÉ, UN DILEMME

Les technologies sémantiques, c’est pas magique

Lever le dilemme de l’interopérabilité ?

marcrel:aut dcterms:creator

MARCREL = MARC 21 Relators(codes de fonction)

Dublin Core

« plus fin mais un truc de bib » « tout le monde comprend mais un peu vague »

marcrel:aut rdfs:subPropertyOf dcterms:creator

Ce mécanisme logique lève le dilemme.Sur le papier…

AVANT D’OUVRIR LES DONNÉES,IL FAUT LES PRODUIRE

Les technologies sémantiques, c’est pas magique

Derrière les données,des workflows, des réseaux, des gens

• STEP – Réseau des thèses en préparation– Ex-FCT (Nanterre)– 80 établissements

• STAR– Réseau des thèses numériques – 80 établissements

• Circulation des données– Saisie en ligne– Imports (partiels ou complets)

• Interconnexion avec IdRef– Utiliser et enrichir le référentiel d’autorités, avec outils IdRef– Automatiser le liage aux autorités ? Mais il faut encore qu’elles existent

POUR SE LIER A D’AUTRES DONNÉES, IL FAUT QU’ELLES SOIENT OUVERTES !

Les technologies sémantiques, c’est pas magique

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Aujourd’hui

owl:sameAs

owl:sameAs

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Demain

owl:sameAs

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Après-demain peut-être ?

owl:sameAs

owl:sameAs

AuteurHAL CCSD

ArticleHAL CCSD

LivreWorldcat

cite

a pourdérivé

owl:sameAs

Donnéesbrutes

+ brevets, projets ANR, etc.

+ CrossRef, revues, indicateurs d’usage, etc.

+ articles, éditions scientifiques, numérisation, etc.

Les services publics de données qui manquent aux thèses à l’IST

• Structures de recherche• Écoles doctorales• Entreprises (SIREN de l’INSEE)• Brevets (?)• Classification des disciplines• Projets de recherche• …

Vers un système d’information de la recherche, mais pas monolithique

Leibniz, Lettre à Arnauld (30 avril 1687)

29