DONNÉES EN PARTAGE : ENJEUX ET ACTEURS DES DONNÉES DE LA RECHERCHE
URFIST Toulouse15 juin 2015
DONNÉES DE LA RECHERCHE : QUEL POSITIONNEMENT ET QUELS RÔLES POUR LES BIBLIOTHÈQUES?Pierre Naegelen Responsable du Service des Ressources ÉlectroniquesService Commun de la DocumentationUniversité Toulouse III – Paul Sabatier
DONNÉES EN PARTAGE : ENJEUX ET ACTEURS DES DONNÉES DE LA RECHERCHE
URFIST Toulouse15 juin 2015
DONNÉES DE LA RECHERCHE : QUEL POSITIONNEMENT ET QUELS RÔLES POUR LES BIBLIOTHÈQUES?Pierre Naegelen Responsable du Service des Ressources ÉlectroniquesService Commun de la DocumentationUniversité Toulouse III – Paul Sabatier
Goldilocks runs from the three bears.. Arthur Mee and Holland Thompson, eds. The Book of Knowledge, 1912. Public Domain. Source : Wikimedia Commons
3 RÔLES AU MOINS POUR LES BIBLIOTHEQUES :
• Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
• Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
• Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des Données (PGD)
QUELS RÔLES POUR LES BIBLIOTHEQUES?
QUELS RÔLES POUR LES BIBLIOTHEQUES?
PROJET ezPAARSE
ezPAARSE est un projet national d’analyse des logs de connexion à la documentation électronique. EzPAARSE est issu d'un partenariat entre l'INIST-CNRS, l'Université de Lorraine et le consortium COUPERIN Le Service Commun de la Documentation de l'Université Toulouse III - Paul Sabatier travaille actuellement sur l’exploitation automatisée de l’analyse des logs :
• Construction d’une base de données relationnelle• A terme : utilisation du langage NoSQL et du framework Hadoop
Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
QUELS RÔLES POUR LES BIBLIOTHEQUES?
INDEXATION DES DONNEES
Modèle conceptuel FRBR considéré comme la pierre apportée par les bibliothécaires au web de données
Norme RDA
Savoir à réinvestir dans le signalement des données
Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
7Philippe Le Pape, ABES
Œuvre
Expression
Manifestation
Item
FRBR
Os mistérios de Lisboa roman (1854)
Traduction. Langue : français
Les mystères de Lisbonne.M. Lafon, 2011. – 1 vol. (603 pages)
ISBN 978-2-7499-1404-6
Cote : 869.33 CAS
Les mystères de Lisbonne
« FRBR / RDA - Du modèle à la norme ». Par Philippe Lepape. Journée d’étude CRFCB/ABF du 27 mai 2013
Un exemple de traduction de FRBR en langage RDF
Source: data.bnf.fr
QUELS RÔLES POUR LES BIBLIOTHEQUES?
L'OPEN RESEARCH DATA PILOT (DÉCEMBRE 2013)
• L’utilisation d’un plan de gestion des données est exigée dans le cadre de projets présentés dans le cadre du projet pilote Libre accès aux données issues de la recherche (Open Research Data).
• Les projets prenant part au projet pilote Libre accès aux données issues de la recherche doivent fournir une première version de leur PGD dans les six premiers mois. (...) Puisque les PGD sont censés évoluer tout au long du projet, des versions plus élaborées du plan pourront être incluses en tant qu'éléments livrables supplémentaires lors de phases ultérieures. Le PGD a pour but le financement du cycle de vie suivi par la gestion appliquée aux données que le projet sera amené à collecter, traiter ou générer.
• Pour les autres projets, l'élaboration d'un PGD est optionnelle
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
Le DMP évolue au cours du temps: il
sert à gérer des flux et non des stocks
QUELS RÔLES POUR LES BIBLIOTHEQUES?
L'OPEN RESEARCH DATA PILOT (DÉCEMBRE 2013)
Déposer dans un entrepôt de données de recherche et prendre des mesures afin de rendre possible l’accès, l’exploitation, la reproduction et la diffusion par un tiers – et ce gratuitement pour tous – des éléments suivants:
(i) les données, y compris les métadonnées associées, nécessaires à la validation des résultats présentés dans des publications scientifiques le plus tôt possible ;(ii) les autres données, y compris les métadonnées associées
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
« Données sous-
jacentes »
QUELS RÔLES POUR LES BIBLIOTHEQUES?A
uror
e C
artie
r, M
agal
ie
Moy
san
et
Nat
halie
R
eym
onet
, «
Con
stru
ire d
es o
utils
pou
r la
ges
tion
des
donn
ées
de la
rec
herc
he d
ans
une
com
mun
auté
d’u
nive
rsité
s »
QUELS RÔLES POUR LES BIBLIOTHEQUES?A
uror
e C
artie
r, M
agal
ie
Moy
san
et
Nat
halie
R
eym
onet
, «
Con
stru
ire d
es o
utils
pou
r la
ges
tion
des
donn
ées
de la
rec
herc
he d
ans
une
com
mun
auté
d’u
nive
rsité
s »
QUELS RÔLES POUR LES BIBLIOTHEQUES?
LE MODÈLE DE PLAN DE GESTION DE DONNÉES D'APRÈS LES LIGNES DIRECTRICES H2020 :
Titre: Référence et nom du jeu de données
1. Description du jeu de données2. Normes et métadonnées3. Partage des données4. Archivage et conservation (y compris stockage et sauvegarde des
données)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
Pour aller plus loin : Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 » sur le site de l'INIST.
QUELS RÔLES POUR LES BIBLIOTHEQUES?
1. DESCRIPTION DU JEU DE DONNÉES
• Données générées ou collectées ?• Origine des données (s'il y a collecte)• Leur nature (typologie, format..) et leur échelle (volumétrie
capacité de stockage?)• À qui elles pourraient être utiles ?• Viennent-elles en appui d'une publication scientifique ?• Les informations sur l’existence (ou la non-existence) de données
similaires
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
QUELS RÔLES POUR LES BIBLIOTHEQUES?
2. NORMES ET MÉTADONNÉES
Il existe des sites ressources :
1. Ressources Interdisciplinaires : Digital Curation Center (UK)
2. Ressources par disciplinesExemples:BioSharing en Sciences de la vieHuma-Num en SHS
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
QUELS RÔLES POUR LES BIBLIOTHEQUES?
3. PARTAGE DES DONNÉES
• Modalités de dépôt (choix de l'entrepôt: se reporter à re3data.org ou bien utiliser Zenodo, Dryad...)
• Modalités de partage (embargo, accès restreint, identifiant pérenne)• Les licences : l'UE recommande les licences CC-BY ou CC-O• Les exceptions ("motifs de nature éthique, liés à la protection des
données personnelles, de la propriété intellectuelle, commerciale, à la protection de la vie privée, et de sécurité, etc.")
Les résultats de la recherche sont partie intégrante du Domaine public de l’information…
QUELS RÔLES POUR LES BIBLIOTHEQUES?
3. PARTAGE DES DONNÉES
• impératif épistémologique de réutilisation - La science se construit par la réutilisation, la confrontation et la critique des travaux précédents. L'exploitation et la réutilisation des données produites jouent dans la méthode scientifique un rôle grandissant
• impératif technique d'intégration - A l'heure du Big Data, les volumes considérables de données à entrecroiser font de l'interopérabilité des données une nécessité.
• impératif juridique de simplification - "La forêt des termes et conditions autour des données rend l'intégration difficile à réaliser légalement dans de nombreux cas". (Protocol for Implementing Open Access Data de la fondation Science Commons)
Les résultats de la recherche sont partie intégrante du Domaine public de l’information…
QUELS RÔLES POUR LES BIBLIOTHEQUES?Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
Le Code de la Propriété Intellectuelle
Propriété littéraire et artistique
Un droit qui existe ab initio
Droits d’auteursŒuvres de l’espritLogiciels
Droits voisinsDroits des artistes-interprètes
Propriété industrielle
un droit qui nécessite une formalité d’enregistrement
Dessins et modèlesCréations esthétiques
BrevetsInventions techniques
Marques
Connaissances techniquesObtentions végétalesProtection des semi-conducteursSecret de fabrique
Droit spécifique des producteurs de bases de
données
un droit sui generis
Lorsque la vérification ou la présentation du contenu de la base atteste d'un investissement financier, matériel ou humain substantiel
Protection: 15 ans renouvelables à compter de chaque investissement substantiel
La base de données bénéficie également de la protection du droit d’auteur lorsque celui qui a pris l’initiative et le risque de la constituer démontre :un choix original des données et/ouune structure originale de la base
Directive communautaire du 11 mars 1996 sur laprotection des bases de données, transposée par la loi du 1er juillet 1998
Le droit sui generis des bases de données conforte la captation par les éditeurs des résultats de larecherche Consécration d’une « science propriétaire »
Un cas emblématique : le projet text2genome... 3 ans de tractation avec les éditeurs scientifiques...
Implosion en février 2013 du Text and Data Mining Working Group, le groupe de travail européen qui réfléchissait à une modification du cadre légal du Text and Data Mining. Due à l'attitude des principaux éditeurs scientifiques qui refusaient de faire évoluer le système hors du cadre des licences éditoriales.
LIBER: Déclaration de la Haye (mai 2015)
• la propriété intellectuelle n’a pas été conçue pour réguler la circulation des faits, des données et des idées, mais a comme objectif principal la promotion de l’activité de recherche ;
• les personnes devraient avoir la liberté d’analyser et d’explorer sans craindre la surveillance ou les répercussions ;
• les licences et les conditions des contrats ne devraient pas limiter l’utilisation des faits, des données et des idées ;
• l’éthique autour de l’utilisation des techniques d’exploration des contenus devra continuer à évoluer pour répondre aux changements de la technologie ;
• l’innovation et la recherche commerciale basées sur l’utilisation des faits, des données, et des idées ne devraient pas être limitées par le droit de la propriété intellectuelle.
ENJEU: si un cadre juridique n’est pas trouvé, c’est le producteur de la base de données qui imposera ses conditions via sa propre licence ad hoc…
LicenceChamp d’application : contenu ou
métadonnées (MD) ?
Creative Commons (sauf CC0)MD pour la version 4.0, compatible avec le droit sui generis des bases de données)
NB: les versions 1.0 à 3.0 ne sont pas compatibles avec le droit des bases de données
CC0 Contenu ou MD
Licence Ouverte/Open Licence
Contenu ou MD
ODbL (Open Database License)
MD
ODC-By (Open Data Commons Attribution License)
MD
PDDL (Public Domain Dedication and Licence)
MD
Principales licences facilitant la diffusion des données de la recherche
Outil d’aide au choix d’une licence
FAIL ! L'outil de l’INRIA propose des licences CC antérieures à la version 4.0, donc non compatibles avec le droit des bases de données…
Principes de Panton de l’OKF (Open Knowledge Foundation)
"Furthermore, in science it is STRONGLY recommended that data, especially where publicly funded, be explicitly placed in the public domain via the use of the Public Domain Dedication and Licence or Creative Commons Zero Waiver. This is in keeping with the public funding of much scientific research and the general ethos of sharing and re-use within the scientific community. Explicit dedication of data underlying published science into the public domain via PDDL or CCZero is strongly recommended and ensures compliance with both the Science Commons Protocol for Implementing Open Access Data and the Open Knowledge/Data Definition.“
Débat : quelle licence privilégier ?
QUELS RÔLES POUR LES BIBLIOTHEQUES?
4. ARCHIVAGE ET CONSERVATION (Y COMPRIS STOCKAGE ET SAUVEGARDE DES DONNÉES)
A l’échelon national
• PAC= Plateforme d'Archivage du CINES• Huma-Num en SHS (CINES opérateur)• CNES
A l’échelon européen :
Projet européen Eudat (European Data Infrastructure)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
QUELS RÔLES POUR LES BIBLIOTHEQUES?
4. ARCHIVAGE ET CONSERVATION
Modèle OAIS Open Archival Information System
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
Source: « Le modèle de référence OAIS » . Par Pierre Couchet. ArchivEngines [Blog]
QUELS RÔLES POUR LES BIBLIOTHEQUES?
IL EXISTE DES OUTILS EN LIGNE POUR ÉLABORER DES DMP
• DMP Online du Digital Curation Center (DCC, UK): élaborer un DMP en remplissant un formulaire en ligne (checklist)
• Data Management Planning Tool de l'University of California Curation Center (UCC): élaborer son DMP à partir de "templates", autrement dit d'autres DMP existants
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
QUELS RÔLES POUR LES BIBLIOTHEQUES?
SI ON RESUME...
Le PGD vise à archiver les jeux de données des chercheurs. Il fait appel à :
• des compétences informatiques, • des compétences archivistiques, documentaires (MD, catalogage,
identification), • des compétences juridiques
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan
POUR CONCLURE…Maîtrise
d’ouvrage
Chercheurs
Maîtrise d’œuvre
Informaticiens
Documentalistes, Archivistes
Vers un nouveau profil de métier : le data librarian ?
A mettre en regard avec le rapport "La nouvelle France industrielle, Big Data -- feuille de route" (juil. 2014). Action 1 : Formation de
"data scientists"
Vers un écosystème de partage
et de gestion des
données