Upload
danglien
View
214
Download
0
Embed Size (px)
Citation preview
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
DataCite : Infrastructure pour valoriser et rendre FAIR les données de la recherche
Mohamed S. Yahia Inist-CNRS
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
PID et Open Science
Eléments importants dans le déploiement du mouvement de l’Open
Science, les identifiants pérennes (PID) facilitent la découverte et l’accès
sur le long terme aux produits de la recherche scientifique : Ils permettent
d’identifier, de référencer et de citer ces produits. Ils concourent ainsi à leur
visibilité, à leur partage et à les rendre :
FAIR :Findable
Accessible
Interoperable
Re-usable
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Principes FAIR (force 11)
Findable: (facile à trouver)
F1. (meta)data are assigned a globally unique and eternally persistent identifier.
F2. data are described with rich metadata.
F3. (meta)data are registered or indexed in a searchable resource.
F4. metadata specify the data identifier.
Accessible:
A1 (meta)data are retrievable by their identifier using a standardized communications protocol.
Interoperable:
I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge
representation.
I2. (meta)data use vocabularies that follow FAIR principles.
I3. (meta)data include qualified references to other (meta)data.
Re-usable:
R1. meta(data) have a plurality of accurate and relevant attributes.
R1.1. (meta)data are released with a clear and accessible data usage license.
R1.2. (meta)data are associated with their provenance.
R1.3. (meta)data meet domain-relevant community standards.
Les PID contribuent à la mise en
œuvre des 2 premiers principes FAIR
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Un identifiant pérenne (PID) pourquoi ?
• Sur le web, les documents sont référencés par des URL qui sont des
mécanismes d’adressages
• Si le document est déplacé par un changement : de serveur, de chemin,
de nom... le lien est brisé. Le document n’est plus disponible. On obtient
la page 404
URL n’est donc pas stable
d’où la nécessité d’un identifiant pérenne qui fiabilise la localisation
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Un identifiant pérenne (PID) c’est quoi ?
Identifiants pérennes
Chaine de caractères unique
Association dans un registre (géré et mis à jour continuellement par des institutions)
entre :
- Personne
- Institution
- Objet
La pérennité n’est pas un problème technique; C’est une question de service (gestion).
Elle n’est ni inhérente à un objet, ni conféré par une syntaxe de nommage particulier
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Historique PID
Principaux systèmes d’Identifiants pérennes
- Handle (1994)
- DOI (Digital Object Identifier),2000
- ARK (Archival Ressource Key), 2001
- ResearcherID (de Thomson Reuters )2008
- ISNI (International Standard Name Identifier) 2010
- ORCID (Open Researcher and Contributor ID) 2012
- Ringgold Identifier 2003
- ISNI (International Standard Name Identifier) 2010
- OrgID (Organisation Identifier) en cours
PID
Ressources
PID Personnes
(auteur, contributeur)
PID
Organisations
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Lequel choisir ?
Handle, ARK, ….., DOI sont tous des choix valides pour identifier
de manière pérenne des ressources scientifiques sur le web.
• Pourquoi choisir le DOI ?
• 5 raisons principales :
• DOI est une norme internationale – ISO26324:2012
• Très largement utilisé > de 148 millions
• Coopération – synergies – entre plusieurs organisations (DataCite, Crossref, Orcid, RDA…)
• Même si les registres DOI disparaissent le Handle System prendra le relai
• Couche de services supplémentaires
le DOI s’appuie sur le système Handle pour construire
une infrastructure sociale qui garantit la pérennité
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
DOI
• Contrôlé et géré par IDF ( International DOI Foundation)
• IDF est composé de 10 agences d’enregistrement (RA)
dont les plus importantes sont :
• CrossRef
• DataCite
DataCite et Crossref sont des RA bien développées, mais seule DataCite fournit les solutions les mieux adaptées pour les données scientifiques
Airiti, Inc.
CrossRef
China National Knowledge Infrastructure (CNKI)
DataCite
EIDR (Entertainment Identifier Registry)
ISTIC (The Institute of Scientific and Technical Information of China)
JaLC (Japan Link Center)
KISTI (Korea Instituteof Science and Technology Information)
mEDRA (Multilingual European DOI Registration Agency)
OP (Publications Office of the European Union)
Institution membre
Data CentreData CentreCentre données
DataCite
FondationInternationale DOI
ex : ILL, INRA
Inist-CNRS
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Consortium international à but non lucratif
Créé en décembre 2009 à Londres
Centré sur la valorisation des données de la recherche.
> 50 membres au 10/2017
DataCite
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Infrastructure technique de DataCite
Agence d’Enregistrement DataCite :
• Support de l'infrastructure de résolution
• Mise en place des politiques et des bonnes pratiques
• Coordination avec les parties prenantes ayant les mêmes objectifs
• Création et mise à jour de schémas de métadonnées
• Maintien d’une archive de métadonnées consultable et moissonable
• Gestion des identifiants sur le long terme
• Gestion des services de découverte (moteur de recherche, annuaire d’entrepôts de données –
re3data)
• Soutien et aides aux utilisateurs pour la creation des fichiers de métadonnées et des DOI (agences
d’attribution)
les utilisateurs (centres de données, organismes de recherche,
producteurs de données) sont responsables de :
• Assurance qualité des données selon l’état de l’art dans leurs domaines
• Maintien, persistance et mise à disposition de la ressource dotée de DOI
• Création et mise à jour des métadonnées associées à la ressource
• Création des identifiants
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
En plus de l’infrastructure technique, DataCite s’appuie sur une infrastructure sociale
* https://blog.datacite.org ** https://groups.google.com/forum/?hl=en#!forum/datacite-metadata
Infrastructure sociale de DataCite
composée de 3 Steering Groups ou groupes de pilotage:
• Sustainability and business steering group (sbsg)
• Services and technology steering group (stsg)
• Community engagement steering group (cesg)
Chaque Steering Group pilote des groupes de travail (WG)
Une couche supplémentaire d’infrastructure sociale
renforce la réactivité de DataCite en remontant et
en rapportant les retours d’expérience des usagers.
(blog*,groupe de discussion**).
DataCite collabore également avec
plusieurs organisations à travers le monde
sur différents aspects de la valorisation des
données de la recherche (Crossref, ORCID,
RDA, Codata,…)
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Services de DataCite
• DataCite Metadata Store (MDS) fonction intégré progressivement dans DOI Fabrica
Plateforme de création de DOI et d’enregistrement des métadonnées associées
https://mds.datacite.org
• DataCite Metadata Schema
Schéma de métadonnées DataCite http://schema.datacite.org
• DataCite API
Automatisation du processus de création de DOI https://mds.datacite.org/static/apidoc
• Content NegotiationChoix du format des métadonnées exportées https://data.datacite.org/
• DataCite Metadata SearchMoteur de recherche de jeux de données enregistrés par des DOI dans la base DataCite
http://search.datacite.org
• re3dataAnnuaire d’entrepôts de données de recherche
http://www.re3data.org/
• DataCite OAI ProviderExposition des métadonnées de la base DataCite moissonables selon le protocole OAI-PMH
http://oai.datacite.org
Principaux services offerts par DataCite
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Attribuer des DOI
o Se renseigner sur les règles de propriété intellectuelle et sur le cadre
juridique en vigueur pour savoir si les données peuvent-être diffusées.
Associer une licence appropriée pour favoriser la réutilisation des donnés
o Evaluer et sélectionner les données à conserver et à partager.
(pertinence, non reproductibilité, coût de la donnée versus coût stockage)
o Déterminer et fixer la granularité des jeux de données à identifier en fonction
des besoins et de la citation.
Réflexions préalables à mener sur les données à identifier par un DOI
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Granularité
La granularité décrit le degré d'agrégation de l'objet à enregistrer.
DataCite n’impose aucune restriction sur le niveau de granularité
Il est possible d’attribuer des DOI à des entités de différents niveaux d’un même objet
Les DOI sont principalement conçus pour la citation et la découverte de ressources. Chaque entité
doit avoir un sens indépendant de l’ensemble plus large ou de la collection à laquelle il peut appartenir
Le Schéma de métadonnées DataCite comprend un champ pour préciser les relations entre les
objets.
Quelle granularité adopter ?
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Citer des données dynamiques(données continuellement ou fréquemment mises à jour)
Données dynamiques
3 approches sont possibles :
1.Citer une partie spécifique (la série de mises à jour effectuées au cours d’une période
donnée ou à un secteur particulier du jeu de données)
2.Citer un instantané (snapshot) (copie du jeu de données entier à un moment précis)
3.Citer le jeu de données continuellement mis à jour et incorporer à la citation la date
et l’heure de l’extraction du jeu de données
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Citer des données dynamiques(données continuellement ou fréquemment mises à jour)
Données dynamiques
Cependant ces approches ne résolvent pas tous les problèmes liés à l’accès et à la
citation des données dynamiques.
Un groupe de travail de RDA a produit 14 propositions ( à implémenter par les entrepôts
de données) basées sur l’identification et le stockage des requêtes. Ces propositions sont
en phase d’essai pilote https://rd-alliance.org/group/data-citation-wg/outcomes/data-citation-recommendation.html
http://portal.vamdc.org/vamdc_portal/home.seam
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Données dynamiques
Le centre de données SAHFOS (Sir Alister Hardy Foundation for Ocean
Science) crée, identifie par des DOI
et stocke des sous-ensembles de
jeux de données dynamiques à la
demande de chercheurs en
fonction de 3 critères. https://www.sahfos.ac.uk/data/our-data/
Exemple de citation de
données dynamique :
Critères spatiaux
Critères temporels
Critères taxonomiques
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
1- Nom du DOI
- Préfixe attribué par l’Agence d’Attribution
- Suffixe choisi par le centre de données
DataCite recommande que le suffixe soit opaque et court
longueur maximum du nom DOI: 255 caractères
Attribuer des DOI1ere information nécessaire à la création de DOI
10.xxxxx/abcd_x-x_efg
Préfixe Suffixe
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Attribuer des DOI2eme information nécessaire à la création de DOI
2- URL stable permettant l’accès aux données via une Landing page ou Page de présentation
(page vers laquelle le DOI sera résolu) : Elle peut contenir
• des métadonnées descriptives
• des informations concernant les moyens et les conditions d’accès à la ressource (restriction,
embargo….)
• des informations pour lire l’objet scientifique (logiciels, contexte, formats, autres informations
nécessaires à l’interprétation….)
• Le format de citation souhaité
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Exemple de landing page
Description des
données
Accès aux
données
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Exemple de landing page
Utilisation des
données
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Attribuer des DOI3eme information nécessaire à la création de DOI
3 - Fichier des métadonnées en xml selon schéma DataCite : https://doi.org/10.5438/0014
6 propriétés obligatoires
Les 5 premières propriétés constituent les éléments de la citation :Creator (PublicationYear): Title. Publisher. Identifier
Kalaydjian Regis, Girard Sophie (2014). Civil marine research effort in
main French research organisations: data and estimates. SEANOE.
http://doi.org/10.17882/44428
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Schéma de métadonnéesLes 13 propriétés optionnelles
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Exemple de propriété : RelatedIdentifier « isCitedBy »
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Lien entre les jeux de données et la publication par
les identifiants pérennes
Lien vers données dans
l’entrepôt Dryad
Lien article original
1ier jeu de données (sur 8) du package
Entrepôts de données
Article original
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Accessibilité aux ressources utilisant le DOI
Résolution directe par navigateurs : ajouter les plug-in
Firefox : http ://addons.mozilla.org/fr/firefox/addon/10820
Internet Explorer : http://handle.net/resolver/index.html
Cliquable en citation
doi:10.1016/j.dsr.2008.08.009
Utilisation du moteur DataCite Metadata Search beta : https://search.datacite.org/ui
Ou en ajoutant le nom de domaine https://doi.org/ devant lenom du DOI dans le navigateur 10.1016/j.dsr.2008.08.009
Sur les site de IDF https://www.doi.org/
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Inist-CNRSAgence française d’attribution de DOI
Institution membre
Data CentreData CentreCentre données
DataCite
FondationInternationale DOI
ex : ILL, inra,..
Inist-CNRS
• Lien fort avec le consortium (participation aux groupes de
travail, assemblée générale, stratégie…)
• Sensibilisation aux services DataCite
• Fourniture des préfixes de DOI
• Assistance à la création et à la conversion de fichiers de
métadonnées
• Aide au paramétrage de l’API
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Workflow d’attribution de DOI par l’Inist-CNRS
1er contactEchanges
Réponses aux questions
ContratCréation compte, Attribution préfixe
Création de DOI
Assistance techniqueInformation
spécifique
Métadonnées Reformatage
vers xml
DataCite
Paramétrage
API,
Services
DataCite
Création fichiers
métadonnées
Mise à disposition de la communauté d’un service en ligne pour les opérations en masse sur
les DOI : création de DOI, mise à jour des métadonnées, vérification et mise à jour des URL.
La conversion depuis des standards de métadonnées vers le standard DataCite est à l’étude
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Partenariat
• Un contrat formalise les relations entre l’usager et l’Inist-CNRS (3 ans reconductible)
Modèle économique :
Membres ESR : cotisation annuelle de 180 € HT pour un nombre illimité de DOI
Autres usagers : cotisation annuelle de 180 € /HT pour 500 DOI/an. Tarif
dégressif au-delà
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Responsabilités des deux partenaires
• Veiller au respect des règles de bonne pratique édictées par DataCite :
- URL pérenne
- persistance des données.
• Accompagner et conseiller à l’utilisation des services DataCite
• Fournir un préfixe(s) de DOI unique(s)
• Fournir un login pour accéder à la plateforme Metadata Store (MDS) de DataCite
Responsabilités de l’Inist-CNRS
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
• Qualité et pertinence des données selon l’état de l’art de la discipline
• Veiller à la conservation et la gestion des données de manière à garantir leur accessibilité
• Page de présentation ou landing page accessible.
Responsabilités des deux partenaires
Responsabilités de l’usager
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Création de DOI
• Manuelle via Metadata Store (MDS) https://doi.datacite.org/
• DOI Fabrica https://doi.datacite.org/
• Automatique via l’API https://mds.datacite.org/static/apidoc
• Création en masse de DOI (service plus convivial que l’API DataCite
et utilisable par des non-informaticiens mis en ligne par l’Inist)
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Création et mise à jour de DOIsur la plateforme MDS
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Création de DOI
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Création de DOI
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Mises à jour
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Mise à jour d’un jeu de données
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Mettre à jour
Ensemble de données
Mise à jour d’un jeu de données
M. S. Yahia Colloque DataBFC : ouvrir et gérer les données de la recherche en Bourgogne Franche-Comté Besançon 13-15 novembre 2017
Merci de votre attention
https://opidor.fr/Informations :