ENJEUX D'UNE BONNE GESTION DES
DONNÉES DE LA RECHERCHE : DU PLAN DE
GESTION DES DONNÉES AU DATA PAPER
Séminaire OMP : Plan de Gestion de Données (PGD/DMP) et Data Papers
Introduction
Soraya Demay – SCD Université Toulouse III Paul Sabatier
Chloée Fabre – SCD Université Jean Jaurès
DÉFINITIONS ET ENJEUX
LES DONNÉES DE LA RECHERCHE :
définitions
Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche.
Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée
sur fonds publics – 2007
Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale. Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en œuvre, ainsi que les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche.
Article 38, LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique
DES DÉFINITIONS MULTIPLES
““
“ “
Enregistrements factuels (chiffres, textes, images, son, vidéo) utilisés comme sources primaires pour la recherche et qui sont habituellement acceptés par la communauté scientifique comme étant nécessaires pour valider les résultats de la recherche.
Plan pour la Science Ouverte,04 juillet 2018
Les données de la recherche désignent les informations, et en particulier les faits ou chiffres collectés pour être analysés et traitéspour alimenter des réflexions, discussions ou calculs. Dans un contexte de recherche, ces données sont, par exemple, des statistiques, des résultats d’expériences, des mesures, des observations sur le terrain, des résultats d’enquêtes, des enregistrements d’entretiens ou des images. Il s'agit plus spécifiquement de données disponibles sous forme numérique .
Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour
le libre accès aux données de la recherche dans Horizon 2020
DES DÉFINITIONS MULTIPLES
“““ “
DONNÉES DE LA RECHERCHE : ÉLÉMENTS À RETENIR
A défaut d’une définition commune les éléments à retenir sont :
Ensemble d’informations
factuelles
Produites ou collectées
Au cours d’un processus de
recherche
DORANum. Data Management Plan : fiche synthétique (2018)
TYPES DE DONNÉES
Données d’observation
Données expérimentales
Données de simulation
Données dérivées
Données de références
Capturées ou collectées en temps réelsUniques et impossibles à reproduire
Créées en laboratoire suivant une méthodologie définieReproductibles
Générées à partir d’un modèleReproductibles si le modèle est bien documenté
Données validées, ayant en général été publiéesDonnées extraites, triées et agrégées
Résultats d’un traitement, d’une combinaison ou d’une sélection de données brutesReproductibles
NATURE DES DONNÉES
• Données collectées, non mises en forme
Données brutes
• Données collectées, réorganisées, calculées
Données traitées
• Données produites en tant que résultats de recherche
Données analysées
POINTS DE VIGILANCE SUR LES DONNÉES
Données à caractère personnel
Données relevant de la propriété intellectuelle
et industrielle
Données sensibles
LES ENJEUX D’UNE BONNE
GESTION DES DONNÉES DE
LA RECHERCHE
DONNÉES DE LA RECHERCHE : POURQUOI LES GÉRER ?
recherche
• Nouvelle façon de faire de la science
• Accroissement du nombre de données
Vers la Science Ouverte
L’Open Science est une nouvelle approche transversale de l’accès au travail scientifique, des visées et du partage des résultats de la science mais aussi une nouvelle façon de FAIRE de la science, en ouvrant les processus, les codes et les méthodes.
(Direction de l’Information Scientifique et Technique - CNRS. Livre blanc — Une Science ouverte dans une République numérique.)
“ “
EVOLUTION DU CADRE
EVOLUTION DU CADRE
RENDRE VISIBLES LES DONNÉES
PRINCIPES FAIR
Accessible
Facile à trouver
Interopérable
Réutilisable
https://www.ands.org.au/working-with-data/fairdata/training
PRINCIPES FAIR ET CYCLE DE VIE DES DONNÉES
Rendre les données identifiables et réutilisables en les documentant
Protéger les donnéesSe prémunir de la perte de données ou de leur altération
Permettre l’accès le plus large possible Eviter la perte de données au cours du processus de publication
PRINCIPES
FAIR
Utiliser les standards de métadonnées faciliter l’interopérabilité
PLUS CONCRÈTEMENT
Pour les chercheurs Les bénéficiaires d’un financement H2020, ANR,... doivent planifier le dépôt de leurs donnéesVisibilité : données citables, reconnaissance de la paternité
Pour la scienceIntégrité scientifique/éthique de la rechercheAmélioration des conditions de validation des articlesRéutilisation de données par d’autres chercheursApprocher de différentes façons un même jeu de donnéesUtilisation de bases de données de référence
GESTION ET DIFFUSION DES
DONNÉES DE LA
RECHERCHE
Un PGD peut être établi aussi bien dans une optique de partage des données que pour des données en
accès restreint ou fermé, total ou partiel. Le PGD mentionnera dans ce cas les raisons de non partage.
LES PLANS DE GESTION DE DONNÉES (PGD)
Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment sont gérées
les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.
Suivant un calendrier
Le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent être définis
selon le financeur et/ou projets.
Au moyen d’outils
Des outils existent pour aider dans la production de PGD.
DORANum. Data Management Plan : fiche synthétique (2018)
CYCLE DE VIE DES DONNÉES DE LA RECHERCHE
Cycle de vie des données de la recherche, CCSD DORANum. Data Management Plan : fiche synthétique (2018)
Les plans de gestion de données - S. Cocaud et D. L'Hostis, INRA. URFIST Paris - 05 avril 2019
• En quoi consiste le projet ?
• Qui sont les partenaires ?
• Quelle est la politique de gestion des données ?
• Qui est responsable de la gestion des données ?
Responsabilités dans le projet
• Quelles données seront
produites/utilisées au cours
du projet ? (type, format,
volume et accroissement…).
• Comment seront-elles
produites ou transformées ?
Collecte des données
• Comment, où, par qui, seront
stockées, sauvegardées et
sécurisées les données ?
Sauvegarde des données
• Comment les données seront
elles identifiées, décrites ?
• Quels standards de
métadonnées utilisera t’on ?
• Comment seront générées les
métadonnées ?
Documentation des données
• Qui sera propriétaire des
données produites ?
• Des données externes seront-
elles utilisées ?
Propriété intellectuelle
• Qui pourra accéder aux données ?
• Les données seront-elles publiées ?
• Comment ?
• Dans quel délai ?
• Sous quelle licence ?
Accès et partage des données
• Comment la gestion et le
partage des données
sont-ils financés, en
particulier à long terme ?
Ressources
• Quel est le plan d’archivage et
de préservation à long terme ?
Archivage et préservation des données
Ethique
• Des données sensibles seront-
elles produites ou utilisées ?
• Comment sera assurée leur
anonymisation ?
LES PLANS DE GESTION DE DONNÉES ET CYCLE
DE VIE DES DONNÉES : POURQUOI ?
Se poser les bonnes questions
A quel moment doit-on déposer son PGD ? Les mises à jour
LES PLANS DE GESTION DE DONNÉES (PGD) :
POURQUOI ?
Pour répondre aux exigences de financeurs
• Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour le libre accès aux données de la recherche dans Horizon 2020 » (Version 3.2 - 21 mars 2017)
La Commission européenne
• Plan d’action ANR 2021
ANR
• Se rapprocher d’eux pour les spécificités du PGD
Autres financeurs
Sa rédaction est un travail de groupe, qui fédère les compétences des scientifiques,
informaticiens, documentalistes, archivistes, juristes, chargés de la valorisation…
LES PLANS DE GESTION DE DONNÉES (PGD) :
COMMENT ?
• Connaître la réglementation concernant la production et la diffusion des données
• Connaître les principaux formats de métadonnées selon sa discipline pour la description des données
• Connaître les entrepôts pour la diffusion en libre accès des données
• Savoir déterminer les besoins en matière de gestion et de stockage des données
• Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données
Connaissances et compétences nécessaires à
l’élaboration d’un PGD :
Il existe différents modèles de PGD :
LES PLANS DE GESTION DE DONNÉES (PGD) :
DES MODÈLES
Selon le financeur
Horizon Europe,
ERC,
ANR
Selon l’organisme
de rechercheEx : INRAE
…qui comportent cependant les mêmes grandes rubriques :
Valable pour l’ensemble du projet • Renseignements sur le projet
Pour chaque jeu de données • Description des jeux de données
Pour chaque jeu de données • Standards et métadonnées
Pour chaque jeu de données • Le partage de données
Pour chaque jeu de données
• L’archivage et la conservation des données
LES PLANS DE GESTION DE DONNÉES (PGD) :
STRUCTURATION
Instance française de DMPonline du Digital Curation Centre (DCC) qui est mis à disposition de l’Enseignement Supérieur et de la Recherche
Hébergé et géré par l’Inist-CNRS
DMP OPIDOR : UN OUTIL D’AIDE À LA RÉDACTION
DU PLAN DE GESTION DE DONNÉES (PGD)
DIFFUSION DES DONNÉES DE LA RECHERCHE :
PRÉALABLES
Préparer les données pour une réutilisation
Fichiers dans des formats pérennes et ouverts
Fichiers organisés et nommés de façon explicite
Les données sont décrites et documentées
DIFFUSION DES DONNÉES DE LA RECHERCHE :
VÉRIFIER LES ASPECTS JURIDIQUES ET ÉTHIQUES
Les droits de diffusion sont vérifiés
Les principes éthiques sont vérifiés
Une licence est attribuée aux données :
data.gouv.fr/fr/licences
DIFFUSION DES DONNÉES :
LE DÉPÔT DANS UN ENTREPÔT
Déposer les données dans un entrepôt
• Un entrepôt de données (Data repository, digital repository) est un réservoir constitué majoritairement de données de recherche, brutes ou élaborées, qui sont décrites par des métadonnées de façon à pouvoir être retrouvées.
Entrepôt de confiance (trusted repository)
• Un entrepôt de confiance se définit comme un entrepôt répondant aux critères de qualité exigés pour obtenir une certification (format des données, qualité des métadonnées, conditions d'accès et de réutilisation, identifiant pérenne, archivage à long terme, ...).
• Dans ces entrepôts de données, il est attribué un identifiant ou un numéro d'accès à chaque jeu de données déposé.
DORANum – Comment publier des données de la recherche (2018)
Les data papers sont des articles qui ont pour but de rendre les données accessibles, interprétables et réutilisables. Ils fournissent une voie formalisée au partage des données. Les data papers paraissent dans des revues appelées data journals.
PUBLIER LES DONNÉES DANS UN DATA PAPER
Avantages
Paternité des données / crédits aux auteurs
Citation aisée
Réutilisation des données facilitée Données normalisées, standardisées, conservées de façon pérenne
Pas de restriction en volume
Liens vers les données déposées réciproques et sécurisés
Limites
Interrogation possible sur la qualité du peer-reviewDonnées déposées dans un entrepôt, impliquant la recherche et le choix de l’entrepôt
Des structures spécifiques aux revues…Les data papers vont avoir des structures différentes en fonction des revues dans lesquelles ils sont publiés… et des composantes communes
DORANum. Contenu d’un data paper (2018)
CONTENU D’UN DATA PAPER
CONTENU D’UN DATA PAPER
DORANum. Data Management Plan : fiche synthétique (2018)
Un accès aux données
Le data paper fournit l’accès aux données qu’il décrit. Les données peuvent être :
• Intégrées au data paper sous forme de tableaux, figures…
• Jointes au data paper sous forme de matériel supplémentaire
• Déposées dans un entrepôt
Eléments communs aux autres types d’articles
Titre, résumé, mots clefs, contexte, front de recherche, objectifs…
Une description des données
Cette partie est vraiment spécifique aux data papers. On peut y retrouver tous types d’informations permettant d’interpréter, de réutiliser les données et de reproduire l’étude.
Exemple d’outil offrant une liste de politiques mises en place par des agences de
financement et des revues : Fair sharing policies
Politique des revues et éditeurs en terme de partage de données :
Elsevier
Nature Publishing Group
Wiley
Revues publiant des data papers :
Nature's Scientific Data
Elsevier's Data in Brief
Geoscience Data Journal
COMMENT RÉDIGER UN DATA PAPER ?
Instruction et modèles– Certaines revues proposent leurs propres modèles– D’autres proposent des outils de rédaction– D’autres autorisent la soumission à partir de plateformes externes
Valable pour l’ensemble du projet • Renseignements sur le projet
Pour chaque jeu de données • Description des jeux de données
Pour chaque jeu de données • Standards et métadonnées
Pour chaque jeu de données • Le partage de données
Pour chaque jeu de données
• L’archivage et la conservation des données
D’UN DMP À UN DATA PAPER
DMP
Valable pour l’ensemble du projet • Renseignements sur le projet
Pour chaque jeu de données • Description des jeux de données
Pour chaque jeu de données • Standards et métadonnées
Pour chaque jeu de données • Le partage de données
Pour chaque jeu de données
• L’archivage et la conservation des données
D’UN DMP À UN DATA PAPER
Data paper
POUR VOUS ACCOMPAGNER
Science ouverte sur
le site web du SCD de l’UT3
Le service Science ouverte du
SCD pour vous accompagner
dans la rédaction ou la relecture
de vos PGD
EN VOUS REMERCIANT DE
VOTRE ATTENTION