37
ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA RECHERCHE : DU PLAN DE GESTION DES DONNÉES AU DATA PAPER Séminaire OMP : Plan de Gestion de Données (PGD/DMP) et Data Papers Introduction Soraya Demay SCD Université Toulouse III Paul Sabatier Chloée Fabre SCD Université Jean Jaurès

ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

ENJEUX D'UNE BONNE GESTION DES

DONNÉES DE LA RECHERCHE : DU PLAN DE

GESTION DES DONNÉES AU DATA PAPER

Séminaire OMP : Plan de Gestion de Données (PGD/DMP) et Data Papers

Introduction

Soraya Demay – SCD Université Toulouse III Paul Sabatier

Chloée Fabre – SCD Université Jean Jaurès

Page 2: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DÉFINITIONS ET ENJEUX

Page 3: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

LES DONNÉES DE LA RECHERCHE :

définitions

Page 4: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche.

Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée

sur fonds publics – 2007

Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale. Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en œuvre, ainsi que les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche.

Article 38, LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique

DES DÉFINITIONS MULTIPLES

““

“ “

Page 5: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Enregistrements factuels (chiffres, textes, images, son, vidéo) utilisés comme sources primaires pour la recherche et qui sont habituellement acceptés par la communauté scientifique comme étant nécessaires pour valider les résultats de la recherche.

Plan pour la Science Ouverte,04 juillet 2018

Les données de la recherche désignent les informations, et en particulier les faits ou chiffres collectés pour être analysés et traitéspour alimenter des réflexions, discussions ou calculs. Dans un contexte de recherche, ces données sont, par exemple, des statistiques, des résultats d’expériences, des mesures, des observations sur le terrain, des résultats d’enquêtes, des enregistrements d’entretiens ou des images. Il s'agit plus spécifiquement de données disponibles sous forme numérique .

Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour

le libre accès aux données de la recherche dans Horizon 2020

DES DÉFINITIONS MULTIPLES

“““ “

Page 6: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DONNÉES DE LA RECHERCHE : ÉLÉMENTS À RETENIR

A défaut d’une définition commune les éléments à retenir sont :

Ensemble d’informations

factuelles

Produites ou collectées

Au cours d’un processus de

recherche

DORANum. Data Management Plan : fiche synthétique (2018)

Page 7: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

TYPES DE DONNÉES

Données d’observation

Données expérimentales

Données de simulation

Données dérivées

Données de références

Capturées ou collectées en temps réelsUniques et impossibles à reproduire

Créées en laboratoire suivant une méthodologie définieReproductibles

Générées à partir d’un modèleReproductibles si le modèle est bien documenté

Données validées, ayant en général été publiéesDonnées extraites, triées et agrégées

Résultats d’un traitement, d’une combinaison ou d’une sélection de données brutesReproductibles

Page 8: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

NATURE DES DONNÉES

• Données collectées, non mises en forme

Données brutes

• Données collectées, réorganisées, calculées

Données traitées

• Données produites en tant que résultats de recherche

Données analysées

Page 9: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

POINTS DE VIGILANCE SUR LES DONNÉES

Données à caractère personnel

Données relevant de la propriété intellectuelle

et industrielle

Données sensibles

Page 10: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

LES ENJEUX D’UNE BONNE

GESTION DES DONNÉES DE

LA RECHERCHE

Page 11: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DONNÉES DE LA RECHERCHE : POURQUOI LES GÉRER ?

recherche

• Nouvelle façon de faire de la science

• Accroissement du nombre de données

Vers la Science Ouverte

L’Open Science est une nouvelle approche transversale de l’accès au travail scientifique, des visées et du partage des résultats de la science mais aussi une nouvelle façon de FAIRE de la science, en ouvrant les processus, les codes et les méthodes.

(Direction de l’Information Scientifique et Technique - CNRS. Livre blanc — Une Science ouverte dans une République numérique.)

“ “

Page 12: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

EVOLUTION DU CADRE

Page 13: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

EVOLUTION DU CADRE

Page 14: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

RENDRE VISIBLES LES DONNÉES

Page 15: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

PRINCIPES FAIR

Accessible

Facile à trouver

Interopérable

Réutilisable

https://www.ands.org.au/working-with-data/fairdata/training

Page 16: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

PRINCIPES FAIR ET CYCLE DE VIE DES DONNÉES

Rendre les données identifiables et réutilisables en les documentant

Protéger les donnéesSe prémunir de la perte de données ou de leur altération

Permettre l’accès le plus large possible Eviter la perte de données au cours du processus de publication

PRINCIPES

FAIR

Utiliser les standards de métadonnées faciliter l’interopérabilité

Page 17: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

PLUS CONCRÈTEMENT

Pour les chercheurs Les bénéficiaires d’un financement H2020, ANR,... doivent planifier le dépôt de leurs donnéesVisibilité : données citables, reconnaissance de la paternité

Pour la scienceIntégrité scientifique/éthique de la rechercheAmélioration des conditions de validation des articlesRéutilisation de données par d’autres chercheursApprocher de différentes façons un même jeu de donnéesUtilisation de bases de données de référence

Page 18: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

GESTION ET DIFFUSION DES

DONNÉES DE LA

RECHERCHE

Page 19: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Un PGD peut être établi aussi bien dans une optique de partage des données que pour des données en

accès restreint ou fermé, total ou partiel. Le PGD mentionnera dans ce cas les raisons de non partage.

LES PLANS DE GESTION DE DONNÉES (PGD)

Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment sont gérées

les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.

Suivant un calendrier

Le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent être définis

selon le financeur et/ou projets.

Au moyen d’outils

Des outils existent pour aider dans la production de PGD.

DORANum. Data Management Plan : fiche synthétique (2018)

Page 20: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

CYCLE DE VIE DES DONNÉES DE LA RECHERCHE

Cycle de vie des données de la recherche, CCSD DORANum. Data Management Plan : fiche synthétique (2018)

Page 21: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Les plans de gestion de données - S. Cocaud et D. L'Hostis, INRA. URFIST Paris - 05 avril 2019

• En quoi consiste le projet ?

• Qui sont les partenaires ?

• Quelle est la politique de gestion des données ?

• Qui est responsable de la gestion des données ?

Responsabilités dans le projet

• Quelles données seront

produites/utilisées au cours

du projet ? (type, format,

volume et accroissement…).

• Comment seront-elles

produites ou transformées ?

Collecte des données

• Comment, où, par qui, seront

stockées, sauvegardées et

sécurisées les données ?

Sauvegarde des données

• Comment les données seront

elles identifiées, décrites ?

• Quels standards de

métadonnées utilisera t’on ?

• Comment seront générées les

métadonnées ?

Documentation des données

• Qui sera propriétaire des

données produites ?

• Des données externes seront-

elles utilisées ?

Propriété intellectuelle

• Qui pourra accéder aux données ?

• Les données seront-elles publiées ?

• Comment ?

• Dans quel délai ?

• Sous quelle licence ?

Accès et partage des données

• Comment la gestion et le

partage des données

sont-ils financés, en

particulier à long terme ?

Ressources

• Quel est le plan d’archivage et

de préservation à long terme ?

Archivage et préservation des données

Ethique

• Des données sensibles seront-

elles produites ou utilisées ?

• Comment sera assurée leur

anonymisation ?

LES PLANS DE GESTION DE DONNÉES ET CYCLE

DE VIE DES DONNÉES : POURQUOI ?

Se poser les bonnes questions

Page 22: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

A quel moment doit-on déposer son PGD ? Les mises à jour

LES PLANS DE GESTION DE DONNÉES (PGD) :

POURQUOI ?

Pour répondre aux exigences de financeurs

• Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour le libre accès aux données de la recherche dans Horizon 2020 » (Version 3.2 - 21 mars 2017)

La Commission européenne

• Plan d’action ANR 2021

ANR

• Se rapprocher d’eux pour les spécificités du PGD

Autres financeurs

Page 23: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Sa rédaction est un travail de groupe, qui fédère les compétences des scientifiques,

informaticiens, documentalistes, archivistes, juristes, chargés de la valorisation…

LES PLANS DE GESTION DE DONNÉES (PGD) :

COMMENT ?

• Connaître la réglementation concernant la production et la diffusion des données

• Connaître les principaux formats de métadonnées selon sa discipline pour la description des données

• Connaître les entrepôts pour la diffusion en libre accès des données

• Savoir déterminer les besoins en matière de gestion et de stockage des données

• Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données

Connaissances et compétences nécessaires à

l’élaboration d’un PGD :

Page 24: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Il existe différents modèles de PGD :

LES PLANS DE GESTION DE DONNÉES (PGD) :

DES MODÈLES

Selon le financeur

Horizon Europe,

ERC,

ANR

Selon l’organisme

de rechercheEx : INRAE

Page 25: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

…qui comportent cependant les mêmes grandes rubriques :

Valable pour l’ensemble du projet • Renseignements sur le projet

Pour chaque jeu de données • Description des jeux de données

Pour chaque jeu de données • Standards et métadonnées

Pour chaque jeu de données • Le partage de données

Pour chaque jeu de données

• L’archivage et la conservation des données

LES PLANS DE GESTION DE DONNÉES (PGD) :

STRUCTURATION

Page 26: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Instance française de DMPonline du Digital Curation Centre (DCC) qui est mis à disposition de l’Enseignement Supérieur et de la Recherche

Hébergé et géré par l’Inist-CNRS

DMP OPIDOR : UN OUTIL D’AIDE À LA RÉDACTION

DU PLAN DE GESTION DE DONNÉES (PGD)

Page 27: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DIFFUSION DES DONNÉES DE LA RECHERCHE :

PRÉALABLES

Préparer les données pour une réutilisation

Fichiers dans des formats pérennes et ouverts

Fichiers organisés et nommés de façon explicite

Les données sont décrites et documentées

Page 28: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DIFFUSION DES DONNÉES DE LA RECHERCHE :

VÉRIFIER LES ASPECTS JURIDIQUES ET ÉTHIQUES

Les droits de diffusion sont vérifiés

Les principes éthiques sont vérifiés

Une licence est attribuée aux données :

data.gouv.fr/fr/licences

Page 29: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DIFFUSION DES DONNÉES :

LE DÉPÔT DANS UN ENTREPÔT

Déposer les données dans un entrepôt

• Un entrepôt de données (Data repository, digital repository) est un réservoir constitué majoritairement de données de recherche, brutes ou élaborées, qui sont décrites par des métadonnées de façon à pouvoir être retrouvées.

Entrepôt de confiance (trusted repository)

• Un entrepôt de confiance se définit comme un entrepôt répondant aux critères de qualité exigés pour obtenir une certification (format des données, qualité des métadonnées, conditions d'accès et de réutilisation, identifiant pérenne, archivage à long terme, ...).

• Dans ces entrepôts de données, il est attribué un identifiant ou un numéro d'accès à chaque jeu de données déposé.

Page 30: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

DORANum – Comment publier des données de la recherche (2018)

Les data papers sont des articles qui ont pour but de rendre les données accessibles, interprétables et réutilisables. Ils fournissent une voie formalisée au partage des données. Les data papers paraissent dans des revues appelées data journals.

PUBLIER LES DONNÉES DANS UN DATA PAPER

Avantages

Paternité des données / crédits aux auteurs

Citation aisée

Réutilisation des données facilitée Données normalisées, standardisées, conservées de façon pérenne

Pas de restriction en volume

Liens vers les données déposées réciproques et sécurisés

Limites

Interrogation possible sur la qualité du peer-reviewDonnées déposées dans un entrepôt, impliquant la recherche et le choix de l’entrepôt

Page 31: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Des structures spécifiques aux revues…Les data papers vont avoir des structures différentes en fonction des revues dans lesquelles ils sont publiés… et des composantes communes

DORANum. Contenu d’un data paper (2018)

CONTENU D’UN DATA PAPER

Page 32: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

CONTENU D’UN DATA PAPER

DORANum. Data Management Plan : fiche synthétique (2018)

Un accès aux données

Le data paper fournit l’accès aux données qu’il décrit. Les données peuvent être :

• Intégrées au data paper sous forme de tableaux, figures…

• Jointes au data paper sous forme de matériel supplémentaire

• Déposées dans un entrepôt

Eléments communs aux autres types d’articles

Titre, résumé, mots clefs, contexte, front de recherche, objectifs…

Une description des données

Cette partie est vraiment spécifique aux data papers. On peut y retrouver tous types d’informations permettant d’interpréter, de réutiliser les données et de reproduire l’étude.

Page 33: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Exemple d’outil offrant une liste de politiques mises en place par des agences de

financement et des revues : Fair sharing policies

Politique des revues et éditeurs en terme de partage de données :

Elsevier

Nature Publishing Group

Wiley

Revues publiant des data papers :

Nature's Scientific Data

Elsevier's Data in Brief

Geoscience Data Journal

COMMENT RÉDIGER UN DATA PAPER ?

Instruction et modèles– Certaines revues proposent leurs propres modèles– D’autres proposent des outils de rédaction– D’autres autorisent la soumission à partir de plateformes externes

Page 34: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Valable pour l’ensemble du projet • Renseignements sur le projet

Pour chaque jeu de données • Description des jeux de données

Pour chaque jeu de données • Standards et métadonnées

Pour chaque jeu de données • Le partage de données

Pour chaque jeu de données

• L’archivage et la conservation des données

D’UN DMP À UN DATA PAPER

DMP

Page 35: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

Valable pour l’ensemble du projet • Renseignements sur le projet

Pour chaque jeu de données • Description des jeux de données

Pour chaque jeu de données • Standards et métadonnées

Pour chaque jeu de données • Le partage de données

Pour chaque jeu de données

• L’archivage et la conservation des données

D’UN DMP À UN DATA PAPER

Data paper

Page 37: ENJEUX D'UNE BONNE GESTION DES DONNÉES DE LA …

EN VOUS REMERCIANT DE

VOTRE ATTENTION