Atelier rédiger et publier un Data paper - …...• Dzalé Yeumo, E., L’Hostis, D., Open Science...

Preview:

Citation preview

Atelier rédiger et publier un Data paper

Isabelle Nault (Irstea)Yannick Brohard (CNRS)

Journée d’étude Open Science & Open Data – 28/03/2017 – IST Agropolis Montpellier

SOMMAIRE

– Qu’est-ce qu’un Data Paper (DP) ? – Accéder aux données– Les Intérêts du DP– Les étapes pour publier un Data paper, quand publier, les coûts

associés– La structure d’un DP– Les Data Journals– Outils pour la rédaction et plateformes de soumission d’articles – Le processus de peer-review– Description des métadonnées– Partager et réutiliser des données / check list– Diffuser des données dans le cadre d’un projet de recherche– Exemples d’entrepôts de données– Citer un jeu de données

Data Paper / Data Journal§ Data Paper (DP) : publication scientifique > décrire un jeu de données

scientifiques brutes à l’aide d’informations précises, les métadonnées

§ A la différence d’un article, le DP :§ n’aborde pas les hypothèses et conclusions de leur analyse§ présente le contexte de leur production et facilite leur réutilisation

§ Un Data Paper est publié dans un Data Journal ou dans certaines revues classiques et reçoit un DOI (Digital Object Identifier)

§ Un Data Paper est un moyen de publication récent. De nombreuses appellations différentes : ‘data paper’, ‘data article’, ‘dataset paper’, ‘data descriptors’, ‘data in brief’, ‘data note’, ‘data original article’, ‘database article’…

Accéder aux données§ Le DP = 2 parties (data paper + fichiers de données)

§ Le DP est lié au jeu de données brutes (dataset) qu’il décrit. Les données doivent être accessibles

> fichier annexé au DP

> lien pérenne (DOI, URL)

> données intégrées à l’article (tableaux, liste bibliographique ou au format XML permettant la fouille de

texte)

• Promotion, accessibilité, visibilité et réutilisation des données de la recherche (potentiel de réutilisation)• Evaluation par les pairs (peer reviewed) – validation de la recherche• Réduction des erreurs et des fraudes • Réduction de la duplication de travaux de recherche • Favorise l’émergence de nouvelles hypothèses de recherche • Utilisation pour l'enseignement • Description des jeux de données sous un format structuré et lisible par un humain• Citabilité des données (gain de citation)• Nouvelles collaborations• Respect des mandats des financeurs et des éditeurs (organismes) • Meilleur retour sur investissement de la recherche

Les intérêts du DP

Barrières et freins

§ Coûts associés au partage de données § Problèmes de confidentialité (données sensibles …) § Interrogation sur la notion de propriété des données … § Inquiétudes sur une réutilisation inappropriée § Manque de reconnaissance académique et

institutionnelle § Méconnaissance des procédures (rédaction des

métadonnées, choix entrepôts …) § Activité chronophage § Coût de la publication

(Hrynaszkiewicz & Shintani, 2014) et (Tenant, 2015)

Les étapes pour publier un DP§ Choix de la revue § Vérifier que la revue effectue un peer review des données§ Vérifier que la revue délivre un DOI§ Lire attentivement les instructions aux auteurs§ Identifier les plateformes de dépôt acceptées§ Déposer ses jeux de données sur la plateforme§ Soumettre à la revue§ Processus de peer-reviewing

Quand publier ?§ Accords partenaires / contrats /embargo

Budget (coûts à prévoir pour la publication & le dépôt)§ Gratuit / payant (APC)§ Coût de publication dans un Data journal : de 500 à 2000 $

pour le DP et de 0 à 100 $ pour la publication des données dans les bases de dépôts.

Traduit et modifié de : (Whyte & Callaghan, 2013) – INRA - Esther Dzalé Yeumo

Structure d’un Data Paper

Template : Scientific Data§ http://www.nature.com/scientificdata/

http://www.nature.com/sdata/publish/submission-guidelines ))

Le Data Paper comprend les principales sections suivantes :-Title- Authors (&affiliations)- Abstract- Background & summary : conception de l’étude, données générées, objectifs et valeur de réutilisation potentielle- Methods : étapes ou procédures de production des données, méthodes pour les interpréter et les reproduire- Data Records : description des données, aperçu et format des fichiers de données-Technical validation : expériences et analyses, fiabilité et rigueur technique des données- Usage notes : instructions brèves pour la réutilisation des données, logiciels, conseils- …

Exemple de Data Paper : Data in brief

DOI : 10.1016/j.dib.2016.09.020

Exemple de Data Paper : Earth System Science Data

DOI : 10.5194/essd-6-339-2014

Exemple de Data Paper : Phytokeys

Exemples de Data Journals§ Exemples de Data Journals et de revues publiant des Data Papers

Thématique « modélisation, mathématiques, informatique »o Data in Briefo Earth System Science Datao Ecological Informaticso F1000Researcho Nature Biotechnologyo Open Geospatial Data, Software and Standards …

§ Listes de Data Journals et de revues publiant Data PapersØ Base "Où publier" Cirad : http://ou-publier.cirad.fr/index.phpØ Data journal list (projet PREPARDE UK) :

http://proj.badc.rl.ac.uk/preparde/blog/DataJournalsListØ Data@Mlibrary : https://mlibrarydata.wordpress.com/2014/05/09/data-journalsØ Liste université d'Edinburgh :

https://www.wiki.ed.ac.uk/display/datashare/Sources+of+dataset+peer+review

Outils de rédaction et plateformes de soumission d’articles

§ Quelques revues proposent leur outil de rédaction en ligne :

o Integrated Publishing Toolkit (IPT) – GBIFo Pensoft Writing Tool (Publisher Pensoft)

§ Soumission des articles, évaluation et dépôt des données via des plateformes d’entrepôtso Dryad - Open Journal Systems

(https://datadryad.org/pages/submissionIntegration)

o Dataverse (http://dataverse.org/journals)

Processus éditorial automatisé de l’éditeur Pensoft

Le processus de peer-review

Les critères d’évaluation par les pairs

§ Importance et originalité des données§ Potentiel et la valeur de réutilisation des données§ Qualité et fiabilité des données§ Accès aux données§ Qualité et rigueur de la méthode de collecte § Choix des métadonnées descriptives et des formats

Dedieu L. (2014)

Exemple de peer-review d’un Data paper

Journal : Earth System Science Data - Peer review interactifhttp://www.earth-system-science-data.net/peer_review/interactive_review_process.html

Description des métadonnéesModèles pour décrire des jeux de données (templates) > Génériques, disciplinaires ou technologiques

Données en Ecologie• Ecological metadata language

Données en sciences humaines et sociales• Data documentation initiative

Domaine des informations géospatiales• http://www.ncddc.noaa.gov/metadata-standards

Ø Facilite les échanges, la recherche ou la comparaison des jeux de données.

Partager et réutiliser des données§ 4 conditions : données accessibles, intelligibles, interopérables et

réutilisables§ Publication des données en « open re-use »§ Formats non propriétaires§ Métadonnées suffisantes§ Choix de l’entrepôt (importance de la pérennité d’accès au jeu de

données)

§ Licences permettant un accès gratuit et une réutilisation non-commerciale ou commerciale :o Licence CC-BY : toutes utilisations possibles, y compris commerciales, sous

réserve de citer les créateurs de donnéeso Licence CCO : données dans le domaine public, citation non obligatoireo Open Data Commons Attribution license (ODC-BY 1.0 license) : contrat de

licence de base de données favorisant la libre circulation des donnéeso Période d’embargo possible (jusqu’à 2 ans)

Check list « Vérifier ses données » (source : DoraNum)

1. Les principes éthiques sont respectés 2. Les droits de diffusion des données sont vérifiés / obtenus3. Les jeux de données à partager sont sélectionnés4. Les fichiers sont organisés de façon cohérente et

nommés de façon explicite5. Les fichiers sont dans des formats pérennes et ouverts

(ex : .csv plutôt que .xls)6. Le volume des fichiers ne dépasse pas la limite autorisée

par l’entrepôt7. La description des données permet d’assurer leur

validation, reproductibilité et réutilisation8. Un identifiant pérenne, type DOI est attribué aux données9. Une licence appropriée est attribuée aux données10. Les modalités d’accès sont définies : accès ouvert ou

restreint, embargo

Diffuser des données / Projet de recherche

• Données personnellesØ Anonymisation des données (secret statistique + formalités CNIL)

• Données provenant d’une autre baseØ Licence d’utilisation ou contact producteur de la Bdd

• Données protégées par le droit d’auteurØ autorisation écrite de l’auteur ou sous forme de licence CC

• Consortium avec le secteur privéØ Négociation avec partenaire pour diffusion des données

• Informations relatives à l’environnement ou impact sur la conservation de la biodiversitéØ Diffusion non autorisée (espèces menacées par ex. ou si site privé)

• Informations relatives à la sécurité publique (pathogènes, ressources en eau…)Ø Diffusion non autorisée

• Données statistiques (INSEE)Ø Demande à effectuer au comité du secret statistique (CNIS.FR)

Source INRA : http://www.bibliotheque-numerique.fr/DonneesDiffusables.php

Entrepôt de données: exemple de notice - Pangaea

Entrepôt de données: exemple de notice - Figshare

Citer un jeu de donnéesFormat minimal (5 éléments) : Auteur (Année de publication) : Titre. Editeur. IdentifiantCreator (PublicationYear): Title. Publisher. Identifier

Format avec propriétés optionnelles : Auteur (Année de publication) : Titre. Version. Editeur. Type de ressource. IdentifiantCreator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier.

• Exemple de citation d’un jeu de données:

Pélissier, Raphaël; Pascal, Jean-Pierre; Ayyappan, N.; Ramesh, B. R.; Aravajy, S.; Ramalingam, S. R. (2016): Tree demography in an undisturbed Dipterocarp permanent sample plot at Uppangala, Western Ghats of India. figshare. https://doi.org/10.6084/m9.figshare.c.3304026.v1

Sites institutionnels : gestion des données

https://www6.inra.fr/datapartage/

http://intranet-data.cirad.fr/

https://donnees-recherche.irstea.fr/

Merci de votre attention

Sources (1/2)• Guide pratique pour la gestion des données de la recherche, 2014, Irstea. http://intranet-qualite.irstea.fr/guide-pratique-gestion-des-donnees

• Gérer et partager des données scientifiques, 2016, Inra, pôle IST-recherche .https://www6.inra.fr/datapartage/Partager-Publier

• Du choix de l’entrepôt au dépôt des données (infographie), 2016. En ligne. http://www.doranum.fr/2016/06/22/du-choix-de-lentrepot-au-depot-des-donnees-infographie

• Belghit, K., Belvèze, C., 2016. Les datapapers. Form@doct. Rennes : Université de Bretagne Loire. http://ueb-eu.beta.libguides.com/datapapers

Deboin, M.C., 2016. Citer un jeu de données scientifiques, en 5 points. Montpellier (FRA) : CIRAD, 5 p.http://coop-ist.cirad.fr/aide-a-la-publication/rediger/citer-un-jeu-de-donnees/2-comment-libeller-la-reference-bibliographique-d-un-jeu-de-donnees

• Dedieu, L. 2014. Rédiger et publier un data paper dans une revue scientifique, en 5 points. Montpellier (FRA) : CIRAD, 7 p.http://coop-ist.cirad.fr/aide-a-la-publication/rediger/data-paper/1-qu-est-ce-qu-un-data-paper

• Dedieu, L. 2014. Rédiger et publier un data paper dans une revue scientifique, en 5 points. Montpellier (FRA) : CIRAD, 7 p.http://coop-ist.cirad.fr/aide-a-la-publication/rediger/data-paper/1-qu-est-ce-qu-un-data-paper

• Dzalé Yeumo, E., Entrepôts de données : Pierre angulaire du partage des données scientifiques - ANF-Renatis- Inra, 08/07/2016. p. 37. https://www6.inra.fr/datapartage/Media/Fichier/Guides/IntroEntrepot

• Dzalé Yeumo, E., L’Hostis, D., Open Science : Gestion et partage des données de la recherche. Support de formation Inra, 01/04/2015, Agropolis International

Sources (2/2)• Engel, J., Brousseau, L., and Baraloto, C., 2016. GuiaTreeKey, a multi-access electronic key to identify tree genera in French Guiana, PhytoKeys. p. 27-44.http://dx.doi.org/10.3897/phytokeys.68.8707

• Gibouin, F., et al., 2016. Dataset of near infrared spectroscopy measurements to predict rheological parameters of sludge, Data in Brief. p. 453-459.http://dx.doi.org/10.1016/j.dib.2016.09.020

• Hrynaszkiewicz, I., & Shintani, Y. , 2014. Scientific Data : An open access and open data publication to facilitate reproducible research. Journal of Information Processing and Management, 57(9), 629-640. http://dx.doi.org/10.1241/johokanri.57.629

• Jacquemot- Perbal, M.C., Cosserat F, 2015. Gestion et diffusion des données de la recherche, Inist Nancy.http://www.inist.fr/IMG/pdf/urfistrennes_20150616.pdf

• L'Hostis, D., Hamelin, M., Lelievre, V., Aventurier, P. , 2016. Publier un Data Paper pour valoriser ses données (Cours). DOI : 10.15454/1.478247389988942E12

• Seo, B., et al., 2014. Deriving a per-field land use and land cover map in an agricultural mosaic catchment, Earth Syst. Sci. Data., Copernicus Publications. p. 339-352.http://dx.doi.org/10.5194/essd-6-339-2014

• Tenant, J.,2015. Open Sesame! The Risks and Rewards of Open Data for Researchers. http://www.digital-science.com/blog/guest/open-sesame-the-risks-and-rewards-of-open-data-for-researchers