Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Collecter, préserver, annoter, organiser, réutiliser nos données
Essayons !
F. de Lamotte - InraUMR Agap - Montpellier
Qui change notre monde❖ La première compagnie de taxi n’en possède aucun (Uber)
❖ Le premier fournisseur de logement n’en possède pas (AirBnB)
❖ La première compagnie de téléphonie ne possède pas de standard (Skype)
❖ Le premier fournisseur d’info ne créé pas de contenu (Facebook)
❖ Le premier diffuseur de film ne possède pas de salle de cinéma (Netflix)
Et en Science ?• Les techniques à haut débit, une révolution qui
provoque un déluge de données• Génome humain
• en 1990 = 13 ans et 3 Milliards $ / en 2015 = quelques heures et 1000 $
➡ La quantité de données à stocker et analyser explose
➡ Le rendementd’analyse chute
Répondre aux questions de Science
1 Concevoir l’expérimentation2 Collecter des résultats3 Analyser des résultats
Un changement de paradigme
1 Générer massivement des données2 Organiser (stocker, documenter, annoter)3 Analyser (extraire de l’information)4 Diffuser l’information
F. de Lamotte - INRA - Montpellier
Les défis de la reproductibilité
1,500 scientists lift the lid on reproducibility". Nature. 533: 452–454 - 2016
F. de Lamotte - INRA - Montpellier
Un enjeux de traçabilité
Qté
Tps
PublicationDataPaperSyst Info
Champ Labo Plateforme Ordi Cluster Ordi Redaction
Traçabilié et qualité pour
❖ Raisons externes : Confiance des bailleurs et de la société civile
❖ Raisons internes :Faciliter l’analyse, la ré-exploitation, le partage
La traçabilité - un double enjeux
❖ Personnel
❖ Collectif
❖ Confiance
❖ Efficience
❖ Ré-exploitation
Tracer quoi ? Comment ?T0 T 36 mois
Arrivée doctorant # 24Pot de thèse
… la suite
Qté
Tps
ManuscritMode Op
T0
Publications
Tracer quoi ?
❖ Le passé
❖ Le leg (du doctorant précédent …)
❖ La biblio à T0
❖ Les méthodes pré existantes
❖ Le présent
❖ Les manipes
❖ La création de connaissance (méthodes, posters, com° …)
❖ Le futur
❖ Le manuscrit
❖ Les publications (leur contenu)
Les sources bibliographiquesBebop ALaRI Institute 2007-11-08 2009-11-10 1.1 Free Yes BSD web-based BibTeX front-end
(Apache, PHP, MySQL)
BibDesk BibDesk developers 2002-04 2019-06-03 1.7.1 Free Yes BSDBibTeX front-end + repository; Cocoa-based; integration with Spotlight
BibSonomy University of Kassel 2006-01 2018-07-30 3.8.13 Free Yes AGPL, GPL, LGPL[2] centrally hosted website
Bibus Bibus developers 2004-06-03 2013-05-23 1.5.1 Free Yes GNU GPL discontinued?
JabRef JabRef developers 2003-11-29 2018-06-05 4.3.1 Free Yes MIT license Java BibTeX and BibLaTeXmanager
KBibTeX KBibTeX developers 2005-08 2018-06-21 0.8.1 Free Yes GNU GPL BibTeX front-end, using the KDE Software Compilation
Pybliographer pybliographer developers 1998-10-30 (0.2) 2018-04-03 1.4.0 Free Yes GNU GPL Python/GTK2
refbase refbase developers 2003-06-03 2014-02-28 0.9.6 Free Yes GNU GPL web-based for institutional repositories/self-archiving[9]
RefDB refdb developers 2001-04-25 2007-11-05 0.9.9 Free Yes GNU GPL network-transparent; XML/SGML bibliographies
Referencer Referencer developers 2008-03-15 2014-02-27 1.2.2 Free Yes GNU GPL BibTeX front-end
Wikindx Mark Grimshaw 2004-02 2019-08-20 5.8.2 Free Yes CC-BY-NC-SA web-based
ZoteroRoy Rosenzweig Center for History and New Media at GMU
2006 2019-06-14 5.0.67 [10]Free / Online storage free up to 300 MB / Additional space available
Yes AGPL
Multi-platform version with connectors for Firefox, Chromeand Safari. Web-based access to reference library also available.
Analogique
❖ Règles de nommage (partagées !)
❖ Plan de classement (physique)
❖ Règles (et contrôle) de tenue du cahier due labo
❖ Index des cahiers (qui, quand, quel projet …)
❖ Lien vers l’alter ego numérique
Numérique
❖ Bonnes pratiques pour :• Retrouver aisément les données• Rationaliser le contenu des serveurs et éviter leur saturation !• Pérenniser les informations et faciliter leur transmission
Points de vigilance
❖ Nommage des fichiers
❖ Unique, non ambigu, caractères « légaux »
❖ Formats de fichiers
❖ facile.cines.fr
❖ Que faire des formats propriétaires ?
❖ Plan de classement
Champ 01
Champ 02
plante 01
Traitement 01
Traitement 02
Traitement 03
Traitement 01
Traitement 02
Traitement 03
plante 02
plante 03
Champ 01
Champ 02
Traitement 01
Traitement 02
Traitement 03
Traitement 01
Traitement 02
Traitement 03
Champ 01
Champ 02
Traitement 01
Traitement 02
Traitement 03
Traitement 01
Traitement 02
Traitement 03
Tags :MetaData :
Vocabulaire contrôléDéfini par la communautéEvolutif
Plante 01
Champ 01
Traitt 03
toto.txt
Contrôle qualité
❖ Valeurs manquantes
❖ Valeurs manquantes remplacées par zéro
❖ Complétudes des séries
❖ Lignes ou valeurs dupliquées
❖ Incohérence orthographique
❖ Incohérence des formats de dates (1900, 1904)
❖ 65 536 lignes (ou 255 colonnes)
choice count
Andy Anderson 79
Andy R. Anderson 9
Anderson, Andy 57
Beatrice Beaufort 28
Beatrice Mansfield 67
Beaufort, Beatrice 19
... ...
Confier le problème à d’autres
❖ Source non fiable
❖ Opacité du processus de collecte
❖ Précision irréaliste des données
❖ Valeurs aberrantes inexplicables
❖ Echec de la Loi de Benford
F. de Lamotte - INRA - Montpellier
Une petite liste à emporter à la maisonDMP
https://easydmp.eudat.eu/plan/
Entrepôtshttps://fairsharing.org/databases/
https://www.nature.com/sdata/policies/repositorieshttp://about.zenodo.org
https://search.datacite.org/data-centershttps://cordis.europa.eu/project/rcn/207500/
Gestion des donnéeshttps://www.csc.fi/en/web/training/-/webinar-research-data-management
http://www.smalsresearch.be/dix-bonnes-pratiques-pour-ameliorer-et-maintenir-la-qualite-des-donnees/https://mantra.edina.ac.ukhttps://www.fairdata.fi/en/
Choix d’une licencehttps://www6.inra.fr/datapartage/Partager-Publier/Choisir-une-licence
Ontologie et standard de méta donnéeshttps://bioportal.bioontology.org
https://isa-tools.orghttps://datacite.org
et aussi https://eudat.eu
http://www.dcc.ac.uk
Qualité des donnéeshttps://github.com/laurence001/quartz-bad-data-guide-french
http://corist-shs.cnrs.fr/gestion_donnees_recherche_guideetformation_11
Traçabilité : définition
La fiabilité des données réside dans la possibilité de suivre les différents états de celles-ci tout
au long de leur cycle de vie. Pour cela, la présente charte préconise l'utilisation de techniques
dites «reproductibles». L'objectif est de tracer et de conserver les opérations effectuées sur les
données lors des étapes de vérification, de correction, d’amélioration et d’enrichissement,
avant leur mise à disposition aux utilisateurs.
La personne ou le collectif signataire de cette Charte s’engage à conserver les fichiers contenant
les scripts et les procédures appliqués aux jeux de données et à ne pas recourir à des opérations
manuelles ne laissant pas de traces (type copier/coller).