43
Collecter, préserver, annoter, organiser, réutiliser nos données Essayons ! F. de Lamotte - Inra UMR Agap - Montpellier

Essayons · • Les techniques à haut débit, une révolution qui provoque un déluge de données • Génome humain • en 1990 = 13 ans et 3 Milliards $ / en 2015 = quelques heures

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Collecter, préserver, annoter, organiser, réutiliser nos données

Essayons !

F. de Lamotte - InraUMR Agap - Montpellier

C’est complexe !

❖ Contexte

❖ éléments de réflexion

❖ quelques pistes

F. de Lamotte - INRA - Montpellier

La disruption numérique : une bascule brutale

Qui change notre monde❖ La première compagnie de taxi n’en possède aucun (Uber)

❖ Le premier fournisseur de logement n’en possède pas (AirBnB)

❖ La première compagnie de téléphonie ne possède pas de standard (Skype)

❖ Le premier fournisseur d’info ne créé pas de contenu (Facebook)

❖ Le premier diffuseur de film ne possède pas de salle de cinéma (Netflix)

Et en Science ?• Les techniques à haut débit, une révolution qui

provoque un déluge de données• Génome humain

• en 1990 = 13 ans et 3 Milliards $ / en 2015 = quelques heures et 1000 $

➡ La quantité de données à stocker et analyser explose

➡ Le rendementd’analyse chute

Répondre aux questions de Science

1 Concevoir l’expérimentation2 Collecter des résultats3 Analyser des résultats

Un changement de paradigme

1 Générer massivement des données2 Organiser (stocker, documenter, annoter)3 Analyser (extraire de l’information)4 Diffuser l’information

F. de Lamotte - INRA - Montpellier

Les ravages du temps

F. de Lamotte - INRA - Montpellier

Les défis de la reproductibilité

1,500 scientists lift the lid on reproducibility". Nature. 533: 452–454 - 2016

Management éthique et efficace de la recherche

F. de Lamotte - INRA - Montpellier

Un projet sur la durée

Qté

Tps

F. de Lamotte - INRA - Montpellier

Un enjeux de traçabilité

Qté

Tps

PublicationDataPaperSyst Info

Champ Labo Plateforme Ordi Cluster Ordi Redaction

Traçabilié et qualité pour

❖ Raisons externes : Confiance des bailleurs et de la société civile

❖ Raisons internes :Faciliter l’analyse, la ré-exploitation, le partage

La traçabilité - un double enjeux

❖ Personnel

❖ Collectif

❖ Confiance

❖ Efficience

❖ Ré-exploitation

Tracer quoi ? Comment ?T0 T 36 mois

Arrivée doctorant # 24Pot de thèse

… la suite

Qté

Tps

ManuscritMode Op

T0

Publications

Tracer quoi ?

❖ Le passé

❖ Le leg (du doctorant précédent …)

❖ La biblio à T0

❖ Les méthodes pré existantes

❖ Le présent

❖ Les manipes

❖ La création de connaissance (méthodes, posters, com° …)

❖ Le futur

❖ Le manuscrit

❖ Les publications (leur contenu)

Le passé

❖ Comment faites (faisiez) vous ?

La Documentation

Les sources bibliographiquesBebop ALaRI Institute 2007-11-08 2009-11-10 1.1 Free Yes BSD web-based BibTeX front-end

(Apache, PHP, MySQL)

BibDesk BibDesk developers 2002-04 2019-06-03 1.7.1 Free Yes BSDBibTeX front-end + repository; Cocoa-based; integration with Spotlight

BibSonomy University of Kassel 2006-01 2018-07-30 3.8.13 Free Yes AGPL, GPL, LGPL[2] centrally hosted website

Bibus Bibus developers 2004-06-03 2013-05-23 1.5.1 Free Yes GNU GPL discontinued?

JabRef JabRef developers 2003-11-29 2018-06-05 4.3.1 Free Yes MIT license Java BibTeX and BibLaTeXmanager

KBibTeX KBibTeX developers 2005-08 2018-06-21 0.8.1 Free Yes GNU GPL BibTeX front-end, using the KDE Software Compilation

Pybliographer pybliographer developers 1998-10-30 (0.2) 2018-04-03 1.4.0 Free Yes GNU GPL Python/GTK2

refbase refbase developers 2003-06-03 2014-02-28 0.9.6 Free Yes GNU GPL web-based for institutional repositories/self-archiving[9]

RefDB refdb developers 2001-04-25 2007-11-05 0.9.9 Free Yes GNU GPL network-transparent; XML/SGML bibliographies

Referencer Referencer developers 2008-03-15 2014-02-27 1.2.2 Free Yes GNU GPL BibTeX front-end

Wikindx Mark Grimshaw 2004-02 2019-08-20 5.8.2 Free Yes CC-BY-NC-SA web-based

ZoteroRoy Rosenzweig Center for History and New Media at GMU

2006 2019-06-14 5.0.67 [10]Free / Online storage free up to 300 MB / Additional space available

Yes AGPL

Multi-platform version with connectors for Firefox, Chromeand Safari. Web-based access to reference library also available.

Le présent

❖ Analogique

❖ Numérique

❖ Algorithmique

Analogique

❖ échantillons

❖ cahiers de labo

Analogique

❖ Règles de nommage (partagées !)

❖ Plan de classement (physique)

❖ Règles (et contrôle) de tenue du cahier due labo

❖ Index des cahiers (qui, quand, quel projet …)

❖ Lien vers l’alter ego numérique

CLÉ

Numérique

❖ Bonnes pratiques pour :• Retrouver aisément les données• Rationaliser le contenu des serveurs et éviter leur saturation !• Pérenniser les informations et faciliter leur transmission

Points de vigilance

❖ Nommage des fichiers

❖ Unique, non ambigu, caractères « légaux »

❖ Formats de fichiers

❖ facile.cines.fr

❖ Que faire des formats propriétaires ?

❖ Plan de classement

Champ 01

Champ 02

plante 01

Traitement 01

Traitement 02

Traitement 03

Traitement 01

Traitement 02

Traitement 03

plante 02

plante 03

Champ 01

Champ 02

Traitement 01

Traitement 02

Traitement 03

Traitement 01

Traitement 02

Traitement 03

Champ 01

Champ 02

Traitement 01

Traitement 02

Traitement 03

Traitement 01

Traitement 02

Traitement 03

F. de Lamotte - INRA - Montpellier

Les métadonnées

Tags :MetaData :

Vocabulaire contrôléDéfini par la communautéEvolutif

Plante 01

Champ 01

Traitt 03

toto.txt

On les met où ces données ?❖ Dès le début !!!

Qualification des données

❖ Méthode comprise / Méthode maîtrisée ?

❖ Outil compris / maîtrisé ?

Contrôle qualité

❖ Valeurs manquantes

❖ Valeurs manquantes remplacées par zéro

❖ Complétudes des séries

❖ Lignes ou valeurs dupliquées

❖ Incohérence orthographique

❖ Incohérence des formats de dates (1900, 1904)

❖ 65 536 lignes (ou 255 colonnes)

choice count

Andy Anderson 79

Andy R. Anderson 9

Anderson, Andy 57

Beatrice Beaufort 28

Beatrice Mansfield 67

Beaufort, Beatrice 19

... ...

Résoudre certains problèmes

❖ Encodage

❖ CR / LF

❖ Données « PDFifiées »

❖ Données scannées

Confier le problème à d’autres

❖ Source non fiable

❖ Opacité du processus de collecte

❖ Précision irréaliste des données

❖ Valeurs aberrantes inexplicables

❖ Echec de la Loi de Benford

Algorithmique

❖ Super facile !!!!!• On va y consacrer la prochaine journée

Qu’est-ce qu’un calcul ?

à éviter …

F. de Lamotte - INRA - Montpellier

Une petite liste à emporter à la maisonDMP

https://easydmp.eudat.eu/plan/

Entrepôtshttps://fairsharing.org/databases/

https://www.nature.com/sdata/policies/repositorieshttp://about.zenodo.org

https://search.datacite.org/data-centershttps://cordis.europa.eu/project/rcn/207500/

Gestion des donnéeshttps://www.csc.fi/en/web/training/-/webinar-research-data-management

http://www.smalsresearch.be/dix-bonnes-pratiques-pour-ameliorer-et-maintenir-la-qualite-des-donnees/https://mantra.edina.ac.ukhttps://www.fairdata.fi/en/

Choix d’une licencehttps://www6.inra.fr/datapartage/Partager-Publier/Choisir-une-licence

Ontologie et standard de méta donnéeshttps://bioportal.bioontology.org

https://isa-tools.orghttps://datacite.org

et aussi https://eudat.eu

http://www.dcc.ac.uk

Qualité des donnéeshttps://github.com/laurence001/quartz-bad-data-guide-french

http://corist-shs.cnrs.fr/gestion_donnees_recherche_guideetformation_11

Traçabilité : définition

La fiabilité des données réside dans la possibilité de suivre les différents états de celles-ci tout

au long de leur cycle de vie. Pour cela, la présente charte préconise l'utilisation de techniques

dites «reproductibles». L'objectif est de tracer et de conserver les opérations effectuées sur les

données lors des étapes de vérification, de correction, d’amélioration et d’enrichissement,

avant leur mise à disposition aux utilisateurs.

La personne ou le collectif signataire de cette Charte s’engage à conserver les fichiers contenant

les scripts et les procédures appliqués aux jeux de données et à ne pas recourir à des opérations

manuelles ne laissant pas de traces (type copier/coller).