28
Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Embed Size (px)

Citation preview

Page 1: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Groupe Gestion et Partage des Données

Dominique Pontier

CS INRA 16 mars 2011

Page 2: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Initiée au précédent CS

Sollicitation D. Pontier

Interviews (avril – mai 2010)

Présentation CS Juin 2010

Interruption Juillet 2010 – février 2011

Historique de la réflexion

Page 3: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Contexte (1/5)

Une transition importante avec l’arrivée des nouvelles techniques notamment « omiques »

Genes (2010), 1, 317-334.

accumulation de données massives et hétérogènes

changement d’échelle: analyse de qq gènes -> intégralité du génome

Page 4: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Contexte (2/5)

Cartographie des instruments de séquençage

Page 5: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

llumina HiSeq 2000 platform allows users to generate 600 gigabases of sequence (the equivalent of 5 high quality human genomes) per one-week run of the machine.

Contexte (3/5)

La société Pacific Biosciences prédit que d’ici 2013, elle sera capable de séquencer un génome individuel en un quart d’heure et pour moins de 1000 dollars.

Page 6: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Le séquençage haut débit ne sert pas seulement à séquencer des génomes :

Epigénomes, Métagénomes, Transcriptomes…

Biologie = science riche en données !

L’écologie, l’agronomie, … génèrent des données

con

nex

ion

Ecologie fonctionnelle, écologie évolutive, écologie des communautés, Ecologie des interactions symbiotiques…

Contexte (4/5)

Page 7: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

échantillon séquenceur analyse, …

Goulot d’étranglement

Problématiques et défis : stocker, gérer, archiver, échanger les données; représenter (BDD et ontologies) et analyser

Révolution culturelle pour le biologiste/l’écologue

Evolution très rapide des recherches

Contexte (5/5)

Page 8: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Définir l’objet de la mission Identifier les questions et structurer en étapes

• Interviews: bioinformaticiens/statisticiens (chercheurs, dir. plateforme Bioinformatique régionale, ingénieurs)

• Exposés sur les NNNNNGS

• Visite Christine Gaspin, Dir. plateforme BioInformatique,Toulouse

• Visite centre INRA Jouy-en-Josas: Présidente du Centre, chercheurs et DU MIG, Chef du département MICA, participation à la réunion du Comité de Pilotage et d’Harmonisation du Centre, DU IDES, épistémologue

Méthode (1/3)

Page 9: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Réunions du groupe de travail Visites de Centres, Unités, interviews approfondies

Groupe de travail : animation C. Gaspin et D. Pontier

Méthode (2/3)

Composition périmètre

Page 10: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Segmentation de la mission en trois étapes

1ère étape Etat des lieux

2ème étape Comment sont organisés le partage et la diffusion des données à l’INRA, et comment les chercheurs/ingénieurs vivent cette organisation?

3ème étape Prospective en termes d’organisation

Méthode (3/3)

Page 11: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

1ère étape: état des lieux (1/8)

Qu’est ce qu’une ‘donnée’ ?

Quelle est la nature et la dynamique de production des données à l’INRA? Spécifiques et non spécifiques.

Quels sont les lieux de production ?

Qu’est-ce qui est en train de changer ?

La question du coût d’analyse

Qu’est-ce que l’on doit préserver ?

Page 12: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Qu’est-ce qu’une ‘donnée’ ?

• Les données brutes

• Les métadonnées clé pour préserver l’utilité des données à travers les années

• Les données finales (expertisées)

1ère étape: état des lieux (2/8)

Page 13: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

échantillon cellules, sang,

tissu…

pyrogramme…

Séquenceur

Programme

Métadonnées

- Lieu, heure- Qui- Conditions de prélèvement- …

Séquence annotée Programme

!

!

!

Quoi conserver et sur quelle durée ?

- Programmed’assemblage utilisé- …

-Indice de qualité du ‘read’-…

ACATCTGGCGGCTGCCCTCCCTTGTTTCCGCTGCATCCAGACTTCCTCAGGCGGTGGCTGGAGGCTGCGC

ATCTGGGGCTTTAAACATACAAAGGGATTGCCAGGACCTGCGGCGGCGGCGGCGGCGGCGGGGGCTGGGCGCGGGGGCCGGACCATGAGC

CGCTGAGCCGGGCAAACCCCAGGCCACCGAGCCAGCGGACCCTCGGAGC

Métadonnées

petits bouts de séquence

séquence entière reconstituée

- Identification taxonomique- …

Traçabilité

MétadonnéesDonnée ‘brute’

Donnée ‘brute’

Donnée ‘brute’

Page 14: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Données en ‘omique’ Protéomique, métabolomique, génomique, épigénomique, transcriptomique, métagénomique

Données de phénotypage à haut débit, écologiques, …

Y a-t-il eu un recensement des grandes bases de données dormantes et actives à l’INRA ?

Quels sont les grands programmes en cours et leur dynamique ?

Quelle est la nature et la dynamique de production des données à l’INRA ?

Et demain? Quelles données ? (évolution des techniques, des problématiques…)

1ère étape: état des lieux (4/8)

Page 15: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Qu’est-ce qui est en train de changer ?

Masse de données en croissance phénoménale

Données hétérogènes

Y a-t-il une politique claire de documentation des conditions de récolte et de production des données?

De quelle façon les labos/chercheurs… vivent l’augmentation des données à traiter?

1ère étape: état des lieux (5/8)

Une mutualisation est-elle envisageable si on prend un ensemble très hétérogène de laboratoires de l’INRA?

Page 16: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Qu’est-ce qui est en train de changer ? Problèmes techniques: - Capacité de calcul des ordinateurs - Stockage, archivage - Transfert des données

Prévoir les infrastructures et le personnel Repenser méthodes d’accès et d’exploitation Impact sur les activités de recherche

Le biologiste dont le travail de recherche génère cette masse de données est-il conscient de ce que cette situation implique au niveau technologique ?

1ère étape: état des lieux (6/8)

Compétitivité internationale

Page 17: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Quelles données partager ?Les données ‘brutes’ ? Les métadonnées ? Les données expertisées ?

1ère étape: état des lieux (7/8)

La question du coût d’analyseLe coût d’acquisition des données diminue et le coût d’expertise des données augmente

À quel niveau faut-il résoudre le problème?

INRA? Collaboration inter EPST ? Mutualisation au sein de plateformes?

Page 18: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Volume et diversité des données problème

Base données maintenance

Temporalité de la donnée: stockage, archivage et support

Quels sont les critères de qualification et de requalification du statut des données ?

Est-ce qu’il y a une politique nationale de sauvegarde et d’archivage des données à l’INRA ?

1ère étape: état des lieux (8/8)

Qu’est-ce que l’on doit préserver ?

Page 19: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Structures et organisations existantes au niveau de l’INRA pour les types de données produites à l’INRA

Interactions aux niveaux national et européen

• Audit Ernst & Young (achevé?) • Visites et interviews

2ème étape : Comment sont organisés le partage et la diffusion des données à l’INRA et comment les chercheurs/ingénieurs la vivent ?

(1/2)

Page 20: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Les plateformes INRA propres et multi-organismes, labellisées, non labellisées

Les réseaux…

Quelles sont les spécificités et interactions entre ces niveaux d’organisation ?

Comment les chercheurs les utilisent?

Structures et organisations

2ème étape : Comment sont organisés le partage et la diffusion des données à l’INRA et comment les chercheurs/ingénieurs la vivent ?

(2/2)

Page 21: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Tout le monde ne pourra pas se payer le luxe de développer sa propre structure dans son coin

Il faut des bâtiments & du personnel (ingénieurs/chercheurs)

Il faut former les biologistes, clarifier le rôle et la mission de chacun (bioinformaticiens, statisticiens, biologistes)

Est-il judicieux de mettre tous les moyens sur 1 ou 2 gros centres ? Quelle infrastructure pour quelle(s) problématique(s) ?

Bilan des réflexions intermédiaires

Page 22: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

3ème étape: Prospective en termes d’organisation (1/4)

Quels sont les pièges à éviter ?

Les données: qu’est-ce qui doit être gardé à l’INRA (spécifique) ? Partagé avec d’autres organismes?

Comment favoriser les lieux d’interdisciplinarité ?

Ne doit-on prendre en considération que les spécificités de l’INRA ?

Comment favoriser la disponibilité et le maintien de l’expertise?

Page 23: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Faut-il regrouper toutes les données dans un centre de données? Unique ? Plusieurs? Où? Pourquoi?

3ème étape: Prospective en termes d’organisation (2/4)

Les données: Quelles données doivent être maintenues par l’INRA? Ou par une structure inter-organismes?

Et pour quelle durée? : stockage, archivage et support

Page 24: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Quelques pièges à éviter ?

Ne pas perdre une expertise

capitaliser en recrutant des CDD

Eviter la saturation des centres attendre 6 mois pour être pris en main…

Distribution des moyens souples et remobilisables

Ne pas se laisser séduire par des coûts expérimentaux bas

3ème étape: Prospective en termes d’organisation (3/4)

Page 25: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Formation continue des biologistes/bio-écoinformaticiens

Transfert de compétences et d'activités (via la formation)

Recrutement de permanents

Sélection des projets

On peut jouer sur les leviers suivants en termes de fonctionnement

3ème étape: Prospective en termes d’organisation (4/4)

Page 26: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Conclusion

Périmètre de la mission: données « omiques » et/ou « non-omiques » ?

Composition du groupe de travail

Méthode et questions principales

Sous-groupes ?

Aspects informatiques biologiques bioinformatiques statistiques modélisation

Page 27: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

• Internes INRA: L. Bruckler, C. Christophe, O. Le Gall, F. Rodolphe, … • Extérieur INRA: G. Perrière, …

• Membres du CS: …

Conclusion

Quelques membres pressentis…

Page 28: Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

1ère étape Etat des lieux

2ème étape Comment sont organisés le partage et la diffusion des données à l’INRA?

Comment les chercheurs/ingénieurs vivent cette organisation?

3ème étape Prospective en termes d’organisation

juin

septembre

décembre

Etape 0 Méthode et questions principales

Conclusion

Calendrier (proposition!)