Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Groupe Gestion et Partage des Données

Dominique Pontier

CS INRA 16 mars 2011

Initiée au précédent CS

Sollicitation D. Pontier

Interviews (avril – mai 2010)

Présentation CS Juin 2010

Interruption Juillet 2010 – février 2011

Historique de la réflexion

Contexte (1/5)

Une transition importante avec l’arrivée des nouvelles techniques notamment « omiques »

Genes (2010), 1, 317-334.

accumulation de données massives et hétérogènes

changement d’échelle: analyse de qq gènes -> intégralité du génome

Contexte (2/5)

Cartographie des instruments de séquençage

llumina HiSeq 2000 platform allows users to generate 600 gigabases of sequence (the equivalent of 5 high quality human genomes) per one-week run of the machine.

Contexte (3/5)

La société Pacific Biosciences prédit que d’ici 2013, elle sera capable de séquencer un génome individuel en un quart d’heure et pour moins de 1000 dollars.

Le séquençage haut débit ne sert pas seulement à séquencer des génomes :

Epigénomes, Métagénomes, Transcriptomes…

Biologie = science riche en données !

L’écologie, l’agronomie, … génèrent des données

con

nex

ion

Ecologie fonctionnelle, écologie évolutive, écologie des communautés, Ecologie des interactions symbiotiques…

Contexte (4/5)

échantillon séquenceur analyse, …

Goulot d’étranglement

Problématiques et défis : stocker, gérer, archiver, échanger les données; représenter (BDD et ontologies) et analyser

Révolution culturelle pour le biologiste/l’écologue

Evolution très rapide des recherches

Contexte (5/5)

Définir l’objet de la mission Identifier les questions et structurer en étapes

• Interviews: bioinformaticiens/statisticiens (chercheurs, dir. plateforme Bioinformatique régionale, ingénieurs)

• Exposés sur les NNNNNGS

• Visite Christine Gaspin, Dir. plateforme BioInformatique,Toulouse

• Visite centre INRA Jouy-en-Josas: Présidente du Centre, chercheurs et DU MIG, Chef du département MICA, participation à la réunion du Comité de Pilotage et d’Harmonisation du Centre, DU IDES, épistémologue

Méthode (1/3)

Réunions du groupe de travail Visites de Centres, Unités, interviews approfondies

Groupe de travail : animation C. Gaspin et D. Pontier

Méthode (2/3)

Composition périmètre

Segmentation de la mission en trois étapes

1ère étape Etat des lieux

2ème étape Comment sont organisés le partage et la diffusion des données à l’INRA, et comment les chercheurs/ingénieurs vivent cette organisation?

3ème étape Prospective en termes d’organisation

Méthode (3/3)

1ère étape: état des lieux (1/8)

Qu’est ce qu’une ‘donnée’ ?

Quelle est la nature et la dynamique de production des données à l’INRA? Spécifiques et non spécifiques.

Quels sont les lieux de production ?

Qu’est-ce qui est en train de changer ?

La question du coût d’analyse

Qu’est-ce que l’on doit préserver ?

Qu’est-ce qu’une ‘donnée’ ?

• Les données brutes

• Les métadonnées clé pour préserver l’utilité des données à travers les années

• Les données finales (expertisées)


échantillon cellules, sang,

tissu…

pyrogramme…

Séquenceur

Programme

Métadonnées

- Lieu, heure- Qui- Conditions de prélèvement- …

Séquence annotée Programme

!

!

!

Quoi conserver et sur quelle durée ?

- Programmed’assemblage utilisé- …

-Indice de qualité du ‘read’-…

ACATCTGGCGGCTGCCCTCCCTTGTTTCCGCTGCATCCAGACTTCCTCAGGCGGTGGCTGGAGGCTGCGC

ATCTGGGGCTTTAAACATACAAAGGGATTGCCAGGACCTGCGGCGGCGGCGGCGGCGGCGGGGGCTGGGCGCGGGGGCCGGACCATGAGC

CGCTGAGCCGGGCAAACCCCAGGCCACCGAGCCAGCGGACCCTCGGAGC

Métadonnées

petits bouts de séquence

séquence entière reconstituée

- Identification taxonomique- …

Traçabilité

MétadonnéesDonnée ‘brute’

Donnée ‘brute’

Donnée ‘brute’

Données en ‘omique’ Protéomique, métabolomique, génomique, épigénomique, transcriptomique, métagénomique

Données de phénotypage à haut débit, écologiques, …

Y a-t-il eu un recensement des grandes bases de données dormantes et actives à l’INRA ?

Quels sont les grands programmes en cours et leur dynamique ?

Quelle est la nature et la dynamique de production des données à l’INRA ?

Et demain? Quelles données ? (évolution des techniques, des problématiques…)


Qu’est-ce qui est en train de changer ?

Masse de données en croissance phénoménale

Données hétérogènes

Y a-t-il une politique claire de documentation des conditions de récolte et de production des données?

De quelle façon les labos/chercheurs… vivent l’augmentation des données à traiter?


Une mutualisation est-elle envisageable si on prend un ensemble très hétérogène de laboratoires de l’INRA?

Qu’est-ce qui est en train de changer ? Problèmes techniques: - Capacité de calcul des ordinateurs - Stockage, archivage - Transfert des données

Prévoir les infrastructures et le personnel Repenser méthodes d’accès et d’exploitation Impact sur les activités de recherche

Le biologiste dont le travail de recherche génère cette masse de données est-il conscient de ce que cette situation implique au niveau technologique ?


Compétitivité internationale

Quelles données partager ?Les données ‘brutes’ ? Les métadonnées ? Les données expertisées ?


La question du coût d’analyseLe coût d’acquisition des données diminue et le coût d’expertise des données augmente

À quel niveau faut-il résoudre le problème?

INRA? Collaboration inter EPST ? Mutualisation au sein de plateformes?

Volume et diversité des données problème

Base données maintenance

Temporalité de la donnée: stockage, archivage et support

Quels sont les critères de qualification et de requalification du statut des données ?

Est-ce qu’il y a une politique nationale de sauvegarde et d’archivage des données à l’INRA ?


Qu’est-ce que l’on doit préserver ?

Structures et organisations existantes au niveau de l’INRA pour les types de données produites à l’INRA

Interactions aux niveaux national et européen

• Audit Ernst & Young (achevé?) • Visites et interviews

2ème étape : Comment sont organisés le partage et la diffusion des données à l’INRA et comment les chercheurs/ingénieurs la vivent ?

(1/2)

Les plateformes INRA propres et multi-organismes, labellisées, non labellisées

Les réseaux…

Quelles sont les spécificités et interactions entre ces niveaux d’organisation ?

Comment les chercheurs les utilisent?

Structures et organisations

2ème étape : Comment sont organisés le partage et la diffusion des données à l’INRA et comment les chercheurs/ingénieurs la vivent ?

(2/2)

Tout le monde ne pourra pas se payer le luxe de développer sa propre structure dans son coin

Il faut des bâtiments & du personnel (ingénieurs/chercheurs)

Il faut former les biologistes, clarifier le rôle et la mission de chacun (bioinformaticiens, statisticiens, biologistes)

Est-il judicieux de mettre tous les moyens sur 1 ou 2 gros centres ? Quelle infrastructure pour quelle(s) problématique(s) ?

Bilan des réflexions intermédiaires

3ème étape: Prospective en termes d’organisation (1/4)

Quels sont les pièges à éviter ?

Les données: qu’est-ce qui doit être gardé à l’INRA (spécifique) ? Partagé avec d’autres organismes?

Comment favoriser les lieux d’interdisciplinarité ?

Ne doit-on prendre en considération que les spécificités de l’INRA ?

Comment favoriser la disponibilité et le maintien de l’expertise?

Faut-il regrouper toutes les données dans un centre de données? Unique ? Plusieurs? Où? Pourquoi?


Les données: Quelles données doivent être maintenues par l’INRA? Ou par une structure inter-organismes?

Et pour quelle durée? : stockage, archivage et support

Quelques pièges à éviter ?

Ne pas perdre une expertise

capitaliser en recrutant des CDD

Eviter la saturation des centres attendre 6 mois pour être pris en main…

Distribution des moyens souples et remobilisables

Ne pas se laisser séduire par des coûts expérimentaux bas


Formation continue des biologistes/bio-écoinformaticiens

Transfert de compétences et d'activités (via la formation)

Recrutement de permanents

Sélection des projets

On peut jouer sur les leviers suivants en termes de fonctionnement


Conclusion

Périmètre de la mission: données « omiques » et/ou « non-omiques » ?

Composition du groupe de travail

Méthode et questions principales

Sous-groupes ?

Aspects informatiques biologiques bioinformatiques statistiques modélisation

• Internes INRA: L. Bruckler, C. Christophe, O. Le Gall, F. Rodolphe, … • Extérieur INRA: G. Perrière, …

• Membres du CS: …

Conclusion

Quelques membres pressentis…

1ère étape Etat des lieux

2ème étape Comment sont organisés le partage et la diffusion des données à l’INRA?

Comment les chercheurs/ingénieurs vivent cette organisation?

3ème étape Prospective en termes d’organisation

juin

septembre

décembre

Etape 0 Méthode et questions principales

Conclusion

Calendrier (proposition!)

Documents

Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011