Upload
maugier-maurice
View
107
Download
1
Embed Size (px)
Citation preview
Groupe Gestion et Partage des Données
Dominique Pontier
CS INRA 16 mars 2011
Initiée au précédent CS
Sollicitation D. Pontier
Interviews (avril – mai 2010)
Présentation CS Juin 2010
Interruption Juillet 2010 – février 2011
Historique de la réflexion
Contexte (1/5)
Une transition importante avec l’arrivée des nouvelles techniques notamment « omiques »
Genes (2010), 1, 317-334.
accumulation de données massives et hétérogènes
changement d’échelle: analyse de qq gènes -> intégralité du génome
Contexte (2/5)
Cartographie des instruments de séquençage
llumina HiSeq 2000 platform allows users to generate 600 gigabases of sequence (the equivalent of 5 high quality human genomes) per one-week run of the machine.
Contexte (3/5)
La société Pacific Biosciences prédit que d’ici 2013, elle sera capable de séquencer un génome individuel en un quart d’heure et pour moins de 1000 dollars.
Le séquençage haut débit ne sert pas seulement à séquencer des génomes :
Epigénomes, Métagénomes, Transcriptomes…
Biologie = science riche en données !
L’écologie, l’agronomie, … génèrent des données
con
nex
ion
Ecologie fonctionnelle, écologie évolutive, écologie des communautés, Ecologie des interactions symbiotiques…
Contexte (4/5)
échantillon séquenceur analyse, …
Goulot d’étranglement
Problématiques et défis : stocker, gérer, archiver, échanger les données; représenter (BDD et ontologies) et analyser
Révolution culturelle pour le biologiste/l’écologue
Evolution très rapide des recherches
Contexte (5/5)
Définir l’objet de la mission Identifier les questions et structurer en étapes
• Interviews: bioinformaticiens/statisticiens (chercheurs, dir. plateforme Bioinformatique régionale, ingénieurs)
• Exposés sur les NNNNNGS
• Visite Christine Gaspin, Dir. plateforme BioInformatique,Toulouse
• Visite centre INRA Jouy-en-Josas: Présidente du Centre, chercheurs et DU MIG, Chef du département MICA, participation à la réunion du Comité de Pilotage et d’Harmonisation du Centre, DU IDES, épistémologue
Méthode (1/3)
Réunions du groupe de travail Visites de Centres, Unités, interviews approfondies
Groupe de travail : animation C. Gaspin et D. Pontier
Méthode (2/3)
Composition périmètre
Segmentation de la mission en trois étapes
1ère étape Etat des lieux
2ème étape Comment sont organisés le partage et la diffusion des données à l’INRA, et comment les chercheurs/ingénieurs vivent cette organisation?
3ème étape Prospective en termes d’organisation
Méthode (3/3)
1ère étape: état des lieux (1/8)
Qu’est ce qu’une ‘donnée’ ?
Quelle est la nature et la dynamique de production des données à l’INRA? Spécifiques et non spécifiques.
Quels sont les lieux de production ?
Qu’est-ce qui est en train de changer ?
La question du coût d’analyse
Qu’est-ce que l’on doit préserver ?
Qu’est-ce qu’une ‘donnée’ ?
• Les données brutes
• Les métadonnées clé pour préserver l’utilité des données à travers les années
• Les données finales (expertisées)
1ère étape: état des lieux (2/8)
échantillon cellules, sang,
tissu…
pyrogramme…
Séquenceur
Programme
Métadonnées
- Lieu, heure- Qui- Conditions de prélèvement- …
Séquence annotée Programme
!
!
!
Quoi conserver et sur quelle durée ?
- Programmed’assemblage utilisé- …
-Indice de qualité du ‘read’-…
ACATCTGGCGGCTGCCCTCCCTTGTTTCCGCTGCATCCAGACTTCCTCAGGCGGTGGCTGGAGGCTGCGC
ATCTGGGGCTTTAAACATACAAAGGGATTGCCAGGACCTGCGGCGGCGGCGGCGGCGGCGGGGGCTGGGCGCGGGGGCCGGACCATGAGC
CGCTGAGCCGGGCAAACCCCAGGCCACCGAGCCAGCGGACCCTCGGAGC
Métadonnées
petits bouts de séquence
séquence entière reconstituée
- Identification taxonomique- …
Traçabilité
MétadonnéesDonnée ‘brute’
Donnée ‘brute’
Donnée ‘brute’
Données en ‘omique’ Protéomique, métabolomique, génomique, épigénomique, transcriptomique, métagénomique
Données de phénotypage à haut débit, écologiques, …
Y a-t-il eu un recensement des grandes bases de données dormantes et actives à l’INRA ?
Quels sont les grands programmes en cours et leur dynamique ?
Quelle est la nature et la dynamique de production des données à l’INRA ?
Et demain? Quelles données ? (évolution des techniques, des problématiques…)
1ère étape: état des lieux (4/8)
Qu’est-ce qui est en train de changer ?
Masse de données en croissance phénoménale
Données hétérogènes
Y a-t-il une politique claire de documentation des conditions de récolte et de production des données?
De quelle façon les labos/chercheurs… vivent l’augmentation des données à traiter?
1ère étape: état des lieux (5/8)
Une mutualisation est-elle envisageable si on prend un ensemble très hétérogène de laboratoires de l’INRA?
Qu’est-ce qui est en train de changer ? Problèmes techniques: - Capacité de calcul des ordinateurs - Stockage, archivage - Transfert des données
Prévoir les infrastructures et le personnel Repenser méthodes d’accès et d’exploitation Impact sur les activités de recherche
Le biologiste dont le travail de recherche génère cette masse de données est-il conscient de ce que cette situation implique au niveau technologique ?
1ère étape: état des lieux (6/8)
Compétitivité internationale
Quelles données partager ?Les données ‘brutes’ ? Les métadonnées ? Les données expertisées ?
1ère étape: état des lieux (7/8)
La question du coût d’analyseLe coût d’acquisition des données diminue et le coût d’expertise des données augmente
À quel niveau faut-il résoudre le problème?
INRA? Collaboration inter EPST ? Mutualisation au sein de plateformes?
Volume et diversité des données problème
Base données maintenance
Temporalité de la donnée: stockage, archivage et support
Quels sont les critères de qualification et de requalification du statut des données ?
Est-ce qu’il y a une politique nationale de sauvegarde et d’archivage des données à l’INRA ?
1ère étape: état des lieux (8/8)
Qu’est-ce que l’on doit préserver ?
Structures et organisations existantes au niveau de l’INRA pour les types de données produites à l’INRA
Interactions aux niveaux national et européen
• Audit Ernst & Young (achevé?) • Visites et interviews
2ème étape : Comment sont organisés le partage et la diffusion des données à l’INRA et comment les chercheurs/ingénieurs la vivent ?
(1/2)
Les plateformes INRA propres et multi-organismes, labellisées, non labellisées
Les réseaux…
Quelles sont les spécificités et interactions entre ces niveaux d’organisation ?
Comment les chercheurs les utilisent?
Structures et organisations
2ème étape : Comment sont organisés le partage et la diffusion des données à l’INRA et comment les chercheurs/ingénieurs la vivent ?
(2/2)
Tout le monde ne pourra pas se payer le luxe de développer sa propre structure dans son coin
Il faut des bâtiments & du personnel (ingénieurs/chercheurs)
Il faut former les biologistes, clarifier le rôle et la mission de chacun (bioinformaticiens, statisticiens, biologistes)
Est-il judicieux de mettre tous les moyens sur 1 ou 2 gros centres ? Quelle infrastructure pour quelle(s) problématique(s) ?
Bilan des réflexions intermédiaires
3ème étape: Prospective en termes d’organisation (1/4)
Quels sont les pièges à éviter ?
Les données: qu’est-ce qui doit être gardé à l’INRA (spécifique) ? Partagé avec d’autres organismes?
Comment favoriser les lieux d’interdisciplinarité ?
Ne doit-on prendre en considération que les spécificités de l’INRA ?
Comment favoriser la disponibilité et le maintien de l’expertise?
Faut-il regrouper toutes les données dans un centre de données? Unique ? Plusieurs? Où? Pourquoi?
3ème étape: Prospective en termes d’organisation (2/4)
Les données: Quelles données doivent être maintenues par l’INRA? Ou par une structure inter-organismes?
Et pour quelle durée? : stockage, archivage et support
Quelques pièges à éviter ?
Ne pas perdre une expertise
capitaliser en recrutant des CDD
Eviter la saturation des centres attendre 6 mois pour être pris en main…
Distribution des moyens souples et remobilisables
Ne pas se laisser séduire par des coûts expérimentaux bas
3ème étape: Prospective en termes d’organisation (3/4)
Formation continue des biologistes/bio-écoinformaticiens
Transfert de compétences et d'activités (via la formation)
Recrutement de permanents
Sélection des projets
On peut jouer sur les leviers suivants en termes de fonctionnement
3ème étape: Prospective en termes d’organisation (4/4)
Conclusion
Périmètre de la mission: données « omiques » et/ou « non-omiques » ?
Composition du groupe de travail
Méthode et questions principales
Sous-groupes ?
Aspects informatiques biologiques bioinformatiques statistiques modélisation
• Internes INRA: L. Bruckler, C. Christophe, O. Le Gall, F. Rodolphe, … • Extérieur INRA: G. Perrière, …
• Membres du CS: …
Conclusion
Quelques membres pressentis…
1ère étape Etat des lieux
2ème étape Comment sont organisés le partage et la diffusion des données à l’INRA?
Comment les chercheurs/ingénieurs vivent cette organisation?
3ème étape Prospective en termes d’organisation
juin
septembre
décembre
Etape 0 Méthode et questions principales
Conclusion
Calendrier (proposition!)