Journées Bioinformatique des génopoles – Lyon -Octobre 2003
OUEST Genopole®
J. Nicolas IRISA / Inria Rennes
Assisté de O. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
OUEST-Génopole® : un réseau de 54 unités de recherche
10 CNRS 2 IFREMER 16 INRA 13 INSERM 1 INRIA 1 AFSSA 11 unités de recherche des Univ. d'Angers, Brest, Nantes et Rennes)2000 personnes dont 800 chercheurs
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Une histoire récente
Juillet 2000 : Dépôt dossier Génopole Ouest au ministère
Mars 2001 : Expertise sur site de la génopole
Janvier 2002 : Labellisation OUEST-Genopole®
CDDs plate-forme bioinformatique génopole
Septembre 2002 : recrutement 1 an de E. Morin
+recrutement 2ans de E. Kabore (CDD région)
Juillet 2003 : recrutement 1 an de A.-S. Valin
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
OUEST-Génopole® : organisation
Composantes Mer – Agronomie – Santé – BioInformatique
Cinq plates-formes technologiques- Séquençage/Génotypage- Transcriptome- Protéome- Exploration fonctionnelle- Bio-informatique
Groupement d'intérêt scientifique (GIS) en 2002
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Les plates-formes OUEST-Génopole
Séquençage
Biopuces
Protéomique
Exploration fonctionnelle
Génotypage
Bioinformatique
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Chaine d’élaboration des connaissances
Données brutesDonnées élaborées
Information
Connaissances
Informatique - BioInformatique
Stockage Calcul Gestion
RéponsesHypothèses
Biblio
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Interactions inter-plate-formes : un modèle 3-tiles
Autre Plate-forme
Plate-forme Bio-Informatique
OutilsProduction
Analyse
ExploitationDonnées
brutes
StockageArchivage
Donnéesélaborées
Gestion
Domaine deRecherche
bioinfo
Méthodes
Prototypes
StockageArchivage
Gestion
Veilleoutilsproblèmes
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Logithèque, bases Service web Sécurisation
Ressources informatiques de la plate-forme
• Communications• Calcul distribué Fusion de la puissance de calcul: GénoGRID
Calcul
Réseau
SunFire 6800SunFire 12000Cluster PC40 procs + 10
Nantes
Angers
Rennes
Roscoff
Brest
SunFire 480012 procs
Cluster Compaq36 procs
Pôle de calcul intensif de l'Ouest
Pôle de calcul pour la Mer
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Parallélisme et architectures pour la génomique
• Motivation– le volume des données génomique double approximativement tous les ans
(plusieurs centaines de T bytes en 2010)
– la puissance des ordinateurs double tous les 18 mois (loi de Moore)
Les temps de calcul augmentent et, pourcertaines applications, devenir pénalisant ex : base de données ProDom - en 2001 = 31 jours de calcul - en 2002 = 64 jours de calcul
solutionsNouvelles méthodes algorithmiquesUsage des machines parallèlesDéveloppement de machines spécialisées
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Parallélisme• Projet GénoGRID (resp. D. Lavenier)
– une grille expérimentale pour la génomique– objectif : mutualiser les ressources (banque de données, machines) sur des
calculs intensifs– deux niveaux de parallélisation
• grille = plusieurs nœuds• nœuds = machines parallèles
» cluster de PC
» supercalculateurs – applications :
• repliement des protéines• comparaison génomes• détection de séquences répétées
Roscoff
Rennes
Brest
Lille
Angers
Rouen
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Architecture
• Exploration rapide des banques de données– mise en parallèle d’une batterie de disques– filtrage à la volée de l’information stockée sur disque
Scan du génome humain en moins d’une seconde
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Les acteurs de la bioinfo dans l’Ouest
Roscoff
Brest
Rennes
NantesAngers
Organisme porteur:IRISA / INRIA - Rennes
Responsables
O. Collin Roscoff
H. Leroy Rennes
LERIA
U533
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Le réseau : animation
Comité d’animation
• Relations inter plate-formes• Stratégie domaine bio-informatique
Comité correspondants
• Relations utilisateurs• Mise en place des actions
Laure Berti-EquilleAudrey BihouéeFrançois BrückerOlivier CollinFrançois CosteChristian DelamarcheDidier Flament Marc FerréGuillaume FertinChristiane GuillouzoNathalie GuittonJin-Kao HaoYannick JacquesEsther KaboréGilles LassalleDominique LavenierJean LégerSandrine LaguarrigueHugues LeroyJérôme MikolajczakEmmanuelle MorinFouzia MoussouniJacques NicolasPhilippe PicouetCharles PineauStéphanie PrioulJean-Michel RicherIrèna RusuMichel SamsonAnne SiegelDominique TessierTranh Vin
Responsables plate-forme:
O. Collin (SBR) + pôle Mer, CS Genopole et H. Leroy (Irisa) + système, Genogrid
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Esther Kaboré (sept 2002) Ingénieur bases de données : gérer les comptes et les moyens de stockage sur le serveur du PCIO. ; accès et mise à jour d’un miroir local des principales banques publiques ; Coordination des choix sur chaque site de développement des bases de données proposition d’outils génériques pour le développement de bases de données
spécialisées dans les laboratoires.
Emmanuelle Morin (sept 2002) Ingénieur en bioinformatique : choix, gestion et maintenance des logiciels applicatifs nécessaires en particulier
pour l’étude de génomes complets; développement d’interfaces adaptées à un usage direct par les laboratoires de
biologie des chaînes de traitement logiciel; Proposition de formations sur les outils de la plate-forme; intégration des outils de bio-info produits dans le cadre de la Génopole.
Anne-Sophie Valin (juil 2003) Ingénieur en informatique : développement de la plate-forme de recherche et d'extraction de motifs (thème
bioinfo génopole) veille logicielle dans ce domaine Formation aux outils, aide à l’utilisation.
Postes CDD sur Rennes
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Plan du site de la plate-formePlan du site de la plate-forme
Accueilprésentation
outils
Accès aux outils locaux
Accès à des outils externes
FAQ
Poser une question
Consulter les questions déjà posées
banques
Description des banques présentes sur le serveur
Procédure de rapatriement
Accès outils liés
Stages
Emplois
Formations
Consulter les demandes
Déposer une demande
Accès / Demande
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Outils qui utilisent les ressources de calcul de la plate-formeOutils qui utilisent les ressources de calcul de la plate-forme
Wisconsin package standard
Blast Multiple rare
FastMe rare
GenoFrag exclusif
Plate-forme de recherche exclusif
et découverte de motifs (Smile, Model, Pratt…)
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Genbank : version 137.0 (août 2003)PIR : version 77 (juillet 2003)Swiss-Prot : version 41 (février 2003)
Banques de génomes :- 10 génomes eucaryotes- Beaucoup de génomes bactériens
Mise à jour régulièreDéveloppement de banques à façonRsync: mise à jour des sites distants (Ifremer, Roscoff)
Les banques de données publiques
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Quelques bases de données de la génopole
• INSERM Rennes : Entrepôt de données « foie »• GERM Rennes : base fédérée Expasy, base de donnée « Reproduction », base de données défensines• INSERM Nantes/Rennes : base de données biopuces• CNRS Rennes : base de données «canaux membranaires »
• INRA : Agena• INRA : Stressgenes
• CNRS Roscoff : Génomer base de données EST
Santé
Agro
Mer
Structuration initiale par domaine puis ouverture progressivePoint clé: sécurisation des donnéesHarmonisation des approches, développement d’outils communs
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Exemple d’utilisateur de la plate-forme :Identification et Cartographie de 10,000 gènes
canins
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
|================ [ 35 35 35 38 35] (mk_35) EST7A10# 22|==================== [ 33 33 33 33 33] (mk_33) EST3C10-B# 53|================ [ 13 13 13 35 13] (mk_13) BAC_375-K3# 39|================ [ 12 12 12 13 12] (mk_12) BAC_375-F13# 22|======== [ 6 6 51 12 70] (mk_6) BAC_372-E22# 22|============ [ 70 70 70 6 51] (mk_70) VCAM1 54|============ [ 51 51 6 51 6] (mk_51) FH3445# 54|================ [ 48 48 48 70 48] (mk_48) FH3246# 39|================ [ 36 36 36 48 36] (mk_36) FH2119 39|================ [ 28 28 28 36 28] (mk_28) EST17G5# 23|================ [ 34 34 34 28 34] (mk_34) EST4F4-B# 39|================ [ 49 49 49 34 49] (mk_49) FH3282# 39|================ [ 26 26 26 49 26] (mk_26) EST14G8#
TSP variant maps
MLE OCB Mk_#
Consensus map
Mk_Name
Cartographie sur hybrides irradiés : ordonnancement des marqueurs par approche TSP (Hitte et al. J. Hered 2003)
80 100%0 20 40 60
0 20 40 60 80 100%
Phase d’Analyse :Ordonner 100 marqueurs1/2 h (- 5 CPUs PCIO-IDEFIX)
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
5909 Dog Sequences
BLASTn et/ou MegaBLAST (PCIO-IDEFIX / gcg - Wisconsin package)
Orthologue humainStructure de l’aligtCoord. génomique
Orthologue murinStructure de l’aligtCoord. génomique
Primer4.prog
Analyses des Séquences
Alignement séquences :BLAST ~16h x 2 (human/mouse)MegaBLAST ~80 hPCIO-IDEFIX -5 CPUs-
GENE92 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE93 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE94 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE95 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE96 tigr_Chr1 Ren_Chr7 MMU-Chr6 GENE97 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE98 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE99 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE100 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE101 tigr_Chr1 Ren_Chr1 MMU-Chr4
DogSeq# Chr Gene Start End 1 Chr1 ENSG00000174633 594410 5975981 Chr1 ENSG00000174633 594410 5975981 Chr1 ENSG00000174633 594410 5975982 Chr1 ENSG00000127055 708136 7440032 Chr1 ENSG00000127055 708136 744003
Définition d’amorces :~6h-5 CPUs- (PCIO-IDEFIX)
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Exemple de développement au niveau d’une plate-forme bio http://www.madtools.org
Ouest Génopole. IFR 26 INSERM U.533
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Numerical processingNumerical processing
KDKD
Database•Probes & targets
•Gene sequences
•Array data
Database•Probes & targets
•Gene sequences
•Array data
MADTOOLSMicroarray Data Tools
http://cardioserve.nantes.inserm.fr/mad/
DatabaseDatabase
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
From Gene Expression Results to Literature Data
Experimental Clusters
Bibliographical Clusters
GO Functional ClusterWhat co-expressed genes perform similar functions?
What genes are co-citated in literature?
What co-citated genes perform similar functions?
Ouest Génopole. IFR 26 INSERM U.533
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Exemple de demande de service ayant conduit à une collaboration puis au développement d’un outilLogiciel de Recherche d'Amorces Optimisées pour l’amplification de Chromosomes Bactériens par PCR Longue Portée
• Nouri BEN ZAKOUR Laboratoire de Microbiologie UMR1055
INRA ENSAR
• Dominique LAVENIERIRISA / CNRS - équipe Symbiose
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Amorce sens Amorce antisens
Comparaison des différents profils= Informations sur la plasticité
Approche PCR2
PCR
~10Kb
Souche de référence
Souche non séquencée
~10Kb
PCR
Profil d'amplification
Insertions Délétions
10Kb
Même jeu d'amorces
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Validation biologique
2 régions de 2 régions de N315 N315
amplifiées par amplifiées par LR-PCRLR-PCR
BB
AA
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Esther Kaboré
Didier Flament
Bases de données spécialisées
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Recherche de motifs et de signatures
Cynthia AllandEmmanuelle MorinAnne-Sophie Valin
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Les actions de formation
Actions de formation
- oct 2001 : GCG- nov 2002 : GCG
Elaboration d'un catalogue
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
L'existant depuis 2000
• DEA GetI • Maîtrise de Biologie• Maîtrise de d'informatique
31 étudiants formés 15 thèses en cours
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Promotion 2003
• 12 étudiants • 6 Biologistes• 6 informaticiens
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
A partir de 2004
• Licence de Biologie et Informatique• Master de bio-informatique
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Le site de OUEST-Génopole®
http://genouest.no-ip.org
Journées Bioinformatique des génopoles – Lyon -Octobre 2003
Perspectives : Une richesse largement inexploitée :Banques de génomes complets
Génomes Eukaryotes: Homo sapiens, Mus musculus, Ratus
Norvegicus, Oryza sativa, Plasmodium falciparum,
Caenorhabditis elegans, Saccharomyces serevisiae, Drosophila
melagongaster, Encephalitozoon cuniculi
Génomes Bactériens: Escherichia coli, Prochloroccocus
marinus, Salmonella typhi, Staphylococcus aureus, vibrio
cholerae, Neisseria meningitidis Yersinia pestis, …
Journées Bioinformatique des génopoles – Lyon -Octobre 2003