Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Le Pole Rhone-Alpes (Auvergne) de Bioinformatique
Guy Perriere
Laboratoire de Biometrie et Biologie EvolutiveUMR CNRS 5558
Universite Claude Bernard – Lyon 1
18 octobre 2016
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 1 / 22
Origine et structure
Presentation
Origine remontant a 1998 avec la mise en place du Pole Bio-informatique Lyonnais (PBIL) :
• Une composante PBIL-Doua (equipes du LBBE) et une composantePBIL-Gerland (equipes de l’IBCP).
Evolution en PRABI suite a un financement par l’intermediaired’un Contrat de Plan Etat-Region (2000-2006) :
• Construction de locaux propres, dedies a la bioinformatique.
Structure labellisee RIO (Reseau Inter Organismes) puis IBiSA(Infrastructures Biologie-Sante et Agronomie).
Membre du Reseau National des plateformes en Bioinformatique(ReNaBi) puis de l’Institut Francais de Bioinformatique (IFB).
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 2 / 22
Origine et structure
Composantes PRABI
Au nombre de sept depuis fevrier 2016, avec un responsablescientifique pour chacune d’entre elles :
• PRABI-Doua (Guy Perriere).• PRABI-AMSB (Guy Perriere).• PRABI-Gerland (Raphael Terreux).• PRABI-HCL (Pascal Roy).• PRABI-Grenoble (Alain Viari).• INCa/SLC (Alain Viari).• AuBi (Pierre Peyret).
Autonomie financiere complete de chacune des composantes.
Un directeur scientifique (Guy Perriere, depuis mai 2010).
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 3 / 22
Origine et structure
Plateformes de services associees
PRABI-AMSB (Analyse et Modelisation de SystemesBiologiques) :
• Genomique comparative, metagenomique, transcriptomique, reseauxd’interactions, phylogenie.
PRABI-HCL (Hospices Civils de Lyon) :• Biostatistiques medicales.
SLC (Synergie Lyon Cancer) :• Genomique et transcriptomique du cancer.
AuBi (Auvergne Bioinformatique) :• Genomique comparative, metagenomique, phylogenie.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 4 / 22
Origine et structure
Equipes de recherche associees
Laboratoire Equipe Acronyme
LBBE Bioinformatique, Phylogenie et Genomique Evolutive BPGEStatistique en Grande Dimension pour la Genomique SGDP
Ecologie Quantitative et Evolutive des Communautes EQEC
Elements Transposables, Evolution, Populations ETEPBaobab BaobabBiostatistiques – Sante BS
Sexe et Evolution SEBF2I Genomique Fonctionnelle des Interactions Trophiques GFITIBCP Structures et Interactions SI
Biocristallographie et Biologie Structurale BBSCTdes Cibles Therapeutiques
LECA Mathematiques et Algorithmique pour l’Etude MAEBde la Biodiversite
INRIA-RA Modelisation, Simulation, Analyse Experimentale et IBISControle de Reseaux de Regulation Bacteriens
IRTSV Bioinformatique Moleculaire BMINCa Synergie Lyon Cancer SLC
Quatorze equipes appartenant a sept laboratoires/instituts
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 5 / 22
Origine et structure
Membres du Conseil Scientifique
LBBE :• Stephane Dray.• Manolo Gouy.• Daniel Kahn.• Guy Perriere.• Pascal Roy.• Marie-France Sagot.• Bruno Spataro.
IBCP :• Gilbert Deleage.• Raphael Terreux.
IFB :• Christophe Blanchet.
AMSB :• Vincent Navratil.
LECA :• Eric Coissac.
INRIA-RA et INCa/SLC :• Alain Viari.
BF2I :• Hubert Charles.
IRTSV :• Yves Vandenbrouck.
AuBi :• Pierre Peyret.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 6 / 22
Activites
Activites de recherche
Ecologie, génétique des populations
Protéomique BM
Structure des protéines
SI BBSCT
Génomique Biostatistiques
Métabolomique et réseaux
BPGE Baobab
IBIS
SLC
ETEP
BS
EQEC
MAEB SE
vennprabi
SGDG
Santé GFIT
Diagramme de Venn des activites de recherche
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 7 / 22
Activites
Activites de formation
Assurees par l’ensemble des cinq composantes.
Implication dans differentes formations initiales, a tous les niveaux(DUT, L3, M1, M2 et Doctorat).
Formations continues (une quinzaine chaque annee) :• Biostatistiques medicales.• Initiation et perfectionnement a R.• Initiation et perfectionnement a ADE-4.• Analyse de sequences.• Analyse des donnees RNA-Seq.• Phylogenie moleculaire.• Structure des proteines.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 8 / 22
PRABI-AMSB
Presentation
Plateforme de l’Universite Claude Bernard – Lyon 1 (UCBL)rattachee a la FR Bio-Environnement et Sante (BioEnviS).
Activites de services, de formation et de recherche en bio-informatique.
Domaines d’expertise :• Assemblage de genomes.• Analyse de donnees RNA-Seq et ChIP-Seq.• Metagenomique et metatranscriptomique.• Genomique comparative.• Phylogenie moleculaire.• Reseaux metaboliques.• Bases de donnees.• Biostatistiques.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 9 / 22
PRABI-AMSB
Services proposes
Valorisation et transfert de la recherche en bioinformatique vers labiologie.
Conseils et services en bioinformatique et biostatistiques.
Construction, hebergement, maintenance et acces a des bases dedonnees.
Developpement et mise a disposition d’outils d’analyse.
Accompagnement de projets scientifiques :• Participation a la mise en place des protocoles experimentaux.• Participation a la redaction des demandes de financement.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 10 / 22
PRABI-AMSB
Personnels permanents
Dominique Guyot (IE UCBL) :• Parallelisation des calculs, calculs hautes performances bases de
donnees, service Galaxy.
Christine Oger (IR UCBL) :• Analyse de donnees d’expression, genomique bacterienne et
vegetale, metagenomique, service Galaxy.
Vincent Navratil (IR UCBL) :• Analyse de donnees d’expression, genomique et transcriptomique
virale, service Galaxy.
Philippe Veber 1 (IR CNRS) :• Regulation transcriptionnelle, reseaux de genes.
1. Mi-temps LBBEGuy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 11 / 22
PRABI-AMSB
Biosciences & Co
Entreprise privee de formation continue specialisee dans ledomaine des biosciences.
Aide a l’organisation de formations pour les composantesPRABI-AMSB, PRABI-Gerland et INCa/SLC.
Contact : Jean-Francois Prost ([email protected]).
www.biosciencesco.fr
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 12 / 22
PRABI-AMSB
ViroScan3D
Societe de services specialisee en genomique au service del’infectiologie.
Issue de ProfileXpert, une plateforme de sequencage de l’UCBL.
Contact : Catherine Lachuer([email protected]).
www.viroscan3d.com
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 13 / 22
PRABI-AMSB Service Galaxy
Infrastructure
Dell PowerEdge R920 RackServer :• 48 CPU (96 threads).• 15 To disque.• 512 Go RAM.
Deux VM disponibles :• galaxy.prabi.fr :
– Machine de production et de developpement.
• toolshed.prabi.fr :– Depot mercurial d’outils bioinformatiques.– Wrappers valides par le PRABI.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 14 / 22
PRABI-AMSB Service Galaxy
Developpement de wrappers
Outils developpes dans le perimetre du PRABI :• priam_search (D. Kahn).• kissplice, kissDE (V. Lacroix, A. Julien, C. Marchet).• paraload (D. Guyot).• TETools (L. Modolo, E. Lerat, C. Vieira).• SexDetector (A. Muyle, G. Marais).• RNASeqpower (V. Navratil).
Formation Galaxy4bioinformatics (novembre 2014) suivie par DGet CO.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 15 / 22
PRABI-AMSB Service Galaxy
Support technique
Mise en place d’une charte utilisateurs.
Liste de diffusion utilisateurs :• [email protected]• Enregistrement obligatoire.
Installation d’outils, gestion des quotas :• [email protected]
Guide d’utilisation et des bonnes pratiques :• www.prabi.fr/redmine/projects/galaxy-user/wiki
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 16 / 22
PRABI-AMSB Service Galaxy
Bilan des formations
Utilisation principalement pour des formations a l’analyse dedonnees RNA-seq et ChIP-seq.
Formation recurrente d’une demi-journee d’introduction al’utilisation (membres de la FR BioEnviS).
Plus de 10 formations inter ou intra sur la periode 2010-2016 :• > 200 biologistes formes.• Une formation internationale en 2014 (EMBnet).
Integration dans la liste du Galaxy Training Network (GTN) :• wiki.galaxyproject.org/Teach/Trainers
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 17 / 22
PRABI-AMSB Paraload
Repartition de charge (load balancing)
Ensemble de techniques permettant de distribuer une charge detravail entre differents ordinateurs.
• Tres utilise pour les services web, on cherche alors a assurer laqualite du service en redirigeant les requetes vers differents serveurs.
• Dans le cas du calcul on veut simplement terminer le traitement leplus vite possible.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 18 / 22
PRABI-AMSB Paraload
Application aux problemes calculatoires
Probleme frequemment rencontre lorsque l’on fait de laparallelisation par les donnees :
• En fonction des taches qui lui sont confiees, un thread peut avoirfini son travail bien avant un autre.
Solutions :• Utiliser Map/Reduce (Hadoop) :
– Necessite une infrastructure dediee.– Installation et configuration de composants logiciels fastidieuse.
• Utiliser un programme MPI qui distribue les calculs :
– Le nombre de processus est determine au debut et ne peut pasvarier.
– Sensible aux pannes (coupure de courant, disque dur).
• Utiliser des programmes specifiquement dedies a ce probleme :
– Flexibilite.– Gestion des interruptions.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 19 / 22
PRABI-AMSB Paraload
Developpement de Paraload
Developpe initialement dans la perspective de la mise a jour deProDom.
S’est tres vitre retrouve employe pour de nombreuses autresapplications !
Application reseau qui utilise des connexions TCP/IP pour fournirun service de repartition de charge :
• Modele client/serveur avec client lourd (c’est le client qui effectueles calculs).
• Le client qui demande au serveur du travail.• Le serveur distribue du travail tant qu’il reste des calculs a faire.• Il peut y avoir des milliers de clients qui vont faire les calculs en
parallele.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 20 / 22
PRABI-AMSB Paraload
Fonctionnement de base
>KC_5966119 MKAEAESVSACC
>KC_5966117 MFLNKAPNTLR
>KC_5966274 MVANDENYALAA
>KC_5966107 MEMNDFSFQSEF
>KC_5966112 MNQSVDTFPYDR
…
>KC_5966124 MVVGKAAYLLEL
>KC_5966267 MNTKMLCNQSIN
>KC_5966190 MLAGLLFVLILE
>KC_5966185 MAFRPHGKHNES
>KC_5966273 MSASGSNSAALV
>KC_5966119 MKAEAESVSACC
>KC_5966117 MFLNKAPNTLRN
>KC_5966273 MSASGSNSAALV
>KC_5966185 MAFRPHGKHNES
Hits KC_5966119
Hits KC_5966117
Hits KC_5966185
Hits KC_5966273
Hits KC_5966119 …
Hits KC_5966117 …
.
.
.
.
.
.
.
.
.
.
.
.
.
Hits KC_5966185 …
Hits KC_5966273 …
Le serveur découpe les données et les envoie aux clients
Les clients effectuents les calculs
0
25
49
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
parablast
Le serveur récolte les données calculées et les empile sur la sortie
BLAST
BLAST
BLAST
BLAST
Entrée Sortie Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 21 / 22