22
LePˆoleRhˆ one-Alpes (Auvergne) de Bioinformatique Guy Perri` ere Laboratoire de Biom´ etrie et Biologie Evolutive UMR CNRS 5558 Universit´ e Claude Bernard – Lyon 1 18 octobre 2016 Guy Perri` ere (LBBE) Galaxy4bioinformatics 18 octobre 2016 1 / 22

Le Pôle Rhône-Alpes (Auvergne) de Bioinformatique · Utiliser Map/Reduce (Hadoop) : {N ecessite une infrastructure d edi ee. {Installation et con guration de composants logiciels

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Le Pole Rhone-Alpes (Auvergne) de Bioinformatique

Guy Perriere

Laboratoire de Biometrie et Biologie EvolutiveUMR CNRS 5558

Universite Claude Bernard – Lyon 1

18 octobre 2016

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 1 / 22

Origine et structure

Presentation

Origine remontant a 1998 avec la mise en place du Pole Bio-informatique Lyonnais (PBIL) :

• Une composante PBIL-Doua (equipes du LBBE) et une composantePBIL-Gerland (equipes de l’IBCP).

Evolution en PRABI suite a un financement par l’intermediaired’un Contrat de Plan Etat-Region (2000-2006) :

• Construction de locaux propres, dedies a la bioinformatique.

Structure labellisee RIO (Reseau Inter Organismes) puis IBiSA(Infrastructures Biologie-Sante et Agronomie).

Membre du Reseau National des plateformes en Bioinformatique(ReNaBi) puis de l’Institut Francais de Bioinformatique (IFB).

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 2 / 22

Origine et structure

Composantes PRABI

Au nombre de sept depuis fevrier 2016, avec un responsablescientifique pour chacune d’entre elles :

• PRABI-Doua (Guy Perriere).• PRABI-AMSB (Guy Perriere).• PRABI-Gerland (Raphael Terreux).• PRABI-HCL (Pascal Roy).• PRABI-Grenoble (Alain Viari).• INCa/SLC (Alain Viari).• AuBi (Pierre Peyret).

Autonomie financiere complete de chacune des composantes.

Un directeur scientifique (Guy Perriere, depuis mai 2010).

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 3 / 22

Origine et structure

Plateformes de services associees

PRABI-AMSB (Analyse et Modelisation de SystemesBiologiques) :

• Genomique comparative, metagenomique, transcriptomique, reseauxd’interactions, phylogenie.

PRABI-HCL (Hospices Civils de Lyon) :• Biostatistiques medicales.

SLC (Synergie Lyon Cancer) :• Genomique et transcriptomique du cancer.

AuBi (Auvergne Bioinformatique) :• Genomique comparative, metagenomique, phylogenie.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 4 / 22

Origine et structure

Equipes de recherche associees

Laboratoire Equipe Acronyme

LBBE Bioinformatique, Phylogenie et Genomique Evolutive BPGEStatistique en Grande Dimension pour la Genomique SGDP

Ecologie Quantitative et Evolutive des Communautes EQEC

Elements Transposables, Evolution, Populations ETEPBaobab BaobabBiostatistiques – Sante BS

Sexe et Evolution SEBF2I Genomique Fonctionnelle des Interactions Trophiques GFITIBCP Structures et Interactions SI

Biocristallographie et Biologie Structurale BBSCTdes Cibles Therapeutiques

LECA Mathematiques et Algorithmique pour l’Etude MAEBde la Biodiversite

INRIA-RA Modelisation, Simulation, Analyse Experimentale et IBISControle de Reseaux de Regulation Bacteriens

IRTSV Bioinformatique Moleculaire BMINCa Synergie Lyon Cancer SLC

Quatorze equipes appartenant a sept laboratoires/instituts

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 5 / 22

Origine et structure

Membres du Conseil Scientifique

LBBE :• Stephane Dray.• Manolo Gouy.• Daniel Kahn.• Guy Perriere.• Pascal Roy.• Marie-France Sagot.• Bruno Spataro.

IBCP :• Gilbert Deleage.• Raphael Terreux.

IFB :• Christophe Blanchet.

AMSB :• Vincent Navratil.

LECA :• Eric Coissac.

INRIA-RA et INCa/SLC :• Alain Viari.

BF2I :• Hubert Charles.

IRTSV :• Yves Vandenbrouck.

AuBi :• Pierre Peyret.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 6 / 22

Activites

Activites de recherche

Ecologie, génétique des populations

Protéomique BM

Structure des protéines

SI BBSCT

Génomique Biostatistiques

Métabolomique et réseaux

BPGE Baobab

IBIS

SLC

ETEP

BS

EQEC

MAEB SE

vennprabi

SGDG

Santé GFIT

Diagramme de Venn des activites de recherche

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 7 / 22

Activites

Activites de formation

Assurees par l’ensemble des cinq composantes.

Implication dans differentes formations initiales, a tous les niveaux(DUT, L3, M1, M2 et Doctorat).

Formations continues (une quinzaine chaque annee) :• Biostatistiques medicales.• Initiation et perfectionnement a R.• Initiation et perfectionnement a ADE-4.• Analyse de sequences.• Analyse des donnees RNA-Seq.• Phylogenie moleculaire.• Structure des proteines.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 8 / 22

PRABI-AMSB

Presentation

Plateforme de l’Universite Claude Bernard – Lyon 1 (UCBL)rattachee a la FR Bio-Environnement et Sante (BioEnviS).

Activites de services, de formation et de recherche en bio-informatique.

Domaines d’expertise :• Assemblage de genomes.• Analyse de donnees RNA-Seq et ChIP-Seq.• Metagenomique et metatranscriptomique.• Genomique comparative.• Phylogenie moleculaire.• Reseaux metaboliques.• Bases de donnees.• Biostatistiques.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 9 / 22

PRABI-AMSB

Services proposes

Valorisation et transfert de la recherche en bioinformatique vers labiologie.

Conseils et services en bioinformatique et biostatistiques.

Construction, hebergement, maintenance et acces a des bases dedonnees.

Developpement et mise a disposition d’outils d’analyse.

Accompagnement de projets scientifiques :• Participation a la mise en place des protocoles experimentaux.• Participation a la redaction des demandes de financement.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 10 / 22

PRABI-AMSB

Personnels permanents

Dominique Guyot (IE UCBL) :• Parallelisation des calculs, calculs hautes performances bases de

donnees, service Galaxy.

Christine Oger (IR UCBL) :• Analyse de donnees d’expression, genomique bacterienne et

vegetale, metagenomique, service Galaxy.

Vincent Navratil (IR UCBL) :• Analyse de donnees d’expression, genomique et transcriptomique

virale, service Galaxy.

Philippe Veber 1 (IR CNRS) :• Regulation transcriptionnelle, reseaux de genes.

1. Mi-temps LBBEGuy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 11 / 22

PRABI-AMSB

Biosciences & Co

Entreprise privee de formation continue specialisee dans ledomaine des biosciences.

Aide a l’organisation de formations pour les composantesPRABI-AMSB, PRABI-Gerland et INCa/SLC.

Contact : Jean-Francois Prost ([email protected]).

www.biosciencesco.fr

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 12 / 22

PRABI-AMSB

ViroScan3D

Societe de services specialisee en genomique au service del’infectiologie.

Issue de ProfileXpert, une plateforme de sequencage de l’UCBL.

Contact : Catherine Lachuer([email protected]).

www.viroscan3d.com

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 13 / 22

PRABI-AMSB Service Galaxy

Infrastructure

Dell PowerEdge R920 RackServer :• 48 CPU (96 threads).• 15 To disque.• 512 Go RAM.

Deux VM disponibles :• galaxy.prabi.fr :

– Machine de production et de developpement.

• toolshed.prabi.fr :– Depot mercurial d’outils bioinformatiques.– Wrappers valides par le PRABI.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 14 / 22

PRABI-AMSB Service Galaxy

Developpement de wrappers

Outils developpes dans le perimetre du PRABI :• priam_search (D. Kahn).• kissplice, kissDE (V. Lacroix, A. Julien, C. Marchet).• paraload (D. Guyot).• TETools (L. Modolo, E. Lerat, C. Vieira).• SexDetector (A. Muyle, G. Marais).• RNASeqpower (V. Navratil).

Formation Galaxy4bioinformatics (novembre 2014) suivie par DGet CO.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 15 / 22

PRABI-AMSB Service Galaxy

Support technique

Mise en place d’une charte utilisateurs.

Liste de diffusion utilisateurs :• [email protected]• Enregistrement obligatoire.

Installation d’outils, gestion des quotas :• [email protected]

Guide d’utilisation et des bonnes pratiques :• www.prabi.fr/redmine/projects/galaxy-user/wiki

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 16 / 22

PRABI-AMSB Service Galaxy

Bilan des formations

Utilisation principalement pour des formations a l’analyse dedonnees RNA-seq et ChIP-seq.

Formation recurrente d’une demi-journee d’introduction al’utilisation (membres de la FR BioEnviS).

Plus de 10 formations inter ou intra sur la periode 2010-2016 :• > 200 biologistes formes.• Une formation internationale en 2014 (EMBnet).

Integration dans la liste du Galaxy Training Network (GTN) :• wiki.galaxyproject.org/Teach/Trainers

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 17 / 22

PRABI-AMSB Paraload

Repartition de charge (load balancing)

Ensemble de techniques permettant de distribuer une charge detravail entre differents ordinateurs.

• Tres utilise pour les services web, on cherche alors a assurer laqualite du service en redirigeant les requetes vers differents serveurs.

• Dans le cas du calcul on veut simplement terminer le traitement leplus vite possible.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 18 / 22

PRABI-AMSB Paraload

Application aux problemes calculatoires

Probleme frequemment rencontre lorsque l’on fait de laparallelisation par les donnees :

• En fonction des taches qui lui sont confiees, un thread peut avoirfini son travail bien avant un autre.

Solutions :• Utiliser Map/Reduce (Hadoop) :

– Necessite une infrastructure dediee.– Installation et configuration de composants logiciels fastidieuse.

• Utiliser un programme MPI qui distribue les calculs :

– Le nombre de processus est determine au debut et ne peut pasvarier.

– Sensible aux pannes (coupure de courant, disque dur).

• Utiliser des programmes specifiquement dedies a ce probleme :

– Flexibilite.– Gestion des interruptions.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 19 / 22

PRABI-AMSB Paraload

Developpement de Paraload

Developpe initialement dans la perspective de la mise a jour deProDom.

S’est tres vitre retrouve employe pour de nombreuses autresapplications !

Application reseau qui utilise des connexions TCP/IP pour fournirun service de repartition de charge :

• Modele client/serveur avec client lourd (c’est le client qui effectueles calculs).

• Le client qui demande au serveur du travail.• Le serveur distribue du travail tant qu’il reste des calculs a faire.• Il peut y avoir des milliers de clients qui vont faire les calculs en

parallele.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 20 / 22

PRABI-AMSB Paraload

Fonctionnement de base

>KC_5966119 MKAEAESVSACC

>KC_5966117 MFLNKAPNTLR

>KC_5966274 MVANDENYALAA

>KC_5966107 MEMNDFSFQSEF

>KC_5966112 MNQSVDTFPYDR

>KC_5966124 MVVGKAAYLLEL

>KC_5966267 MNTKMLCNQSIN

>KC_5966190 MLAGLLFVLILE

>KC_5966185 MAFRPHGKHNES

>KC_5966273 MSASGSNSAALV

>KC_5966119 MKAEAESVSACC

>KC_5966117 MFLNKAPNTLRN

>KC_5966273 MSASGSNSAALV

>KC_5966185 MAFRPHGKHNES

Hits KC_5966119

Hits KC_5966117

Hits KC_5966185

Hits KC_5966273

Hits KC_5966119 …

Hits KC_5966117 …

.

.

.

.

.

.

.

.

.

.

.

.

.

Hits KC_5966185 …

Hits KC_5966273 …

Le serveur découpe les données et les envoie aux clients

Les clients effectuents les calculs

0

25

49

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

parablast

Le serveur récolte les données calculées et les empile sur la sortie

BLAST

BLAST

BLAST

BLAST

Entrée Sortie Index

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 21 / 22

Pour finir

Partenaires et organismes financeurs

Guy Perriere (LBBE) Galaxy4bioinformatics 18 octobre 2016 22 / 22