Cloud IFB pour les sciences du vivant · 2018-03-20 · differen@al analysis of RNA-seq data,...

Preview:

Citation preview

GwendolineAndresJocelynBrayetChristopheBlanchetChristopheCaronLoraineGuéguenOlivierInizan

29février–3mars2016

Développementetintégra9ond’applica9onsousGalaxyCloudIFBpourlessciencesduvivant

Forma9onCloudetGalaxy

GildasLeCorguille

AlbanLermine

ValenAnLouxFabienMareuilSandrinePerrinMathieuValade

Présenta9ondelaforma9on

1

2

•  Bonnespra9quesd’intégra9ond’ou9ls

•  dansGalaxy•  SurlecloudIFB

•  Deuxsessionsdeforma9onscomplémentairespourpromouvoirlamiseàdisposi9ond’ou9lsetdepipelinesdéveloppésdanslePIAFranceGénomiqueavecGalaxyetsurlecloudIFB•  12+pipelinesannoncéscommeétantdéveloppésouàdéveloppersousGalaxy

•  Importancedelamiseàdisposi9ond’unpubliclargeàtraversGalaxyetlecloudIFB

Objec9fsdelaforma9on

Formation Galaxy IFB/FG 2016

3

SessionGalaxy

Programme Forma9onCloudetGalaxyIFBpourFranceGénomique-2016 Lundi29-févr Mardi01-mars Mercredi02-mars

08:30 Intégration d’outils / Planemo / Bonnes

pratiques Intégration de son pipeline

10:30 Pause Pause 11:00

Déploiement sur le ToolShed IFB et sur le

Toolshed Main

Bilan de l'intégration des pipelines : partage des problèmes, solutions

11h45 Bilan : Tour de table / Formulaire de satisfaction

12:30 Repas 14:00

Introduction à l'école : Tour de table Présentation générale de

Galaxy Intégration de son pipeline

16:00 Pause Pause

16:30 Installation et intégration d'outils / Planemo Intégration de son pipeline

18:30 Fin de la journée

Formation Galaxy IFB/FG 2016

4

•  Tourdetable

•  AQentesvisàvisdelaforma9on•  Brèveprésenta9ondevotrepipeline

•  Présenta9onduGTGalaxydel’IFBetdesrela9onsavecFranceGénomique

•  Introduc9ongénéraleàGalaxy

•  PremièreincursiondansGalaxy

Introduc9onàlaforma9on

Formation Galaxy IFB/FG 2016

Tour de table

Vosencadrants:GwendolineAndresJocelynBrayetChristopheBlanchetChristopheCaronLoraineGuéguenOlivierInizanGildasLeCorguilleAlbanLermineValenAnLouxFabienMareuilSandrinePerrinMathieuValade

Formation Galaxy IFB/FG 2016

Formation Galaxy IFB/FG 2016

7

•  IFB et al.

•  Since2013!•  3missions:

–  Anima9on–  R&D–  Training

GalaxyTaskForce

Formation Galaxy IFB/FG 2016

8

•  Galaxy Day 2013, 2014, 2015 : 300 people –  Organized with Curie and Pasteur institutes –  Usersession:NGS,metabolomics,chemistry..–  Devsession:«Docker»,Planemo…

•  Hackathon 2015 : 30 developers

•  Galaxy Community Conference –  Oslo 2013, Baltimore 2014 –  and Norwich 2015

•  Representation of the french community (talks…) •  First contacts for GCC 2017

•  Interest of a minimal structuration of community

Anima9on

Formation Galaxy IFB/FG 2016

9

•  IntegraAonToolShed–  50packages–  Laboratory for best practices –  A step before committing to central Tool Shed –  Used for training schools

• 3 best practice guides : quick start, advanced, toolshed •  Tools & workflow examples:

R/&D: IFB/FG collab

SarTools(PasteurInsAtute)H.Varet,J.-Y.CoppeeandM.-A.Dillies,SARTools:aDESeq2-andedgeR-basedRpipelineforcomprehensivedifferen@alanalysisofRNA-seqdata,bioRxiv,2015

→repositorysurToolShedIFB →UsedinAVIESANschool2015

BisulfiteSeq.datapipeline(CCRT)-  DevelopedforSLURM-  CPU/memoryneeds

→Galaxyworkflow:1/mul9-threading2/collecAons

Formation Galaxy IFB/FG 2016

10

•  Galaxy4Bioinforma9cs(3/4days)–  V1(Roscoff),V2(Nantes),V3(Montauban)– Architecture, Tools Integration, Toolshed, API

– ~75students /12 teachers– Highsa9sfac9onrate!

•  NGSwinterschool-AVIESANRoscoff–  Galaxy4Learning:130Students–  Fiqhedi9on:20-25Nov.2016–  GalaxyWG:dedicated(++)taskforce“GalaxyInfrastructureGalaxy”

•  Bestprac9ces&usersguideline•  HighAvailabilityInfrastructure

Training

Formation Galaxy IFB/FG 2016

11

•  MiniG4B(29/02):Galaxy/Cloud/IFB/FG– FranceGénomiquebioinforma9cians–  Toolsintegra9on

•  Best practices •  Using the IFB Integration Tool Shed

–  Bindtothecloudmodule

• Galaxy4Bioinformatics V4 – Lyon (October 2016) – Registration fee – Organized with IFB-CORE training team

Training

Formation Galaxy IFB/FG 2016

12

GalaxyWG

Formation Galaxy IFB/FG 2016

13

Galaxy

Formation Galaxy IFB/FG 2016

14

http://www.genome.gov/sequencingcosts/

Stein Genome Biology 2010, 11:207

« Big Data »

Formation Galaxy IFB/FG 2016

15

Accessibilitédesou9lsdesworkflows

Problèmes

ReproducAbilitédesanalyse

Transparencedesanalyses

Formation Galaxy IFB/FG 2016

16

• Exemple:Projetpilote«1000genomesproject»:– Sériederecommanda9onssurlaprocédured’analyse– 299 ar9cles publiés en 2011 citent le papier « bestprac9ces », 19 sont des projets de re-séquençage avec desdesignexpérimentauxsimilaires.

• 10 u9lisent les ou9ls recommandés de mapping et dedécouvertedevariants.• 4u9lisentleworkflowcomplet.

Malgrél’effortdedescrip9on,chacunsonpipeline!

Pourquoi?• Les«NGS»évoluent:séquenceurs,ou9lsd’analyse• Complexitédesanalysesetdesworkflows• Accessibilitédesworkflows

Reproduc9bilité

Formation Galaxy IFB/FG 2016

17

• Scripts«maison»nondistribués,malexpliqués:

• Ou9lsprécisés,sans laversionni lesparamètres.Sur50papiersu9lisant bwa en 2011, 31 ne citent pas sa version et sesparamètres(et26nedonnentpasaccèsauxdonnées).

• Moinsde50%desanalysesdemicro-arrayspubliéesdansNatureGene@csen2009sontrépétables.

Mat & Met Reproduc9bilité

Formation Galaxy IFB/FG 2016

18

• Données,méta-données.CommentréuAliserlesdonnées?

Mat&Met

Transparence

Formation Galaxy IFB/FG 2016

19

Pourtant la reproducAbilité est à la base de ladémarchescien9fique…

Nature 496, 398 (25 April 2013)

ProblèmecriAquedereproducAbilité

Formation Galaxy IFB/FG 2016

20

Ou9lsdeconstruc9onetd’exécu9ondeworkflowsquipermeQentderejoueruneanalyse:

– Mobyle– Taverna– Kepler– …– Galaxy

QuellessoluAons?

• Développédepuis2005par– Penstateuniversity– Emoryuniversity

• Reprendlesbonnesidéesdesou9lsprécédents• Orientécommunauté,partageetreproduc9bilité

Accessibilité Reproductibilité Transparence

Formation Galaxy IFB/FG 2016

21

ObjecAfs:– «democraAzaAonofbiomedical computa9on so thateven the smallest research unitswithmodest budgetsare capable of carrying out analyses using appropriatetoolsinareproduciblefashion»

Environnement pour réaliser et enregistrer desanalyses.

Permet l’u9lisa9on ou l’inclusion des ces analysesdansdespublica9ons.

ReproducAbilité

Formation Galaxy IFB/FG 2016

22

Pas besoin de programmer ou d’apprendre àmanier la lignedecommande,deconnaître lesdétailsd’implémentaAond’unou9l

Interface unifiée d’obten9on et d’analyse dedonnéesgénomiques(ouautres)

Accessibilité

Formation Galaxy IFB/FG 2016

23

PortailGalaxy

Formation Galaxy IFB/FG 2016

24

Portail Galaxy

Formation Galaxy IFB/FG 2016

25

• Capturerautoma9quementlesméta-données:– provenancedesdonnées– paramètresetenchainementsdesou9ls

• Enregistrer les jeux de données et les résultatsintermédiaires• Fournir les ou9ls dedocumentaAon (annota9ons, tags)etdepartagedesanalyses

– métadonnées:«cequiaétéfait»– annota9ons:«pourquoicelaaétéfait»

ReproducAbilité

Formation Galaxy IFB/FG 2016

26

Chaque analyse peut être rejouée,extraite sous forme de workflow etpartagée

Les workflows peuvent et doiventégalementêtreannotés

ReproducAbilité

Formation Galaxy IFB/FG 2016

27

Les jeux de données, historiques d’analyses etworkflowspeuventêtrepartagés:

– import/exportdel’ensembledel’analyse– partageentreu9lisateurs– mise à disposiAon publique sur uneinstancedeGalaxy

Une analyse peut êtredocumentée sous formede«Galaxypage»

Transparence

Formation Galaxy IFB/FG 2016

28

Page Galaxy : page web permeQant ladocumenta9oncomplèted’uneanalyse

– Textelibre(avecéventuellementdesfigures)– Inclusion des jeux de données, historiqued’analyseetworkflows– Mécanismed’import permeQant de rejouerl’ensemble de l’analyse sur les donnéesfournies

Transparence

Formation Galaxy IFB/FG 2016

29

Pages Galaxy

Formation Galaxy IFB/FG 2016

30 Formation Galaxy IFB/FG 2016

•  Donnéesbrutesmisesàdisposi9onssurSRA

•  Donnéesprimairesmisesàdisposi9onsurGigaDB,avecunDOIassocié.

GigaDB

31

Galaxyoffreunesolu9oncomplèteetaccessiblepourfavoriserl’accessibilitédesanalysesbioinforma9quesàunpublicnonexpert.LatransparenceetlareproducAbilitésontégalementfavorisées,maisilrestedesproblèmes:• Ges9onfineethomogénéiséedesversionsdelogiciels• Conserva9ondesdonnéeslorsdesmisesàjour• …

Conclusion

Formation Galaxy IFB/FG 2016

32

PagewebdeGalaxy:hQp://galaxyproject.org/– Usegalaxy:galaxy-central– Getgalaxy:distribu9on(installlocale,cloud)– Learngalaxy:tutorials,screencast– Getinvolved:mailinglistsandwiki

HowtociteGalaxy:hQps://wiki.galaxyproject.org/Ci9ngGalaxyPublicaAons:NekrutenkoA,TaylorJ:Next-genera9onsequencingdatainterpreta9on:enhancingreproducibilityandaccessibility.NatRevGenet2012,13:667–672.GoecksJ,NekrutenkoA,TaylorJetal:Galaxy:acomprehensiveapproachforsuppor9ngaccessible,reproducible,andtransparentcomputa9onalresearchinthelifesciences.GenomeBiol2010,11:R86.

Références

Formation Galaxy IFB/FG 2016

Environnement de travail

Formation Galaxy IFB/FG 2016

34

Laforma9onsedéroulerasurunemachinevirtuelleprévupourfonc9onneravecVirtualBox.Pré-requispourvotrepostedetravail:•  VirtualBox4.3.28minimum•  ConnexionInternet

Lamachinevirtuelleaétépré-configuréepourlaforma9on:• EnvironnementLinuxCentOS6.6• Guestaddi9oninstallée

MachineVirtuelle

Formation Galaxy IFB/FG 2016

35

Unensembled’ou9lsontétépré-installéssous/usr/local:• Python2.7.2

–  iPython2.3.0–  Bioblend0.6.1

• Ou9lsBioinfo–  BLAST+2.2.28–  MEME7–  SAMTOOLS–  Phylip

• R3.1.1+modules

Environnementlogiciel

Formation Galaxy IFB/FG 2016

36

Uncompteunique:

• Iden9fiant:galaxy(adminGalaxy:galaxy@localhost.fr)• Motdepasse:azerty• Homedir:/usr/local/galaxy• Disposedesdroitsadministrateurs(sudo)

Session

Formation Galaxy IFB/FG 2016

37

• ImportezlaVMdansVirtualBoxàl’aidedel’ou9lFile>ImportAppliance

•  DémarrezlaVM•  Ouvrezunesessionavecl’iden9fiantgalaxyMotdepasse:azerty

• OuvrezunTerminalencliquantsurl’icône

• Lancezlacommandesudo whoami Résultat:root

PremierlancementdelaVM

Formation Galaxy IFB/FG 2016

Installation

Formation Galaxy IFB/FG 2016

39

VousêtesprêtàlancervotreinstanceGalaxy!LancezleserviceGalaxyLefichierrun.shréaliseplusieursopéra9onspermeQantd’ini9aliservotreenvironnementGalaxyavecdesparamètrespardéfaut:1.  Ilsourcevotreenvironnementvirtuelpython(pardéfault.venv)2.  Ilrécupèrelespackagespythonnécessairesaufonc9onnementdeGalaxy(eggs)3.  Ilini9aliselesfichiersdeconfigura9onspardéfaut4.  Ilini9aliselabasededonnées(pardéfautSQLlite)Aprèsuneoudeuxminutesd’iniAalisaAon,vouspouveztesterl’applicaAonvial’URL:hdp://localhost:8080/

PremierdémarragedeGalaxy

[galaxy]$ sh run.sh

Formation Galaxy IFB/FG 2016

40

Chargezdansvotrehistoriquelefichier/usr/local/galaxy/galaxy/test-data/1.tabular 1.  Cliquezsurl’ou9lGetData/UploadFile2.  CliquezsurChooselocalfile3.  Sélec9onnezlefichier/usr/local/galaxy/galaxy/test-data/1.tabular 4.  CliquezsurStart5.  Lorsquelechargementestterminé,cliquezsurCloseUAlisezunouAldemanipulaAondetextepourchangerlacassedelatroisièmecolonnedecedataset1.  Cliquezsurl’ou9lTextManipulaAon/Changecase2.  VérifierquelachampFrompointeversledatasetquevousvenezdecharger3.  Indiquezlavaleurc3pourlechampChangecaseofcolumns4.  CliquezsurExecuteUnnouveaudatasetaétécréédansvotrehistorique

Lancerunjob

Formation Galaxy IFB/FG 2016

Configuration Organisation générale des fichiers

Formation Galaxy IFB/FG 2016

42

-  config:Con9entlesdifférentsfichiersdeconfigura9ons-  tools:Con9entlesou9lsetwrappers-  tool-data:Con9entlesdescripteursdedonnées(fichier.loc(“loca9on”)).

Lalistedesgénomesdisponiblesestàrenseignerdansshared/ucsc/builds.txt-  staAc:Con9entlestyleetlespagesHTML.

Pourpersonnaliserlapaged’accueil,onpeutmodifierlescriptstaAc/welcome.html

-  database:Con9entlesdonnéesdesu9lisateurs-  logs:Con9entlesfichiersdelogscréésàchaquestop/start/restartdel’instance.

Organisa9ongénéraledesrépertoires

Formation Galaxy IFB/FG 2016

43

-  Lesprincipauxfichiersdeconfigura9onsetrouventdanslerépertoireconfig.

galaxy.ini:configura9ongénéraledel’instancetool_conf.xml:configura9ondesou9lsdisponiblestool_sheds_conf.xml:configura9ondestoolshedaccessibledepuisvotreinstanceshed_tool_conf.xml:config.desou9lsdéployéssurl’instanceviauntoolsheddatatypes_conf.xml:déclara9ondesdifférentstypesdedonnéesjob_conf.xml:déclara9ondesressourcesdecalcul(queue,mémoire…)

Lesfichiersdeconfigura9on

Formation Galaxy IFB/FG 2016

44

Fichierdeconfigura9on.iniorganiséensec9ons:

•  [server:main]:configura9onduserveurdedéploiement(hostetport)•  [app:main]:configura9ondel’applica9onGalaxy•  Répertoiresdetravail:filesetdirectories,loggingetdebugging,users,securité.

•  Basededonnées:..Nousvouslaisseronsdécouvrircefichier.

galaxy.ini

Formation Galaxy IFB/FG 2016

Configuration Interface d’administration

Formation Galaxy IFB/FG 2016

46

-  Ges9ondesu9lisateurs,groupesetrôles

-  Ges9ondesdonnéeset

deslibrairiespartagées-  Ges9ondesquotasd’espace

disque

-  Visualisa9ondesdatatypesetdatatables

-  Relanced’unou9lindividuelaprèsmodifica9onduwrapperXMLd’unou9l

-  Ges9ondesjobsencours

-  Ges9ondestoolsheds:

installa9ond’ou9lviatoolshed

Galaxy:Modeadmin

Formation Galaxy IFB/FG 2016

Configuration Tracer les erreurs

Formation Galaxy IFB/FG 2016

48

Visualiser le chemin exact de chaque dataset depuis l’interface web Les administrateurs de la plate-forme peuvent visualiser le chemin exact d’un dataset directement depuis l’interface web de Galaxy

Tracerleserreurs

Formation Galaxy IFB/FG 2016

49

Consulter le debug d’un outil depuis l’interface web Relancer l’outil Change case en indiquant une valeur incorrecte pour le champ Change case of columns (par exemple 0.5)

Tracerleserreurs

Visualiser le log d’erreur de l’outil Consulter les informations détaillées concernant l’execution du job

Formation Galaxy IFB/FG 2016

50

Consulter le debug d’un outil depuis l’interface web

Tracerleserreurs

Log de la sortie standard de la commande exécutée

Log de la sortie d’erreur de la commande exécutée

Code de sortie de la commande exécutée

Commande exécutée

Formation Galaxy IFB/FG 2016

51

Consulterleslogsdel’instanceUnfichierdelogestgénérépourchaquehandlerdevotreinstancedansvotrerépertoiregalaxy.Vouspouvezsuivreentempsréelleslogsdevotreinstancegraceàlacommandetail -f Lamiseenplaced’unhandlerdédiéàl’exécu9ondesou9lspermetdetracerplusfacilementleserreursliéesàl’exécu9ond’unou9l.

Galaxy:Installa9on

[galaxy]$ tail -f main.log

[galaxy]$ tail -f job.log

Formation Galaxy IFB/FG 2016

52

Conserverlestracesd’exécuAond’unjobPardéfaut,Galaxysupprimetouteslestracesd’exécu9ond’unjob,quecelui-ciaitréussiounon.Lesinforma9onsconsultabledepuisl’interfacewebsontstockéesenbasededonnées,maistouslesfichiersintermédiairesgénérésparlejobsontsupprimés.Pourconserverlesfichierscréésparl’exécu9ondujobdansvotredossierjob_working_directorylorsqu’unjobs’estterminéenerreur,vouspouvezmodifierl’op9oncleanup_jobdansvotrefichiergalaxy.ini.

Galaxy:Installa9on

# Clean up various bits of jobs left on the filesystem after completion. These # bits include the job working directory, external metadata temporary files, # and DRM stdout and stderr files (if using a DRM). Possible values are: # always, onsuccess, never

cleanup_job = onsuccess

Formation Galaxy IFB/FG 2016

53

Mercipourvotreécoute.

FIN

Formation Galaxy IFB/FG 2016

Recommended