4
Lettre d'information N°26 du 15 mars 2017 – Rédactrice : Claire Hoede h ttp://bioinfo.genotoul.fr/ Cette lettre d'information est destinée aux membres des équipes de recherche utilisant la plate-forme bio-informatique GenoToul. Elle a pour but de vous informer sur les évolutions de l'équipe, les nouveaux outils, services, conditions d'utilisation, projets et formations mis en place. 1/ Les prochains cycles d'apprentissage Nous vous proposons 3 cycles d'apprentissage dans les mois qui viennent (2 sous Galaxy et un en ligne de commande) : A) 2,5 jours de formation à l'alignement et à la détection de variants à partir de NGS sous Galaxy du 9 au 11 mai 2017 Ce cycle d'apprentissage vous est proposé par l'équipe Sigenae. La première journée sera consacrée à la présentation de l'environnement Galaxy, puis à la prise en main de l'instance toulousaine. Suivront ensuite 1,5 jours de formations vous permettant de comprendre les principaux formats de fichiers manipulés, d'apprendre à aligner les reads sur un génome de référence et de détecter SNP et petits indels via la suite GATK. Aucun pré-requis n'est nécessaire. B) 4 jours de formation à la métagénomique 16S et 18S sous Galaxy seront organisés du 3 au 6 juillet 2017 (reste 5 places) Vous avez, ou allez obtenir, des données de métagénomique 16S ou 18S, Miseq ou 454 ? Vous souhaitez les analyser efficacement sans utiliser la ligne de commande ? Les équipes Sigenae, NED (GenPhySE), TWB et Bioinfo Genotoul vous proposent une formation de 4 jours indivisibles sous environnement Galaxy. La première demi-journée sera consacrée, après une initiation à l'environnement Galaxy à la prise en main de l'instance Galaxy Toulousaine. Pendant deux jours vous apprendrez à utiliser le pipeline FROGS dont la description est disponible à l'url : http://bioinfo.genotoul.fr/fileadmin/BIO_INFO_STAT_2015/oral/FROGS_GenotoulBioinfo.pdf . Il est constitué des étapes principales suivantes : nettoyage, clustering, affiliation taxonomique, filtre et statistiques descriptives que nous vous détaillerons. Enfin la dernière journée et demie vous permettra d’interpréter les résultats grâce aux outils statistiques proposés. Pré-requis nécessaire : connaissance de R ou d'un autre langage de programmation pour la partie statistique. C) 3,5 jours de formation à l'analyse bioinformatique et biostatistique des données RNASeq sur génome de référence du 16 au 19 mai 2017 Ce cycle d'apprentissage vous est proposé par les plateformes Bioinfo Genotoul, Biostat Genotoul, l'équipe Sigenae et l'unité MIAT. Après un bref rappel sur l'environnement Unix et l'utilisation du cluster nous vous présenterons les données RNAseq. Nous discuterons notamment des plans d'expérience et des biais des différentes technologies de séquençage de type NGS. Vous apprendrez à analyser la qualité des données RNAseq et à les nettoyer. Vous effectuerez ensuite l'alignement sur le génome de référence et vous serez en mesure de découvrir de nouveaux gènes ou de nouveaux transcrits. Vous effectuerez ensuite les comptages afin de générer le tableau qui vous servira à mettre en évidence les gènes différentiellement exprimés entre deux conditions. Le dernier jour et demi sera consacré à l'analyse statistique. C'est à dire à l'exploration des données de comptage, la normalisation et l'analyse de l'expression différentielle. Pré-requis nécessaire :connaissance basique du langage R et de la ligne de commande Unix/Linux. Ces formation sont organisées sur le site INRA de Toulouse Auzeville. Les tarifs sont disponibles à l'adresse suivante : http://bioinfo.genotoul.fr/index.php/training-2/pricing/ . Les inscriptions s'effectuent sur cette page : http://bioinfo.genotoul.fr/index.php/training-2/training/ . 2/ Les logiciels installés La liste des logiciels installés sur genotoul a été mise à jour sur le site web. Elle est accessible à la page : http://bioinfo.genotoul.fr/index.php/resources-2/softwares/ . Une mise à jour des liens « current » (situé dans votre $PATH) sera effectuée lors de l’arrêt des serveurs prévu le 18 mars prochain. Nous vous avons envoyé un mail avec le détail des versions des logiciels impactés par cette manipulation le 28 février dernier. 15/03/17 Lettre d'information genotoul bio-info N°26 Page 1/4

Lettre d'information N°26bioinfo.genotoul.fr/wp-content/uploads/Lettre... · L'instance Galaxy Sigenae / BioInfo Genotoul a été utilisée par 230 utilisateurs en 2016. Nous vous

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Lettre d'information N°26bioinfo.genotoul.fr/wp-content/uploads/Lettre... · L'instance Galaxy Sigenae / BioInfo Genotoul a été utilisée par 230 utilisateurs en 2016. Nous vous

Lettre d'information N°26du 15 mars 2017 – Rédactrice : Claire Hoede

h ttp://bioinfo.genotoul.fr/

Cette lettre d'information est destinée aux membres des équipes de recherche utilisant la plate-forme bio-informatiqueGenoToul. Elle a pour but de vous informer sur les évolutions de l'équipe, les nouveaux outils, services, conditions d'utilisation,projets et formations mis en place.

1/ Les prochains cycles d'apprentissageNous vous proposons 3 cycles d'apprentissage dans les mois qui viennent (2 sous Galaxy et un en ligne de commande) :

A) 2,5 jours de formation à l'alignement et à la détection de variants à partir de NGS sous Galaxy du 9 au 11 mai 2017

Ce cycle d'apprentissage vous est proposé par l'équipe Sigenae.

La première journée sera consacrée à la présentation de l'environnement Galaxy, puis à la prise en main de l'instancetoulousaine. Suivront ensuite 1,5 jours de formations vous permettant de comprendre les principaux formats de fichiersmanipulés, d'apprendre à aligner les reads sur un génome de référence et de détecter SNP et petits indels via la suite GATK.

Aucun pré-requis n'est nécessaire.

B) 4 jours de formation à la métagénomique 16S et 18S sous Galaxy seront organisés du 3 au 6 juillet 2017 (reste 5places)

Vous avez, ou allez obtenir, des données de métagénomique 16S ou 18S, Miseq ou 454 ? Vous souhaitez les analyserefficacement sans utiliser la ligne de commande ? Les équipes Sigenae, NED (GenPhySE), TWB et Bioinfo Genotoul vousproposent une formation de 4 jours indivisibles sous environnement Galaxy. La première demi-journée sera consacrée, aprèsune initiation à l'environnement Galaxy à la prise en main de l'instance Galaxy Toulousaine. Pendant deux jours vousapprendrez à utiliser le pipeline FROGS dont la description est disponible à l'url : http://bioinfo.genotoul.fr/fileadmin/BIO_INFO_STAT_2015/oral/FROGS_GenotoulBioinfo.pdf. Il est constitué des étapesprincipales suivantes : nettoyage, clustering, affiliation taxonomique, filtre et statistiques descriptives que nous vousdétaillerons. Enfin la dernière journée et demie vous permettra d’interpréter les résultats grâce aux outils statistiques proposés.

Pré-requis nécessaire : connaissance de R ou d'un autre langage de programmation pour la partie statistique.

C) 3,5 jours de formation à l'analyse bioinformatique et biostatistique des données RNASeq sur génome de référencedu 16 au 19 mai 2017

Ce cycle d'apprentissage vous est proposé par les plateformes Bioinfo Genotoul, Biostat Genotoul, l'équipe Sigenae et l'unitéMIAT.

Après un bref rappel sur l'environnement Unix et l'utilisation du cluster nous vous présenterons les données RNAseq. Nousdiscuterons notamment des plans d'expérience et des biais des différentes technologies de séquençage de type NGS. Vousapprendrez à analyser la qualité des données RNAseq et à les nettoyer. Vous effectuerez ensuite l'alignement sur le génomede référence et vous serez en mesure de découvrir de nouveaux gènes ou de nouveaux transcrits. Vous effectuerez ensuite lescomptages afin de générer le tableau qui vous servira à mettre en évidence les gènes différentiellement exprimés entre deuxconditions. Le dernier jour et demi sera consacré à l'analyse statistique. C'est à dire à l'exploration des données de comptage,la normalisation et l'analyse de l'expression différentielle.

Pré-requis nécessaire :connaissance basique du langage R et de la ligne de commande Unix/Linux.

Ces formation sont organisées sur le site INRA de Toulouse Auzeville.Les tarifs sont disponibles à l'adresse suivante : http://bioinfo.genotoul.fr/index.php/training-2/pricing/.Les inscriptions s'effectuent sur cette page : http://bioinfo.genotoul.fr/index.php/training-2/training/.

2/ Les logiciels installésLa liste des logiciels installés sur genotoul a été mise à jour sur le site web. Elle est accessible à la page :http://bioinfo.genotoul.fr/index.php/resources-2/softwares/.

Une mise à jour des liens « current » (situé dans votre $PATH) sera effectuée lors de l’arrêt des serveurs prévu le 18 marsprochain. Nous vous avons envoyé un mail avec le détail des versions des logiciels impactés par cette manipulation le 28février dernier.

15/03/17 Lettre d'information genotoul bio-info N°26 Page 1/4

Page 2: Lettre d'information N°26bioinfo.genotoul.fr/wp-content/uploads/Lettre... · L'instance Galaxy Sigenae / BioInfo Genotoul a été utilisée par 230 utilisateurs en 2016. Nous vous

Enfin, pour trouver un logiciel installé nous vous conseillons d'utiliser la commande suivante :

ls /usr/local/bioinfo/src|grep -i soft_name

De même pour connaître les différents modules configurés et les utiliser, les commandes : module avail, module displayNomDuModule et module load NomDuModule s'avèrent particulièrement utiles.

3/ La nouvelle rubrique « Ask for »A partir de la rubrique « Ask for » de notre nouveau site web vous avez maintenant accès à plusieurs formulaires dedemandes. Vous pouvez demander un compte sur le cluster et sur l'instance Galaxy (« An account) », l'installation ou la mise àjour d'un logiciel (« Software installation »), l'installation ou la mise à jour d'une banque (« Bank installation »). Vous pouvezégalement nous solliciter pour obtenir davantage de ressources : RAM, CPU, espace disque (« Ressources request »), ceservice peut être payant selon les cas. Si vous souhaitez bénéficier de notre expertise pour vous aider dans vos projetstraitants des NGS le formulaire ad hoc est celui intitulé « Projets ». Si vous avez besoin d'un support technique un formulaireest également accessible sous la rubrique Ask for (« Support »).

4 / Petit rappel sur les comptes GenotoulNous vous rappelons que votre user et votre mot de passe sont strictement personnels et confidentiels pour des raisons desécurité.

De plus les comptes non-utilisés depuis plus de 1 an ainsi que les comptes expirés des personnels temporaires (date de finrenseignée lors de la demande du compte) sont systématiquement clos et les données purgées.

5/ Fonctionnement de l'espace /workL'espace disque utilisateur (/work) est un espace temporaire de calcul et peut être purgé si besoin (i.e ; lorsque le taux total deremplissage atteint 80 %). Lorsque ce nettoyage sera nécessaire, les utilisateurs concernés seront prévenus. Pour être sûr deconserver les résultats de vos analyses il est nécessaire de les copier dans l'espace disque /save (prévu à cet effet).

6/ Quelques consignes de bonnes pratiquesPour que l'ensemble des utilisateurs de genotoul puissent travailler dans de bonnes conditions le traitement des données sur leserveur frontal est interdit. Les serveurs genotoul sont réservés exclusivement à la connexion, au transfert de données, à lacompilation, au test très rapide de la ligne de commande et à la soumission de jobs sur le cluster de calcul. Tout traitement dedonnées lancé directement (sans «qsub», «qarray», «qrsh» ou «qlogin») sera systématiquement interrompu sans préavis parles administrateurs système. Ces quatre commandes sont explicitées dans notre FAQ, rubrique « Job Submission »(http://bioinfo.genotoul.fr/ index.php/faq/job_submission_faq/) à la question : « Which commands can I use to submit my job » ?

De plus, lorsque vous êtes en qlogin et en qrsh, si vous avez fini vos traitements, nous vous conseillons de fermer votresession car cela occupe un nœud et compte dans votre quota CPU.

15/03/17 Lettre d'information genotoul bio-info N°26 Page 2/4

Page 3: Lettre d'information N°26bioinfo.genotoul.fr/wp-content/uploads/Lettre... · L'instance Galaxy Sigenae / BioInfo Genotoul a été utilisée par 230 utilisateurs en 2016. Nous vous

7/ Les news de l'instance Galaxy Sigenae / BioInfo Genotoul L'instance Galaxy Sigenae / BioInfo Genotoul a été utilisée par 230 utilisateurs en 2016. Nous vous remercions de la confianceque vous nous accordez.

Cette instance Galaxy a été mise à jour en octobre 2016 afin de vous faire bénéficier d'une interface récente et de banquesmieux gérées. Elle est référencée depuis peu par l'équipe américaine du Galaxy Project tant en terme d'instance(https://galaxyproject.org/community/deployment/sigenae-bioinfo-genotoul/) que de formations (http://bit.ly/gxytrnGenoToul ethttp://bit.ly/gxytrnmap).

L'instance s'est récemment enrichie de nouveaux outils pour :

• le traitement de vos données sRNAseq (la suite d'outils MirDeep2 a été ré-installée et améliorée).

• pour le variant calling (Annovar, SnpEff, Sequenza, Contra, Stacks, GATK 3.5).

• pour les données RNAseq (RSEM, la suite Cufflinks et les SARTools).

• autres outils (PICRUSt, LEfSe, SSPACE).

Pour en savoir plus sur le coté administration de Galaxy, la 8ieme conférence mondiale aura lieu cette année en France (GCC2017 Montpellier du 26 au 30 juin, https://gcc2017.sciencesconf.org/).

Le nombre de publications remerciant l'instance Galaxy Sigenae / Bioinfo GenoToul est un indicateur de notre utilité pour nosrecherches de financements par exemple. C'est pourquoi nous vous proposons le modèle de phrase suivant lorsque vospublications traitent d'un sujet ayant bénéficié des ressources fournies par cette instance : "We are grateful to the genotoulbioinformatics platform Toulouse Midi-Pyrenees and Sigenae group for providing help and/or computing and/or storageressources thanks to Galaxy instance http://sigenae-workbench.toulouse.inra.fr".

Dans le cadre d'une collaboration, vous pouvez directement citer la / les personnes qui ont participé au projet de la manièresuivante : Name, Sigenae group, GenPhySE, INRA Auzeville CS 52627 31326 Castanet Tolosan cedex.

8/ Coupure de service entre vendredi 17 mars à 17h et lundi 20 marsUne opération de maintenance des équipements électriques du datacenter INRA toulousain est planifiée le samedi 18 marsprochain. Elle nécessite un arrêt total de tous les services. En conséquence, la plateforme Bioinfo GenoToul devra interrompretoutes ses infrastructures de calcul, stockage, hébergement de sites web et machines virtuelles pendant tout le week-end.

Les systèmes hébergés seront arrêtés le vendredi 17/03 à partir de 17h et redémarrés progressivement à partir du lundimatin 20/03.

Nous sommes désolés pour la gène occasionnée par cette coupure indépendante de notre volonté.

9/ Bilan de l’enquête de satisfaction annuelle 2016110 personnes ont répondus à notre dernière enquête de satisfaction annuelle, certains d'entre vous ont pris le temps delaisser des commentaires riches d'enseignements, et nous vous en remercions. L'un des résultats intéressants de cetteenquête est que parmi les 76 personnes qui déclarent utiliser le cluster de calcul genotoul, 37 % ont publié les résultatsobtenus. Au sujet de l'utilisation du cluster certains d'entre vous ont pointé le manque de tutoriaux disponibles. A ce sujet, nousnous permettons de vous rappeler les formations Linux et Cluster que nous proposons périodiquement(http://bioinfo.genotoul.fr/index.php/training-2/training/) ainsi que les supports de formation disponibles sur notre site web(http://bioinfo.genotoul.fr/wp-content/uploads/FormationCluster3DiaParpage.pdf). De plus si les quotas d'espace disque quenous vous accordons ne suffisent pas (1Tb sur le /work et 250 Gb sur /save), nous avons mis en place un service de locationd'espace disque. Les tarifs sont disponibles ici : http://bioinfo.genotoul.fr/index.php/resources-2/pricing/.

L'équipe en charge du support est plébiscitée par vos avis et commentaires, par contre certains d'entre vous nous ont fait partde leur insatisfaction au sujet de l'affichage des versions des différentes banques de données.

Les numéros d'accession des génomes sont disponibles dans un fichier que vous pouvez trouver :

• pour Ensembl :

/bank/ebi/ensembl/SPECIES_genome/current/flat/current_fasta/SPECIES/dna/README

La version de l'annotation faite par Ensembl, quant à elle, est dans le fichier :

/bank/ebi/ensembl/SPECIES_genome/current/flat/version.txt

• pour le NCBI:

/bank/ncbi/genomes/SPECIES/current/flat/README_CURRENT_RELEASE

15/03/17 Lettre d'information genotoul bio-info N°26 Page 3/4

Page 4: Lettre d'information N°26bioinfo.genotoul.fr/wp-content/uploads/Lettre... · L'instance Galaxy Sigenae / BioInfo Genotoul a été utilisée par 230 utilisateurs en 2016. Nous vous

L'outil de mise à jour automatique des banques que nous utilisons ne nous permet pas de faire mieux, nous nous excusons dela gène occasionnée, nous ne disposons pas actuellement des moyens humains nécessaires pour l'améliorer.

Par contre, grâce à l'outil Biomaj Watcher (http://genoweb.toulouse.inra.fr/BmajWatcher/ : accessible depuis la page databanksde notre site web) vous avez accès à de nombreuses informations sur les banques dont les chemins d'accès sur genotoul.

Plus spécifiquement au sujet de l'instance Galaxy : 34 utilisateurs de Galaxy ont répondus à l'enquête. 56 % précisent nepas avoir besoin de support, mais 32 % souhaitent suivre une formation à l'utilisation de Galaxy. Nous vous rappelons à cesujet le prochain cycle d'apprentissage qui aura lieu du 9 au 11 mai prochain (voir le chapitre 1 de cette newsletter). 82 % desutilisateurs ont trouvés que les résultats obtenus leur ont été utiles. Les principaux types d'outils utilisés sont ceux servant à lamanipulation de séquences (47% des répondants), la manipulation de fichiers (38%), l'alignement de séquences (38%) et letraitement de données RNASeq (26%).

Certains d'entre vous ont regretté l'absence de certains outils et/ou de certains paramètres sur l'interface de l'instance Galaxytoulousaine. Nous vous rappelons que l'équipe Sigenae ([email protected]) est à votre disposition pour ajouter lesoutils et les paramètres dont vous avez besoin pour vos analyses bioinformatiques.

Lors de cette enquête, la conception de workflows et le choix des paramètres pour les différents outils ont également étéévoqués comme pouvant être une limitation à l'utilisation de Galaxy. Les formations à Galaxy peuvent vous permettre de mieuxappréhender les outils nécessaires au traitement de vos données, et vous aider à construire des workflows qui vous serezensuite en mesure de paramétrer et de lancer sur vos propres jeux de données.

10/ Les mouvements dans l'équipeCéline Noirot a réintégré l'équipe après un passage au CHU de Toulouse.

Pour toute demande d'information ou de travaux, veuillez remplir le formulaire adéquat sur la page : http://bioinfo.genotoul.fr/index.php/ask-for/support/.

15/03/17 Lettre d'information genotoul bio-info N°26 Page 4/4

Double cliquer sur la banque qui vous intéresse

Chemin d’accès sur genotoul