1
Bioinformatique
Laurent Bianchetti
Plate-forme Bioinformatique de Strasbourg (BIPS)Institut de Génétique et de Biologie Moléculaire et Cellulaire (IGBMC)1 rue Laurent Fries67404 IllkirchFrance
5, 12, 20 et 21 Décembre 2012Institut Universitaire de Technologie de ColmarGénie biologique
2
Madame Christine Le-JeuneLaboratoire Vigne Biotechnologies et Environnement, EA-3991Université de Haute-Alsace, UFR PEPS33, rue de Herrlisheim, 68008 Colmar cedex France
Dr Olivier PochLaboratoire de Bioinformatique et Génomique Intégrative (LBGI)Institut de Génétique et de Biologie Moléculaire et Cellulaire (IGBMC)1 rue Laurent Fries67404 IllkirchFrance
Les étudiants de l’IUT de Biotechnologie de Colmar
Remerciements
3
Partie I (Mer. 5 Déc.) 1h30 cours + 2h30 TDBioinformatique appliquée à la biologie moléculaire
Structure du cours
Partie II ( Mer. 12 Déc.) 1h30 cours + 2h30 TDBanques de séquences biologiques et comparaison de séquences
Partie III ( Jeu. 20 Déc.) 1h30 cours + 2h30 TDBioinformatique à l’ère de la biologie globale ou « omics »
Partie IV ( Ven. 21 Déc.) 1h30 articles et discussionNouveautés et perspectives (« News and views »)
Examen ( Ven. 21 Déc.) 1h30
4
Partie I
Bioinformatique appliquée à la biologie moléculaire
5
Outils bioinformatiques de support à la biologie moléculaire (« wet
lab. »)
Disponibles sur PC/Mac en proximité de la paillasse
Outils académiques ou commerciaux
Outils mono-poste/mono-utilisateur (commerciaux)ou mutualisés (académiques)
6
Avantages:- Gratuits ou très peu onéreux (contribution)- Usage illimité- Applications téléchargeables d’un site web ou bien
disponibles en interface web- Peuvent être mis en commun sur serveur de calcul
Outils académiques
Inconvénients:-Une batterie d’outils peut être nécessaire pour mener un traitement complet (!= intégration)-Le graphisme peut ne pas être une priorité(programmes en ligne de commande)-Le développement peut s’arrêter faute de moyen
7
Outils commerciauxAvantages:-Interface graphique puissante-Interactivité-Fonctionnalités/Intégration-Support, manuels, webinars, etc …-Portabilité (PC windows/Linux, MAC)
Inconvénients:- Payants-Complexité des licences (modules en suppléments)- Monoposte, voire mono-utilisateur-Format propriétaire (compatibilité limitée avec d’autres logiciels)
8
Plate-formes informatiques
et outils logiciels appliqués à la biologie
moléculaire
9
Plate-formes informatiques
Hardware Système d’exploitation(OS)
Version Processeur
Mac Mac OS X intel, X PPC universel
PC Windows XP, Vista, 7 32 binary digits (*) 64 ‘’
Linux Debian, Ubuntu, Redhat, etc …
32 binary digits 64 ‘’
Serveur de calcul
Solaris (Unix)Linux
‘’ ‘’
10
Windows ( Menu démarrer => Panneau de configuration => Système et maintenance => Système)
Mon PC est il 32 ou 64 bits ?
11
Linux => System monitor => onglet System
Les programmes 32 bits sont compatibles avec les processeurs 64Pas l’inverse !!!!
12
Compatibilité d’outils académiques
avec les différentes plate-formes
FinchTV
Web, http://bips.u-strasbg.fr
Outils > EMBOSS
seqmerge
13
NGS Avadis
Vector NTI
GCK
Compatibilité d’outils commerciaux
avec les différentes plate-formes
14
Compatibilité d’application sous Windows, Mac OS et Linux
Wine est un outil gratuit qui permet d’exécuter des applications windowssous Linux et Mac OS X
15
Fonctionnalitésdes logiciels appliqués à la
biologie moléculaire
16
Fonctionnalité I: clonage virtuel
ApE, Gene Construction Kit
Format compatibles Fasta, Genbank, etc …
Représentation graphique de plasmide (annotation)
Carte de restriction
Clonage assisté (couper/coller ,vecteur/insert)
Gel d’électrophorèse virtuel
Annotation de séquence : ORF, cassette de clonage
Edition de séquence
GGATCCCCTAGG
BamH1
Le logiciel doit assister ce couper/coller spécialet vérifier la compatibilitédes extrémités insert/vecteur
17
Clonage virtuel non-assisté (ApE)
GGATCCCGATGCGATCAGTACGATAGACATGACAGCTGGATCCCCTAGGGCTACGCTAGTCATGCTATCTGTACTGTCGACCTAGG
CGATGCGATCAGTAGGATCCCGATAGACATGACAGCTGGTACGCTAGTCATCCTAGGGCTATCTGTACTGTCGA
1) Vecteur => couper
2) Insert => copie
3) Clonage => collage
BamH1
GGATCCCGATGCGATCAGTACGATAGACATGACAGCTGGATCCCCTAGGGCTACGCTAGTCATGCTATCTGTACTGTCGACCTAGG
CGATGCGATCAGTAGGTACGCTAGTCAT
CGATAGACGCTATCTG
18
Clonage virtuel assisté (GCK)
GATCCCGATGCGATCAGTACGATAGACATGACAGCTG
CGATGCGATCAGTAGGATCCCGATAGACATGACAGCTGGTACGCTAGTCATCCTAGGGCTATCTGTACTGTCGA
GGTACGCTAGTCATGCTATCTGTACTGTCGACCCTAG
1) Vecteur => couper spécial (mode enzyme de restriction)
2) Insert => copie spéciale
G GATCC
C CTAG G
3) Clonage => collage spécial
CGATCAGTAGGCTAGTCATCCTAG
GATCCCGATAGACAT GGCTATCTGTA
GATCCCGATGCGATCAGTACGATAGACATGACAGCTGGGTACGCTAGTCATGCTATCTGTACTGTCGACCCTAG
(fonction inversion implémentée)
19
ApE
20
Gene construction Kit (Textco)
21
Fonctionnalité II: affichage de chromatogrammes de séquençage
FinchTV, ApE, seqmerge, EMBOSS (abiview)
Lecture du format abi, fasta
Représentation graphique des chromatogrammes de séquençage
Séquence « par défaut » générée automatiquement
Navigation sur la séquence
Modulation de la hauteur et largeur des pics
Edition de la séquence choisie par le séquenceur
Affichage de plusieurs chromatogrammes alignés
22
FinchTV
23
seqmerge, Vector NTI, DNAstar
Lecture du format abi, fasta
Affichage d’empilement et d’alignement de reads
Facilité d’assemblage et désassemblage
Rapidité d’assemblage
Séquence consensus
Export (fasta, MSF)
Fonctionnalité III: assemblage de fragments
seqmergepréliminaire: le Xwindow
À l’IGBMC, seqmerge est installé sur le serveur solaris « bips »
On accède à « bips » par un programme appelé Xwindow (ou xterm)
Le Xwindow est installé sur le PC ou le MAC de l’utilisateur
Le Xwindow permet d’afficher des outils à interface graphiqueaprès connection à un serveur
connection au serveur par login/mot de passe
Environnement gcg
25
Le programme Xwindow
Comment se procurer un programme Xwindow ?Comment obtenir l’affichage graphique ?
Icône « terminal »
>ssh -X mon_identifiant_utilisateur@nom_du_serveur
http://sourceforge.net/projects/xming/ => download
Xming
26
1) 2)
3) 4)
Paramétrage d’Xming sous windows
Afficher l’interface de seqmerge
>gcg (puis return)
>seqmerge& (pui return)
Ne tapper PASSeqmerge& ou SeqMerge& ou Seq merge&
Charger des fichiers .ab1
Assemblage de fragments
Affichage de l’assemblage
Double click
Affichage des chromatogrammes
Menu File du « Seqmerge contig editor » => show traces
32
Fonctionnalité IV:design de primerPrimer3 (http://primer3.wi.mit.edu/)EMBOSS (primer3)ApEGCK (Tools > PCR analysis)etc …
Paramétrage (=> Primer3)
Spécificité
(éléments répétés => http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker)(Paralogie)(Domaines « lego »)(segments de faible complexité => EMBOSS (etandem)
Haut-débit (EMBOSS en ligne de commande)
33
Production de primers en haut-débit dans EMBOSS
34
Fonctionnalité V: boîte à outils
Web, http://bips.u-strasbg.fr
Outils > EMBOSS
European Molecular Biology Software Suite
revcomp => reverse complementvectorstrip => supprime de la séquence de vecteur aux extrêmités
5’ et 3’ d’une séquence / vecscreen (NCBI)transeq => traduction d’un cDNAextractseq => extrait une région d’une séquence en donnant les
positions de début et de fin sixpack => affiche une séquence d’ADN « query » et sa traduction
dans les 6 cadres de lecture Etc …
Explorez EMBOSS !!
35
Licence Primer design
Clonagevirtuel
Séquençage(chromato.)
Assemblagede fragments
GCK Com.
ApE Aca.
Vector NTI
Com.
DNAstarLasergene core suite
Com.
FinchTV Aca.
Seqmerge (Accelrys)
Aca.
EMBOSS Aca.
NGS
Genomic suite
Récapitulatif
36
Témoignage d’un utilisateur de vecteur NTI Bonjour,
Invitrogen a passé Vector NTI en version 11 et celle ci est devenu payante, sachant que toutes les licences gratuites de vector NTI 10 expirerons fin mars.... et vu les prix on ne peut pas se permettre de prendre une licence même avec la promotion actuel :
1-year Academic License EUR 685.00 EUR 411.00 40%3-year Academic License EUR 1638.00 EUR 1146.00 30%
Vu que je possède avec mon équipe une base assez conséquente de vecteurs, j'aimerais trouver d'une part un logiciel équivalent à vector NTI mais gratuit et d'autre part que celui-ci soit compatible avec le format d'enregistrement de vector NTI c'est à dire les fichier .gb comme cela je n'aurai qu‘à exporter ma base de données et non à reprendre toutes les séquences.
J'ai entendu parler de ApE mais celui-ci ne me paraît pas terribleJe vais pour le moment tester Serial Cloner.
Donc si vous avez de bon logiciels gratuits, faites moi signe
Posté en nov 2008 sur Futura forum
37
Il n’existe pas d’outil bioinformatique idéal pour assister la biologie moléculaire.
Les outils académiques ont l’avantage d’être gratuits mais leur usage peut être laborieux (ligne de commande, manuel incomplet, fonctionnalités qui manquent, etc …) et doivent être combinés.
Les outils commerciaux offrent du confort mais il faut y mettre le prix dans un contexte de réduction des fonds alloués à la recherche
Conclusion
38
Adaptez-vous à l’outil utilisé dans votre laboratoire d’accueil. Ne réclamez pas l’outil que vous utilisiez dans le laboratoire précédent si une autre solution logicielle est disponible sur place.
Soyez ouvert à l’utilisation de plusieurs outils, ils se complètent.
S’il n’y a pas d’outil, soyez d’abord débrouillard, plutôt que dépensier. Vous n’en serez que plus appréciés.
Donnez la préférence aux outils académiquessi l’on vous donne du temps, sinon demandez un outil commercial si
vous êtes dans l’urgence ou en « production ».
Si vous utilisez des outils, n’oubliez pas à la fin d’une présentation, ou dans une publication de les citer (référence)
Conseils
39
1) Tutorial de GCK sur version « demo » du logiciel- Manipulation de base (carte de restriction, ORF, …)- Clonage virtuel assisté- Gel d’électrophorèse virtuel- Importation d’un plasmide (Genbank) dans GCK
2) Traduction d’un cDNA et design de primers dans EMBOSS
4) Exploration de FinchTV 5) Démonstration d’assemblage de fragments et
visualisation de chromatogrammes de séquençage dans seqmerge
Session pratique