Gscope
L’outil bio-informatique
pour la
génomique structurale
Gscope pour le biologiste
• Automatise la cascade des programmes– Crée et gère les données
– Les visualise
• Recherche de cibles à l ’échelle génomique • Annotation• ...
Gscope est aussi une boîte à outils bio-informatique
- Alignments- Trees- Phylo profils - Hydrophobicity
BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created
- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno
DNA and/or Proteome
ORFs determination(Glimmer,tRNAScan)
Database searchesBlastP on SwissProt, TrEmbl
tBlastN on complete genomes
MultiAlignment ofComplete SequencesBallast on BlastP output
DbClustal
Integrated analysis & Visualization tool
- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation
Dat
abas
e cr
eati
on
Séquences ?
• un génome fraîchement séquencé (P.abyssi)• tous les génomes ‘petits’ existants (V.cholera…)• un groupe fonctionnel (TFIIH)• une famille de protéines (synthétases, NR, ERco)• un ...ome (ribosome, péroxisome)• une séquence (la vôtre). • …
Deux regards• Structural … je veux des cristaux !
– ORF quality (overlap, validation du codon start, …)
– organisation en domaines ( local vs global, ... )
– productivité (codon usage vs coli or yeast, hydrophobicité)
• Phylogénomique … qui suis-je, d’où je viens ?
– annotation, recherche de fonction
– bilan présence/absence dans autres organismes, transferts horizontaux, cluster maintenance
– bilan de paralogie
– bilan phylogénomique
– etc.
Intègration et automatisationdes outils existants
• Lecture de données– formats TFA, EMBL,
GenBank, texte,…
– liste de accession numbers
• Détermination des ORFs– Glimmer, tRNA_Scan
– Création des séq nuc et prot
• Analyse ADN– composition, codon usage,
– biais GC, ShineDalgarno
• BlastP, TBlastN, BlastX – SwissProt, TrEmbl, PDB
– Human, CompleteGenomes
– …
• Ballast, DbClustal, – LMS et alignements multiples
– avec test de qualité
– BestDefinition
• + Secator, Ordali– >> groupes, domaines
• Phylogénie
Visualisation
Coloration/Liste
• Séquence• Orthologues
– blast, alignements– présence/absence– paralogues
• Info structurale– PDB– codon adaptation index– hydrophobicité
• Phylogénie– folle– fonction
Ce qu’il faut pour démarrer ...
• une liste de séquences– accession numbers– fichiers existants
• un fichier ADN (génome complet ou non)• une suite de contigs• un fichier GenBank avec ADN et protéome• ...
Gscope lit, convertit, vérifie, recherche, range.
- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno
BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created
- Alignments- Trees- Phylo profils - Hydrophobicity
DNA and/or Proteome
ORFs determination(Glimmer,tRNAScan)
Database searchesBlastP on SwissProt, TrEmbl
tBlastN on complete genomes
MultiAlignment ofComplete SequencesBallast on BlastP output
DbClustal
Integrated analysis & Visualization tool
- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation
Dat
abas
e cr
eati
on
ORF quality
ORF qualityla séquence est-elle bien définie ?
(existe, start, stop, frame-shift)
• protéome connu ou Glimmer, tRNAscan• overlap, biais en composition• beaucoup ou pas d’orthologues (Blastp, Tblastn)• validité du codon start (Secator, DbClustal)• ...
• mauvais splicing
Validité du codon start
beaucoup d ’erreurs dans les banques
• overlap – peu probable
– sauf overlap de un ( TAA ATG > TAATG )
• alignements des codons start– DbClustal le permet (méthode globale)
– pour les séquences du groupe Secator en particulier
– s ’il y en a suffisamment
• … si en plus apparaît la séquence de Shine-Dalgarno !
Codon start 1/3
Codon start 2/3
Codon start 3/3
- Alignments- Trees- Phylo profils - Hydrophobicity
BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created
- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno
DNA and/or Proteome
ORFs determination(Glimmer,tRNAScan)
Database searchesBlastP on SwissProt, TrEmbl
tBlastN on complete genomes
MultiAlignment ofComplete SequencesBallast on BlastP output
DbClustal
Integrated analysis & Visualization tool
- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation
Dat
abas
e cr
eati
on
Production
Production
• Codon adaptation index vs E.coli or S.cerevisiae
• Hydrophobicité, hélices transmembranaires
• Orthologues dans la PDB– existence
– fragments
• Mise en évidence de domaines– par l ’alignement
– si opposition local (blast) - global (DbClustal)
– … à suivre
DNA and/or Proteome
ORFs determination(Glimmer,tRNAScan)
- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno
Database searchesBlastP on SwissProt, TrEmbl
tBlastN on complete genomes
MultiAlignment ofComplete SequencesBallast on BlastP output
DbClustal
BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created
Integrated analysis & Visualization tool
- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation
- Alignments- Trees- Phylo profils - HydrophobicityD
atab
ase
crea
tion
Phylogenomic
Phylogénomique
• Bilan de présence/absence dans les génomes complets– TBlastN
• Phylo folle– Biais en GC
– Arbre phylogénétique non conforme (pertes ou transferts)
Un exemple de protocole d ’analysemis au point par Marc sur ERco pour mettre
en évidence les domaines structuraux
• Faire un alignement avec toutes les séquences du blastp
• Définir les groupes avec Secator
• Choisir un représentant par groupe
• Puis – Rechercher les domaines existants (ProDom par exemple)– PDB– Prédictions de structures secondaires, profil hydrophobicité, …– Sites de coupures aux protéases (trypsine, …)– VRP– information bibliographique (fonction, mutants, …)
à l ’aide de Gscope, qui l ’automatisera bientôt ...
Perspectives
• Eucaryotes supérieurs – mauvais épissage
– intégration des Est
– étude promoteurs
• Informations sur les domaines et motifs– Ballast
– Correlator
– Domainol
– data mining
• Utilisation– protocole automatique de recherche de cibles (Shankar)
– RELACS (RELational Alignement of Complete Sequences)
• De mieux en mieux
• Web … mais ça marche déjà !!!