Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
1
Bioinformatique
O. LecompteLaboratoire de Bioinformatique etLaboratoire de Bioinformatique et Génomique Intégratives - IGBMC
odile.lecompte@igbmc. fr
De l’artisanat au haut débit…
1951 première séquence protéique
1967 construction d’arbres phylogénétiques
Introduction
1970 algorithme de Needleman & Wunsch
1977 séquençage de l’ADN (Méthode Sanger)
premier package bioinformatique (Staden)
1978 bases de données Pir, EMBL, Genbank
1981 algorithme d’alignement local (Smith & Waterman)
1990 programme Blastp g
1991 étiquettes d’ADNc « EST »
1995 séquençage du génome complet d’une bactérie
1996 séquençage complet du génome de la levure
2001 première version du génome humain
=> Début de l’ère post-génomique
2
2002 WatersonSéquence préliminaire du génome de la souris (Waterston et al., 2002) (2,5 Gb)
IntroductionL’ère post-génomique
2004 ENCODE PCENCODE, projet d’identification de tous les éléments fonctionnels du génome humain (ENCODE Project Consortium, 2004)
2005 Roche, 454Séquenceur automatique haut‐débit de 2ème génération par pyroséquençage : GS20
2007
Illumina, SolexaSéquenceur automatique haut‐débit de 2ème génération par synthèse microfluidique : Genome Analyzer
2007
Applied BiosystemsSéquençage automatique haut‐débit de 2ème génération par ligation : système SOLiD
2008 HelicosSéquenceur automatique de 2ème génération par synthèse sans pré‐amplification
2010 Plus de 1000 génomes complets disponibles
Contexte scientifiqueIntroduction
génomesinteractomes
transcriptomes
phénomes
protéomes
3
La bioinformatique est partout !
Growth of PDB
Introduction
génomique
transcriptomique
génomique structurale
interactomique
phénomique
protéomique
BioinformatiqueIntroduction
Définition
Utilisation de l’outil informatique dans l’acquisition, la gestion et l’analyse d’informations d’origine biologique
• Séquences
• Structures
Définition
Structures
• Profils d’expression
•…
4
Principaux axes
– Bases de donnéest k l’i f ti l’ i t l d ibl
Introduction
stocker l’information, l’organiser et la rendre accessible
– Développement de logiciels - outils pour l’assemblage de contigs - outils de comparaison de séquences- outils de prédiction de structures secondaires ou tridimensionnelles- outils de clustering ...
Bioanalyse:– Bioanalyse: • formuler des prédictions (localiser un gène, prédire la fonction d’un gène, annoter un génome, recherche de cibles...)• énoncer des hypothèses généralistes (repliement des protéines, évolution des espèces, modèle cellulaire...)
Quelques centres de bioinformatique
• EBI (European Bioinformatics Institute)
Introduction
• NCBI (National Center for Biotechnology Information)
http://www.ebi.ac.uk/
http://www.ncbi.nlm.nih.gov/
5
1 Banques de données
PlanIntroduction
Comparaison de 2 séquences
Alignement multiple
2
3
Phylogénie moléculaire4
Banques de données en biologie
• Rôles des banques
Banques
Rôles des banques– Stockage
– Diffusion (ftp, web…)
– Organisation et standardisation des données
– Connectivité avec autres banques
– Actualisation
6
NAR Database CategoriesBanques
Quelques banques majeures
• Séquences
Banques
– nucléiques
– protéiques
– mixtes
• Structures
• Familles, domaines et sites protéiques
• Ontologie
• Cluster de transcrits
7
Banques de séquences nucléiques généralistesBanques
EMBLnucleotidesequencedatabase
Genbank(NCBI)
• 3 banques
• Échanges quotidiens des séquences collectées
• Effort d’unification=> format– accord entre GenBank et
DNA databank of
Japan(DDBJ)
accord entre GenBank et EMBL en 1986
– accord entre Genbank/EMBL et DDBJ in 1987
Les banques de séquences nucléiques généralistes
• Des banques incontournables : dé ôt bli t i d d 3 b t bli ti
Banques
– dépôt obligatoire dans une des 3 banques avant publication – unique moyen d’accès aux séquences
• Alimentation : – soumission directe par la communauté scientifique
(associée ou non à une publication)– dépôts de brevets
• Conséquences– banques exhaustives– banques extrêmement redondantes– contiennent des erreurs
8
Banques
Soumission des séquences :Webin, Bankit, Sequin…
Webin
http://www.ebi.ac.uk/embl/Submission/webin.html
Evolution de la banque EMBLBanques
http://www3.ebi.ac.uk/Services/DBStats/
Sept 2010 : 292 milliards de nucléotides, 195 millions d’entrées
9
Le « top 10 » des organismes
Septembre 2005 (en nb de nucléotides)
Banques
Monodelphis : opossumLoxodonta : éléphantDasypus : armadillo
Septembre 2010 (en nb de nucléotides)
Les divisions
EMBL GBHuman HUM -Primates - PRIbasées sur la
Banques
Primates PRI Mus musculus MUS MUSRodents ROD RODOther mammals MAM MAMOther vertebrates VRT VRTInvertebrates INV INVPlants PLNFungi FUNProcaryotes PRO BCT
PLN
basées sur la taxonomie
Viruses VRL VRLBacteriophages PHG PHGUnclassified UNC UNASynthetic SYN SYNEnvironmental sample ENV ENV
Transgenic TGN TGN
10
DivisionsBanques
Les classes
Standard STD
Patents PAT
Banques
basées sur la d d é Expressed Sequence Tags EST
High-Throughput cDNA sequencing HTC
Transcriptome Shotgun assembly TSA
Genome Survey Sequence GSS
Sequence Tagged Sites STS
High-Throughput Genome sequencing HTG
Wh l G Sh WGSex : CAGE (Cap Analysis Gene
Expression) sequences
nature des données
Whole Genome Shotgun WGS
Mass sequences for Genome Annotation MGA
Third Party Annotation TPA
Constructed CON
Annotated constructed ANN
Expression) sequences => the initial 20 bases from a
5′ end mRNA
11
CAAT TATA
Sited’initiation
Codon initiateur
Codon Stop
5’ UTR 3’ UTR
Site determinaison
Intron 1 Intron 2
Les ESTsBanques
CAAT TATA
ARN prémessager
Signal de polyadenylation
ARNm maturecoiffe Poly ACDS
5’ 3’
Reverse transcriptase
5’ UTR 3’ UTR
ADNc
p
Séquençage des EST
Classe Construct (CON)
ID BSXX standard; circular DNA; CON; 4214814 BP.
XX
AC AL009126;
XX
Taille Max d’une séquence : 350 kb
Banques
SV AL009126.1
XX
DT 18-MAY-2001 (Rel. 67, Created)
DT 18-MAY-2001 (Rel. 67, Last updated, Version 1)
XX
DE Bacillus subtilis complete genome.
...
FH Key Location/Qualifiers
FH
FT source 1..4214814
FT /db_xref="taxon:1423"
Découpage de la séquence
FT /organism="Bacillus subtilis"
FT /strain="168"
XX
CO join(Z99104.1:1..213080,Z99105.1:18431..221160,Z99106.1:13061..209100,
CO Z99107.1:11151..213190,Z99108.1:11071..208430,Z99109.1:11751..210440,
CO Z99110.1:15551..216750,Z99111.1:16351..208230,Z99112.1:4601..208780,
CO Z99113.1:26001..233780,Z99114.1:14811..207730,Z99115.1:12361..213680,
CO Z99116.1:13961..218470,Z99117.1:14281..213420,Z99118.1:17741..218410,
CO Z99119.1:15771..215640,Z99120.1:16411..217420,Z99121.1:14871..209510,
CO Z99122.1:11971..212610,Z99123.1:11301..212150,Z99124.1:11271..215534)
//Absence de « vraie » séquence
Les différentes séquences qui constituent la séquence originelle
12
Les classesBanques
Organisation de l’information
Un enregistrement (entrée) :•les informations relatives à la séquence•la séquence elle-même
ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.XX AC X64011; S78972; XX SV X64011.1 XX DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8)XX DE L.ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE 92140371
Banques
la séquence elle même•indicateur de fin d’enregistrement
RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii."; RL Mol. Gen. Genet. 231:313-322(1992). XX DR SWISS-PROT; P28763; SODM_LISIV. XX FH Key Location/Qualifiers FH FT source 1..756 FT /organism="Listeria ivanovii" FT CDS 109..717 FT /db_xref="SWISS-PROT:P28763" FT /product="superoxide dismutase" FT /protein_id="CAA45406.1" FT /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSGFT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAAFT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGLFT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
Les champs :•regrouper les informations d’un même type •faciliter l’accès à l’information
Format général (flat file) :
cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720tcgaaaggct cacttaggtg ggtcttttta tttcta 756
//
XX SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;
g ( )•enregistrements organisés séquentiellement•fichier texte (ASCII)
•fichiers disponibles en XML
13
Les champs de la banque EMBL
ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.XX
identifiant
N° d ’ è
Code à 2 lettresNature de la molécule classe et division
Banques
AC X64011; S78972; XX SV X64011.1 XX DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8)XX DE L.ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria.
N° d ’accès
Date
Description
Mots-clés
Organisme
Version
OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of theRT gene product."; RL Mol. Gen. Genet. 231:313-322(1992). XX
Références
RN [2] RP 1-756 RA Kreft J.; RT ; RL S bmitted (21 APR 1992) to the EMBL/GenBank/DDBJ databases
Références
Les champs de la banque EMBLBanques
RL Submitted (21-APR-1992) to the EMBL/GenBank/DDBJ databases. RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum AmRL Hubland, 8700 Wuerzburg, FRG XX DR SWISS-PROT; P28763; SODM_LISIV. XX FH Key Location/Qualifiers FH FT source 1..756 FT /db_xref="taxon:1638" FT /organism="Listeria ivanovii" FT /strain="ATCC 19119" FT RBS 95..100 FT /gene="sod" FT terminator 723..746
« Features »
Liens
FT /gene="sod" FT CDS 109..717 FT /db_xref="SWISS-PROT:P28763" FT /transl_table=11 FT /gene="sod" FT /EC_number="1.15.1.1" FT /product="superoxide dismutase" FT /protein_id="CAA45406.1" FT /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSGFT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAAFT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGLFT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" XX
14
SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240
Sequence header
Sequence
Les champs de la banque EMBLBanques
g g g g g gggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720tcgaaaggct cacttaggtg ggtcttttta tttcta 756
//
Nucleotide base codes (IUPAC)Authority Nomenclature Committee of the International Union of Biochemistry
Fin del’enregistrement
Authority Nomenclature Committee of the International Union of Biochemistry
Reference Cornish-Bowden, A. Nucl Acid Res 13, 3021-3030 (1985)
Symbol Meaning Symbol Meaning Symbol Meaning
a a; adenine m a or c v a or c or g; not t
c c; cytosine r a or g h a or c or t; not g
g g; guanine w a or t d a or g or t; not c
t t; thymine in DNA; uracil in RNA s c or g b c or g or t; not a
y c or t n a or c or g or t
k g or t
« Features »
« Key »- la nature biologique de l’élément annoté
d i f i l h d l é ( i i )
Banques
- des informations sur les changements de la séquence (versions, mutations,..)
« Location » position de l’élément annoté dans la séquence
« Qualifiers » des informations supplémentaires concernant l’élément annoté
Key Location/QualifiersFT source 1..1859FT /db f "t 3899"FT /db_xref="taxon:3899"FT /organism="Trifolium repens"FT /tissue_type="leaves"FT CDS 14..1495FT /db_xref="SWISS-PROT:P26204"FT /EC_number="3.2.1.21"FT /product="beta-glucosidase"FT /protein_id="CAA40058.1"FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSR.......---------+---------+---------+---------+---------+---------+---------+---------1 10 20 30 40 50 60 70 79
15
Eléments annotés (« Feature keys »)
misc_RNA prim_transcript
precursor_RNA mRNA
immunoglobulin_related C_region D_segment J_segment
misc_feature misc_difference
conflict unsure old sequence
Banques
5'clip 3'clip 5'UTR 3'UTR exon CDS
sig_peptide transit_peptide mat_peptide
intron polyA_site rRNA tRNA scRNA snRNA
N_region S_region V_region V_segment
repeat_region repeat_unit LTR satellite
misc_binding primer_bind protein_bind
misc_recomb iDNA
misc_structurestem_loop
old_sequence variation modified_base
gene misc_signal
promoter CAAT_signal TATA_signal -35_signal -10_signal GC_signal
RBS polyA_signal enhancer attenuator terminator
snoRNA D_loopterminator rep_origin
http://www3.ebi.ac.uk/Services/WebFeat/
Position (« Location »)• descriptifs de position :
• une base x• un site entre deux bases : x^y
Banques
• un site entre deux bases : x y• un base situé dans un intervalle donné : x.y• une région : x..y
• opérateurs :• complement (location)• join (location,location,...location)
Exem
ples
330 base 330 100..322 bases de 100 à 322 inclues <100..322 La borne inférieure est située en 5’ de la base 100 <1..322 L’élément annoté commence avant la première base de la
séquence 1..>322 L’élément annoté continue au-delà de la position 332 (100.110) Une base entre les positions 100 et 110 inclues 102^103 Le site situé entre les bases 102 et 103 join(10..200,330..400) Les régions 10 à 200 et 330 à 400 réunies en une seule
séquence complement(25..700) région 25 à 700 en complémentaire complement(join(230..501,810..1500)) Les régions 230 à 501 et 810 à 1500 réunies puis
complémentées
16
source 1..9430 /organism="Lactococcus sp." /strain="MG1234"
-35 signal 160..165
Exemple: Opéron bactérien
FeaturesBanques
g/gene="galA" /evidence=EXPERIMENTAL
-10_signal 179..184 /gene="galA" /evidence=EXPERIMENTAL
CDS 405..1934 /gene="galA" /product="galactose permease" /function="galactose transporter" /evidence=EXPERIMENTAL
CDS 2003 3001CDS 2003..3001 /gene="galM" /product="aldose 1-epimerase" /EC_number="5.1.3.3" /function="mutarotase"
CDS 3235..4537 /gene="galK" /product="galactokinase" /EC_number="2.7.1.6" /evidence=EXPERIMENTAL
source 1. .19924 /organism="" /db_xref="taxon:9606" /tissue_type="placenta"
gene 1. .19855 /gene="CSN2"
Exemple: gèneeucaryote
FeaturesBanques
/g Spromoter 1. .9389
/gene="CSN2" TATA_signal 9360. .9367
/gene="CSN2" exon 9390. .9437
/gene="CSN2" /number=1
mRNA join(9390. .9437,14108. .14170,15036. .15062,16042. .16062, 16158. .16202,17307. .17837,18756. .18797,19519. .19855) /gene="CSN2" /product="beta-casein"
intron 9438. .14107 /gene="CSN2" /number=1
exon 14108. .14170
eucaryote
/gene="CSN2" /number=2
CDS join(14120. .14170,15036. .15062,16042. .16062,16158. .16202,17307. .17837,18756. .18761) /gene="CSN2" /codon_start=1 /product="beta-casein" /protein_id="AAC82978.1" /db_xref="GI:2695661" /translation="MKVLILACLVALALARETIESLSSSEESITEYKQKVEKVKHEDQ QQGEDEHQDKIYPSFQPQPLIYPFVEPIPYGFLPQNILPLAQPAVVLPVPQPEIMEVP KAKDTVYTKGRVMPVLKSPTIPFFDPQIPKLTDLENLHLPLPLLQPLMQQVPQPIPQT LALPPQPLWSVPQPKVLPIPQQVVPYPQRAVPVQALLLNQELLLNPTHQIYPVTQPLA PVHNPISV"
17
Le format Genbank
LOCUS X64011 756 bp DNA linear BCT 26-SEP-2006DEFINITION L.ivanovii sod gene for superoxide dismutase.
Banques
ACCESSION X64011 S78972NID g44010VERSION X64011.1 GI:44010KEYWORDS sod gene; superoxide dismutase.SOURCE Listeria ivanovii.ORGANISM Listeria ivanovii
Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae;Listeria.
REFERENCE 1 (bases 1 to 756)AUTHORS Haas,A. and Goebel,W.TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by
functional complementation in Escherichia coli and characterizationof the gene productof the gene product
JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992)MEDLINE 92140371
REFERENCE 2 (bases 1 to 756)AUTHORS Kreft,J.TITLE Direct SubmissionJOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,
Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG
...
FEATURES Location/Qualifierssource 1..756
/organism="Listeria ivanovii"/strain="ATCC 19119"
Le format GenbankBanques
/strain= ATCC 19119/db_xref="taxon:1638"
RBS 95..100/gene="sod"
gene 95..746/gene="sod"
CDS 109..717/gene="sod"/EC_number="1.15.1.1"/product="superoxide dismutase"/protein_id="CAA45406.1"/db_xref="SWISS-PROT:P28763"/translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSGHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK
terminator 723..746/gene="sod"
BASE COUNT 247 a 136 c 151 g 222 tORIGIN
1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat61 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa
121 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg181 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca...601 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca661 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta721 tcgaaaggct cacttaggtg ggtcttttta tttcta
//
18
Mise à jour
• Quotidiennement :– les séquences collectées chaque jour sont :
Banques
les séquences collectées chaque jour sont :• échangées entre les banques
• « ajoutées » à des sections particulières: EMBL updates, GENBANKNEW...
Ex : EMBLNEW (=EMBL updates) contient 8 637 321 entrées le 8/09/10
• Tous les trois mois : remise à jour complète (full release)• Tous les trois mois : remise à jour complète (full release)la section NEW est « ajoutée » à la banque générale
toute la banque est ré-indexée
EMBL release, indexée 9 juin 2010
Les banques de séquences peptidiques généralistes
Banques à haute l j té
Banques issues de t d ti t ti
Banques
valeur ajoutée traduction automatique
G P tGenPept
Compilation de banques
19
Les banques à haute valeur ajoutée
SWISS-PROT:
Banques
SWISS PROT:
• créée en 1986• collaboration entre le groupe d’Amos Bairoch (Swiss Institute
of Bioinformatics) et l’EBI• annotation de très bonne qualité • nombreuses références croisées vers de nombreuses
banques
http://www.expasy.ch/sprot/
q• non redondante
• 520 000 entrées en septembre 2010 (non exhaustive)• le format est très proche de celui de la banque EMBL
manuel de l’utilisateur : http://www.expasy.org/sprot/userman.html
ID TPIS_LEIME Reviewed; PRT; 251 AA. AC P48499; DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot.DT 01-FEB-1996, sequence version 1.DT 18-APR-2006, entry version 39.DE TRIOSEPHOSPHATE ISOMERASE (EC 5.3.1.1) (TIM). OS Leishmania mexicana. OC Eukaryota; Euglenozoa; Kinetoplastida; Trypanosomatidae; Leishmania. OX NCBI_TaxID=5665; RN [1] RP SEQUENCE FROM N.A. RX MEDLINE=94170780; PubMed=8125090; RA Kohl L., Callens M., Wierenga R.K., Opperdoes F.R., Michels P.A.M.; RT "Triose phosphate isomerase of Leishmania mexicana mexicana Cloning
Une entréeS i P t
Banques
RT "Triose-phosphate isomerase of Leishmania mexicana mexicana. Cloning.. RN [2] RP X-RAY CRYSTALLOGRAPHY (1.83 ANGSTROMS). RX MEDLINE=99249704; PubMed=10235625; RA Williams J.C., Zeelen J.P., Neubauer G., Vriend G., Backmann J., RA Michels P.A.M., Lambeir A.-M., Wierenga R.K.; RT "Structural and mutagenesis studies of leishmania triosephosphate .. CC -!- CATALYTIC ACTIVITY: D-GLYCERALDEHYDE 3-PHOSPHATE = DIHYDROXY-CC ACETONE PHOSPHATE. CC -!- PATHWAY: PLAYS AN IMPORTANT ROLE IN SEVERAL METABOLIC PATHWAYS. CC -!- SUBUNIT: HOMODIMER. CC -!- SUBCELLULAR LOCATION: FOUND IN GLYCOSOMES, AS WELL AS CYTOPLASM. CC -!- SIMILARITY: BELONGS TO THE TRIOSEPHOSPHATE ISOMERASE FAMILY. DR EMBL; X74797; CAA52804.1; -. DR PDB; 1AMK; 17-DEC-97. DR InterPro; IPR000652; Trioseph isomrse
commentaires
Références
Swiss-Prot
DR InterPro; IPR000652; Trioseph_isomrse. DR Pfam; PF00121; TIM; 1. DR ProDom; PD001005; Trioseph_isomrse; 1. DR PROSITE; PS00171; TIM; 1. KW Isomerase; Glycolysis; Gluconeogenesis; Fatty acid biosynthesis; KW Pentose shunt; 3D-structure. FT ACT_SITE 96 96 BY SIMILARITY. FT ACT_SITE 168 168 BY SIMILARITY. SQ SEQUENCE 251 AA; 27178 MW; 987DFEED46F1E3EE CRC64;
MSAKPQPIAA ANWKCNGTTA SIEKLVQVFN EHTISHDVQC VVAPTFVHIP LVQAKLRNPK YVISAENAIA KSGAFTGEVS MPILKDIGVH WVILGHSERR TYYGETDEIV AQKVSEACKQ GFMVIACIGE TLQQREANQT AKVVLSQTSA IAAKLTKDAW NQVVLAYEPV WAIGTGKVAT PEQAQEVHLL LRKWVSENIG TDVAAKLRIL YGGSVNAANA ATLYAKPDIN GFLVGGASLK PEFRDIIDAT R
//
Référencescroisées
Annotations
20
Les banques issues de traduction automatique
…CDS 109 717
GENBANK GENPEPT
Banques
CDS 109..717/protein_id="CAA45406.1"/db_xref=" banque:Access " /translation="MILTG…"
…CDS 1201..1809
/protein_id="CAA45407.1"/db_xref=" banque:Access " /translation="MINHL…"
…CDS 2221..2829
/protein_id="CAA45408.1"/db_xref=" banque:Access " /translation="MVGTT…"
…
…CDS 109 717
EMBLSwissprot
Les banques issues de traduction automatiqueBanques
CDS 109..717/protein_id="CAA45406.1"/db_xref=" banque:Access " /translation="MILTG…"
…CDS 1201..1809
/protein_id="CAA45407.1"/db_xref=" banque:Access " /translation="MINHL…"
TrEMBL
SpTrEMBL
…CDS 2221..2829
/protein_id="CAA45408.1"/db_xref=" banque:Access " /translation="MVGTT…"
…
RemTrEMBL
21
Une entréed l b nqu
ID O67224_AQUAE Unreviewed; PRT; 562 AA.AC O67224;DT 01-AUG-1998 (TrEMBLrel. 07, Created)DT 01-AUG-1998 (TrEMBLrel. 07, Last sequence update)DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update)DE Hydrogenase regulation HoxX.GN Name=hoxX; OrderedLocusNames=AQ_1156;OS Aquifex aeolicus.OC Bacteria; Aquificae; Aquificales; Aquificaceae; Aquifex
Banques
de la banqueTrEMBL
OC Bacteria; Aquificae; Aquificales; Aquificaceae; Aquifex.OX NCBI_TaxID=63363;RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=VF5;RX MEDLINE=98196666; PubMed=9537320; DOI=10.1038/32831;RA Deckert G., Warren P.V., Gaasterland T., Young W.G., Lenox A.L.,RA Graham D.E., Overbeek R., Snead M.A., Keller M., Aujay M., Huber R.,RA Feldman R.A., Short J.M., Olsen G.J., Swanson R.V.;RT "The complete genome of the hyperthermophilic bacterium AquifexRT aeolicus.";RL Nature 392:353-358(1998).DR EMBL; AE000726; AAC07186.1; -; Genomic_DNA.DR PIR; E70399; E70399.…KW Complete proteome; Nuclear proteinKW Complete proteome; Nuclear protein.SQ SEQUENCE 562 AA; 65495 MW; 1856B80EC277B7EB CRC64;
MRILFLSYRF NSLSQRLYCE LTEREHEVSV ELDVHPDLTV EAAELYKPDL IIAPFLKRKIPQEVWKKYKT LIIHPGPPGD RGPNALDWAI MKGERIWGVT LLEASEEYDA GDVWAYRTFPMRFARKASIY RNEVTEGVVE CVLEALENFE RGDFKPTPQK EHWWNPKMEQ ELRRVDWEQDDTKTVLRKVY ASDSQPGASS KVLGKEVLLF NAYPEEELKG KPGEVLALRD EAVCIGTRDGAVWITHMRER KKESIKLPSA RVLGEFLKGV KEDPIKPWEK VDFKTYREIL YEEEDGIGFIHFNFYNGAMS TEQCYRLLET IKYAKKRPVK AIVLLGSEDF FSNGMNLNTI ENAESPADESWRNINAIDDV CEEILKTPDK LTVAGMQGNA GAGGVFLALT CDLVFAREGV VLNPHYKNIGNLYGSEFWTY TLPKRVGWEK GKEVMENRMP ISSKKAFEIG LIDGVFGKTP KEFRQRLKERIKNFINSKDF YEFIEKKKKE RTSGEWLEEI QKCREHELEK MKLNFYGFDT SYHIARYYFVRRKPHFRTPP YLAIHRRLKF SL
//
Les compilations de banquesBanques
TrEMBL PIR-PSD
12 500 000 entrées~ complète
Swissprot
22