22
1 Bioinformatique O. Lecompte Laboratoire de Bioinformatique et Laboratoire de Bioinformatique et Génomique Intégratives - IGBMC odile.lecompte@igbmc. fr De l’artisanat au haut débit… 1951 première séquence protéique 1967 construction d’arbres phylogénétiques Introduction 1970 algorithme de Needleman & Wunsch 1977 séquençage de l’ADN (Méthode Sanger) premier package bioinformatique (Staden) 1978 bases de données Pir, EMBL, Genbank 1981 algorithme d’alignement local (Smith & Waterman) 1990 programme Blast 1991 étiquettes d’ADNc « EST » 1995 séquençage du génome complet d’une bactérie 1996 séquençage complet du génome de la levure 2001 première version du génome humain => Début de l’ère post-génomique

De l’artisanat au haut débit…

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: De l’artisanat au haut débit…

1

Bioinformatique

O. LecompteLaboratoire de Bioinformatique etLaboratoire de Bioinformatique et Génomique Intégratives - IGBMC

odile.lecompte@igbmc. fr

De l’artisanat au haut débit…

1951 première séquence protéique

1967 construction d’arbres phylogénétiques

Introduction

1970 algorithme de Needleman & Wunsch

1977 séquençage de l’ADN (Méthode Sanger)

premier package bioinformatique (Staden)

1978 bases de données Pir, EMBL, Genbank

1981 algorithme d’alignement local (Smith & Waterman)

1990 programme Blastp g

1991 étiquettes d’ADNc « EST »

1995 séquençage du génome complet d’une bactérie

1996 séquençage complet du génome de la levure

2001 première version du génome humain

=> Début de l’ère post-génomique

Page 2: De l’artisanat au haut débit…

2

2002 WatersonSéquence préliminaire du génome de la souris (Waterston et al., 2002) (2,5 Gb)

IntroductionL’ère post-génomique

2004 ENCODE PCENCODE, projet d’identification de tous les éléments fonctionnels du génome humain (ENCODE Project Consortium, 2004)

2005 Roche, 454Séquenceur automatique haut‐débit de 2ème génération par pyroséquençage : GS20

2007

Illumina, SolexaSéquenceur automatique haut‐débit de 2ème génération par synthèse microfluidique : Genome Analyzer

2007

Applied BiosystemsSéquençage automatique haut‐débit de 2ème génération par ligation : système SOLiD

2008 HelicosSéquenceur automatique de 2ème génération par synthèse sans pré‐amplification

2010 Plus de 1000 génomes complets disponibles

Contexte scientifiqueIntroduction

génomesinteractomes

transcriptomes

phénomes

protéomes

Page 3: De l’artisanat au haut débit…

3

La bioinformatique est partout !

Growth of PDB

Introduction

génomique

transcriptomique

génomique structurale

interactomique

phénomique

protéomique

BioinformatiqueIntroduction

Définition

Utilisation de l’outil informatique dans l’acquisition, la gestion et l’analyse d’informations d’origine biologique

• Séquences

• Structures

Définition

Structures

• Profils d’expression

•…

Page 4: De l’artisanat au haut débit…

4

Principaux axes

– Bases de donnéest k l’i f ti l’ i t l d ibl

Introduction

stocker l’information, l’organiser et la rendre accessible

– Développement de logiciels - outils pour l’assemblage de contigs - outils de comparaison de séquences- outils de prédiction de structures secondaires ou tridimensionnelles- outils de clustering ...

Bioanalyse:– Bioanalyse: • formuler des prédictions (localiser un gène, prédire la fonction d’un gène, annoter un génome, recherche de cibles...)• énoncer des hypothèses généralistes (repliement des protéines, évolution des espèces, modèle cellulaire...)

Quelques centres de bioinformatique

• EBI (European Bioinformatics Institute)

Introduction

• NCBI (National Center for Biotechnology Information)

http://www.ebi.ac.uk/

http://www.ncbi.nlm.nih.gov/

Page 5: De l’artisanat au haut débit…

5

1 Banques de données

PlanIntroduction

Comparaison de 2 séquences

Alignement multiple

2

3

Phylogénie moléculaire4

Banques de données en biologie

• Rôles des banques

Banques

Rôles des banques– Stockage

– Diffusion (ftp, web…)

– Organisation et standardisation des données

– Connectivité avec autres banques

– Actualisation

Page 6: De l’artisanat au haut débit…

6

NAR Database CategoriesBanques

Quelques banques majeures

• Séquences

Banques

– nucléiques

– protéiques

– mixtes

• Structures

• Familles, domaines et sites protéiques

• Ontologie

• Cluster de transcrits

Page 7: De l’artisanat au haut débit…

7

Banques de séquences nucléiques généralistesBanques

EMBLnucleotidesequencedatabase

Genbank(NCBI)

• 3 banques

• Échanges quotidiens des séquences collectées

• Effort d’unification=> format– accord entre GenBank et

DNA databank of

Japan(DDBJ)

accord entre GenBank et EMBL en 1986

– accord entre Genbank/EMBL et DDBJ in 1987

Les banques de séquences nucléiques généralistes

• Des banques incontournables : dé ôt bli t i d d 3 b t bli ti

Banques

– dépôt obligatoire dans une des 3 banques avant publication – unique moyen d’accès aux séquences

• Alimentation : – soumission directe par la communauté scientifique

(associée ou non à une publication)– dépôts de brevets

• Conséquences– banques exhaustives– banques extrêmement redondantes– contiennent des erreurs

Page 8: De l’artisanat au haut débit…

8

Banques

Soumission des séquences :Webin, Bankit, Sequin…

Webin

http://www.ebi.ac.uk/embl/Submission/webin.html

Evolution de la banque EMBLBanques

http://www3.ebi.ac.uk/Services/DBStats/

Sept 2010 : 292 milliards de nucléotides, 195 millions d’entrées

Page 9: De l’artisanat au haut débit…

9

Le « top 10 » des organismes

Septembre 2005 (en nb de nucléotides)

Banques

Monodelphis : opossumLoxodonta : éléphantDasypus : armadillo

Septembre 2010 (en nb de nucléotides)

Les divisions

EMBL GBHuman HUM -Primates - PRIbasées sur la

Banques

Primates PRI Mus musculus MUS MUSRodents ROD RODOther mammals MAM MAMOther vertebrates VRT VRTInvertebrates INV INVPlants PLNFungi FUNProcaryotes PRO BCT

PLN

basées sur la taxonomie

Viruses VRL VRLBacteriophages PHG PHGUnclassified UNC UNASynthetic SYN SYNEnvironmental sample ENV ENV

Transgenic TGN TGN

Page 10: De l’artisanat au haut débit…

10

DivisionsBanques

Les classes

Standard STD

Patents PAT

Banques

basées sur la d d é Expressed Sequence Tags EST

High-Throughput cDNA sequencing HTC

Transcriptome Shotgun assembly TSA

Genome Survey Sequence GSS

Sequence Tagged Sites STS

High-Throughput Genome sequencing HTG

Wh l G Sh WGSex : CAGE (Cap Analysis Gene

Expression) sequences

nature des données

Whole Genome Shotgun WGS

Mass sequences for Genome Annotation MGA

Third Party Annotation TPA

Constructed CON

Annotated constructed ANN

Expression) sequences => the initial 20 bases from a

5′ end mRNA

Page 11: De l’artisanat au haut débit…

11

CAAT TATA

Sited’initiation

Codon initiateur

Codon Stop

5’ UTR 3’ UTR

Site determinaison

Intron 1 Intron 2

Les ESTsBanques

CAAT TATA

ARN prémessager

Signal de polyadenylation

ARNm maturecoiffe Poly ACDS

5’ 3’

Reverse transcriptase

5’ UTR 3’ UTR

ADNc

p

Séquençage des EST

Classe Construct (CON)

ID BSXX standard; circular DNA; CON; 4214814 BP.

XX

AC AL009126;

XX

Taille Max d’une séquence : 350 kb

Banques

SV AL009126.1

XX

DT 18-MAY-2001 (Rel. 67, Created)

DT 18-MAY-2001 (Rel. 67, Last updated, Version 1)

XX

DE Bacillus subtilis complete genome.

...

FH Key Location/Qualifiers

FH

FT source 1..4214814

FT /db_xref="taxon:1423"

Découpage de la séquence

FT /organism="Bacillus subtilis"

FT /strain="168"

XX

CO join(Z99104.1:1..213080,Z99105.1:18431..221160,Z99106.1:13061..209100,

CO Z99107.1:11151..213190,Z99108.1:11071..208430,Z99109.1:11751..210440,

CO Z99110.1:15551..216750,Z99111.1:16351..208230,Z99112.1:4601..208780,

CO Z99113.1:26001..233780,Z99114.1:14811..207730,Z99115.1:12361..213680,

CO Z99116.1:13961..218470,Z99117.1:14281..213420,Z99118.1:17741..218410,

CO Z99119.1:15771..215640,Z99120.1:16411..217420,Z99121.1:14871..209510,

CO Z99122.1:11971..212610,Z99123.1:11301..212150,Z99124.1:11271..215534)

//Absence de « vraie » séquence

Les différentes séquences qui constituent la séquence originelle

Page 12: De l’artisanat au haut débit…

12

Les classesBanques

Organisation de l’information

Un enregistrement (entrée) :•les informations relatives à la séquence•la séquence elle-même

ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.XX AC X64011; S78972; XX SV X64011.1 XX DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8)XX DE L.ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE 92140371

Banques

la séquence elle même•indicateur de fin d’enregistrement

RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii."; RL Mol. Gen. Genet. 231:313-322(1992). XX DR SWISS-PROT; P28763; SODM_LISIV. XX FH Key Location/Qualifiers FH FT source 1..756 FT /organism="Listeria ivanovii" FT CDS 109..717 FT /db_xref="SWISS-PROT:P28763" FT /product="superoxide dismutase" FT /protein_id="CAA45406.1" FT /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSGFT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAAFT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGLFT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"

Les champs :•regrouper les informations d’un même type •faciliter l’accès à l’information

Format général (flat file) :

cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720tcgaaaggct cacttaggtg ggtcttttta tttcta 756

//

XX SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;

g ( )•enregistrements organisés séquentiellement•fichier texte (ASCII)

•fichiers disponibles en XML

Page 13: De l’artisanat au haut débit…

13

Les champs de la banque EMBL

ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.XX

identifiant

N° d ’ è

Code à 2 lettresNature de la molécule classe et division

Banques

AC X64011; S78972; XX SV X64011.1 XX DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8)XX DE L.ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria.

N° d ’accès

Date

Description

Mots-clés

Organisme

Version

OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of theRT gene product."; RL Mol. Gen. Genet. 231:313-322(1992). XX

Références

RN [2] RP 1-756 RA Kreft J.; RT ; RL S bmitted (21 APR 1992) to the EMBL/GenBank/DDBJ databases

Références

Les champs de la banque EMBLBanques

RL Submitted (21-APR-1992) to the EMBL/GenBank/DDBJ databases. RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum AmRL Hubland, 8700 Wuerzburg, FRG XX DR SWISS-PROT; P28763; SODM_LISIV. XX FH Key Location/Qualifiers FH FT source 1..756 FT /db_xref="taxon:1638" FT /organism="Listeria ivanovii" FT /strain="ATCC 19119" FT RBS 95..100 FT /gene="sod" FT terminator 723..746

« Features »

Liens

FT /gene="sod" FT CDS 109..717 FT /db_xref="SWISS-PROT:P28763" FT /transl_table=11 FT /gene="sod" FT /EC_number="1.15.1.1" FT /product="superoxide dismutase" FT /protein_id="CAA45406.1" FT /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSGFT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAAFT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGLFT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" XX

Page 14: De l’artisanat au haut débit…

14

SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240

Sequence header

Sequence

Les champs de la banque EMBLBanques

g g g g g gggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720tcgaaaggct cacttaggtg ggtcttttta tttcta 756

//

Nucleotide base codes (IUPAC)Authority Nomenclature Committee of the International Union of Biochemistry

Fin del’enregistrement

Authority Nomenclature Committee of the International Union of Biochemistry

Reference Cornish-Bowden, A. Nucl Acid Res 13, 3021-3030 (1985)

Symbol Meaning Symbol Meaning Symbol Meaning

a a; adenine m a or c v a or c or g; not t

c c; cytosine r a or g h a or c or t; not g

g g; guanine w a or t d a or g or t; not c

t t; thymine in DNA; uracil in RNA s c or g b c or g or t; not a

y c or t n a or c or g or t

k g or t

« Features »

« Key »- la nature biologique de l’élément annoté

d i f i l h d l é ( i i )

Banques

- des informations sur les changements de la séquence (versions, mutations,..)

« Location » position de l’élément annoté dans la séquence

« Qualifiers » des informations supplémentaires concernant l’élément annoté

Key Location/QualifiersFT source 1..1859FT /db f "t 3899"FT /db_xref="taxon:3899"FT /organism="Trifolium repens"FT /tissue_type="leaves"FT CDS 14..1495FT /db_xref="SWISS-PROT:P26204"FT /EC_number="3.2.1.21"FT /product="beta-glucosidase"FT /protein_id="CAA40058.1"FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSR.......---------+---------+---------+---------+---------+---------+---------+---------1 10 20 30 40 50 60 70 79

Page 15: De l’artisanat au haut débit…

15

Eléments annotés (« Feature keys »)

misc_RNA prim_transcript

precursor_RNA mRNA

immunoglobulin_related C_region D_segment J_segment

misc_feature misc_difference

conflict unsure old sequence

Banques

5'clip 3'clip 5'UTR 3'UTR exon CDS

sig_peptide transit_peptide mat_peptide

intron polyA_site rRNA tRNA scRNA snRNA

N_region S_region V_region V_segment

repeat_region repeat_unit LTR satellite

misc_binding primer_bind protein_bind

misc_recomb iDNA

misc_structurestem_loop

old_sequence variation modified_base

gene misc_signal

promoter CAAT_signal TATA_signal -35_signal -10_signal GC_signal

RBS polyA_signal enhancer attenuator terminator

snoRNA D_loopterminator rep_origin

http://www3.ebi.ac.uk/Services/WebFeat/

Position (« Location »)• descriptifs de position :

• une base x• un site entre deux bases : x^y

Banques

• un site entre deux bases : x y• un base situé dans un intervalle donné : x.y• une région : x..y

• opérateurs :• complement (location)• join (location,location,...location)

Exem

ples

330 base 330 100..322 bases de 100 à 322 inclues <100..322 La borne inférieure est située en 5’ de la base 100 <1..322 L’élément annoté commence avant la première base de la

séquence 1..>322 L’élément annoté continue au-delà de la position 332 (100.110) Une base entre les positions 100 et 110 inclues 102^103 Le site situé entre les bases 102 et 103 join(10..200,330..400) Les régions 10 à 200 et 330 à 400 réunies en une seule

séquence complement(25..700) région 25 à 700 en complémentaire complement(join(230..501,810..1500)) Les régions 230 à 501 et 810 à 1500 réunies puis

complémentées

Page 16: De l’artisanat au haut débit…

16

source 1..9430 /organism="Lactococcus sp." /strain="MG1234"

-35 signal 160..165

Exemple: Opéron bactérien

FeaturesBanques

g/gene="galA" /evidence=EXPERIMENTAL

-10_signal 179..184 /gene="galA" /evidence=EXPERIMENTAL

CDS 405..1934 /gene="galA" /product="galactose permease" /function="galactose transporter" /evidence=EXPERIMENTAL

CDS 2003 3001CDS 2003..3001 /gene="galM" /product="aldose 1-epimerase" /EC_number="5.1.3.3" /function="mutarotase"

CDS 3235..4537 /gene="galK" /product="galactokinase" /EC_number="2.7.1.6" /evidence=EXPERIMENTAL

source 1. .19924 /organism="" /db_xref="taxon:9606" /tissue_type="placenta"

gene 1. .19855 /gene="CSN2"

Exemple: gèneeucaryote

FeaturesBanques

/g Spromoter 1. .9389

/gene="CSN2" TATA_signal 9360. .9367

/gene="CSN2" exon 9390. .9437

/gene="CSN2" /number=1

mRNA join(9390. .9437,14108. .14170,15036. .15062,16042. .16062, 16158. .16202,17307. .17837,18756. .18797,19519. .19855) /gene="CSN2" /product="beta-casein"

intron 9438. .14107 /gene="CSN2" /number=1

exon 14108. .14170

eucaryote

/gene="CSN2" /number=2

CDS join(14120. .14170,15036. .15062,16042. .16062,16158. .16202,17307. .17837,18756. .18761) /gene="CSN2" /codon_start=1 /product="beta-casein" /protein_id="AAC82978.1" /db_xref="GI:2695661" /translation="MKVLILACLVALALARETIESLSSSEESITEYKQKVEKVKHEDQ QQGEDEHQDKIYPSFQPQPLIYPFVEPIPYGFLPQNILPLAQPAVVLPVPQPEIMEVP KAKDTVYTKGRVMPVLKSPTIPFFDPQIPKLTDLENLHLPLPLLQPLMQQVPQPIPQT LALPPQPLWSVPQPKVLPIPQQVVPYPQRAVPVQALLLNQELLLNPTHQIYPVTQPLA PVHNPISV"

Page 17: De l’artisanat au haut débit…

17

Le format Genbank

LOCUS X64011 756 bp DNA linear BCT 26-SEP-2006DEFINITION L.ivanovii sod gene for superoxide dismutase.

Banques

ACCESSION X64011 S78972NID g44010VERSION X64011.1 GI:44010KEYWORDS sod gene; superoxide dismutase.SOURCE Listeria ivanovii.ORGANISM Listeria ivanovii

Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae;Listeria.

REFERENCE 1 (bases 1 to 756)AUTHORS Haas,A. and Goebel,W.TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by

functional complementation in Escherichia coli and characterizationof the gene productof the gene product

JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992)MEDLINE 92140371

REFERENCE 2 (bases 1 to 756)AUTHORS Kreft,J.TITLE Direct SubmissionJOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,

Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG

...

FEATURES Location/Qualifierssource 1..756

/organism="Listeria ivanovii"/strain="ATCC 19119"

Le format GenbankBanques

/strain= ATCC 19119/db_xref="taxon:1638"

RBS 95..100/gene="sod"

gene 95..746/gene="sod"

CDS 109..717/gene="sod"/EC_number="1.15.1.1"/product="superoxide dismutase"/protein_id="CAA45406.1"/db_xref="SWISS-PROT:P28763"/translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSGHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK

terminator 723..746/gene="sod"

BASE COUNT 247 a 136 c 151 g 222 tORIGIN

1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat61 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa

121 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg181 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca...601 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca661 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta721 tcgaaaggct cacttaggtg ggtcttttta tttcta

//

Page 18: De l’artisanat au haut débit…

18

Mise à jour

• Quotidiennement :– les séquences collectées chaque jour sont :

Banques

les séquences collectées chaque jour sont :• échangées entre les banques

• « ajoutées » à des sections particulières: EMBL updates, GENBANKNEW...

Ex : EMBLNEW (=EMBL updates) contient 8 637 321 entrées le 8/09/10

• Tous les trois mois : remise à jour complète (full release)• Tous les trois mois : remise à jour complète (full release)la section NEW est « ajoutée » à la banque générale

toute la banque est ré-indexée

EMBL release, indexée 9 juin 2010

Les banques de séquences peptidiques généralistes

Banques à haute l j té

Banques issues de t d ti t ti

Banques

valeur ajoutée traduction automatique

G P tGenPept

Compilation de banques

Page 19: De l’artisanat au haut débit…

19

Les banques à haute valeur ajoutée

SWISS-PROT:

Banques

SWISS PROT:

• créée en 1986• collaboration entre le groupe d’Amos Bairoch (Swiss Institute

of Bioinformatics) et l’EBI• annotation de très bonne qualité • nombreuses références croisées vers de nombreuses

banques

http://www.expasy.ch/sprot/

q• non redondante

• 520 000 entrées en septembre 2010 (non exhaustive)• le format est très proche de celui de la banque EMBL

manuel de l’utilisateur : http://www.expasy.org/sprot/userman.html

ID TPIS_LEIME Reviewed; PRT; 251 AA. AC P48499; DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot.DT 01-FEB-1996, sequence version 1.DT 18-APR-2006, entry version 39.DE TRIOSEPHOSPHATE ISOMERASE (EC 5.3.1.1) (TIM). OS Leishmania mexicana. OC Eukaryota; Euglenozoa; Kinetoplastida; Trypanosomatidae; Leishmania. OX NCBI_TaxID=5665; RN [1] RP SEQUENCE FROM N.A. RX MEDLINE=94170780; PubMed=8125090; RA Kohl L., Callens M., Wierenga R.K., Opperdoes F.R., Michels P.A.M.; RT "Triose phosphate isomerase of Leishmania mexicana mexicana Cloning

Une entréeS i P t

Banques

RT "Triose-phosphate isomerase of Leishmania mexicana mexicana. Cloning.. RN [2] RP X-RAY CRYSTALLOGRAPHY (1.83 ANGSTROMS). RX MEDLINE=99249704; PubMed=10235625; RA Williams J.C., Zeelen J.P., Neubauer G., Vriend G., Backmann J., RA Michels P.A.M., Lambeir A.-M., Wierenga R.K.; RT "Structural and mutagenesis studies of leishmania triosephosphate .. CC -!- CATALYTIC ACTIVITY: D-GLYCERALDEHYDE 3-PHOSPHATE = DIHYDROXY-CC ACETONE PHOSPHATE. CC -!- PATHWAY: PLAYS AN IMPORTANT ROLE IN SEVERAL METABOLIC PATHWAYS. CC -!- SUBUNIT: HOMODIMER. CC -!- SUBCELLULAR LOCATION: FOUND IN GLYCOSOMES, AS WELL AS CYTOPLASM. CC -!- SIMILARITY: BELONGS TO THE TRIOSEPHOSPHATE ISOMERASE FAMILY. DR EMBL; X74797; CAA52804.1; -. DR PDB; 1AMK; 17-DEC-97. DR InterPro; IPR000652; Trioseph isomrse

commentaires

Références

Swiss-Prot

DR InterPro; IPR000652; Trioseph_isomrse. DR Pfam; PF00121; TIM; 1. DR ProDom; PD001005; Trioseph_isomrse; 1. DR PROSITE; PS00171; TIM; 1. KW Isomerase; Glycolysis; Gluconeogenesis; Fatty acid biosynthesis; KW Pentose shunt; 3D-structure. FT ACT_SITE 96 96 BY SIMILARITY. FT ACT_SITE 168 168 BY SIMILARITY. SQ SEQUENCE 251 AA; 27178 MW; 987DFEED46F1E3EE CRC64;

MSAKPQPIAA ANWKCNGTTA SIEKLVQVFN EHTISHDVQC VVAPTFVHIP LVQAKLRNPK YVISAENAIA KSGAFTGEVS MPILKDIGVH WVILGHSERR TYYGETDEIV AQKVSEACKQ GFMVIACIGE TLQQREANQT AKVVLSQTSA IAAKLTKDAW NQVVLAYEPV WAIGTGKVAT PEQAQEVHLL LRKWVSENIG TDVAAKLRIL YGGSVNAANA ATLYAKPDIN GFLVGGASLK PEFRDIIDAT R

//

Référencescroisées

Annotations

Page 20: De l’artisanat au haut débit…

20

Les banques issues de traduction automatique

…CDS 109 717

GENBANK GENPEPT

Banques

CDS 109..717/protein_id="CAA45406.1"/db_xref=" banque:Access " /translation="MILTG…"

…CDS 1201..1809

/protein_id="CAA45407.1"/db_xref=" banque:Access " /translation="MINHL…"

…CDS 2221..2829

/protein_id="CAA45408.1"/db_xref=" banque:Access " /translation="MVGTT…"

…CDS 109 717

EMBLSwissprot

Les banques issues de traduction automatiqueBanques

CDS 109..717/protein_id="CAA45406.1"/db_xref=" banque:Access " /translation="MILTG…"

…CDS 1201..1809

/protein_id="CAA45407.1"/db_xref=" banque:Access " /translation="MINHL…"

TrEMBL

SpTrEMBL

…CDS 2221..2829

/protein_id="CAA45408.1"/db_xref=" banque:Access " /translation="MVGTT…"

RemTrEMBL

Page 21: De l’artisanat au haut débit…

21

Une entréed l b nqu

ID O67224_AQUAE Unreviewed; PRT; 562 AA.AC O67224;DT 01-AUG-1998 (TrEMBLrel. 07, Created)DT 01-AUG-1998 (TrEMBLrel. 07, Last sequence update)DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update)DE Hydrogenase regulation HoxX.GN Name=hoxX; OrderedLocusNames=AQ_1156;OS Aquifex aeolicus.OC Bacteria; Aquificae; Aquificales; Aquificaceae; Aquifex

Banques

de la banqueTrEMBL

OC Bacteria; Aquificae; Aquificales; Aquificaceae; Aquifex.OX NCBI_TaxID=63363;RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=VF5;RX MEDLINE=98196666; PubMed=9537320; DOI=10.1038/32831;RA Deckert G., Warren P.V., Gaasterland T., Young W.G., Lenox A.L.,RA Graham D.E., Overbeek R., Snead M.A., Keller M., Aujay M., Huber R.,RA Feldman R.A., Short J.M., Olsen G.J., Swanson R.V.;RT "The complete genome of the hyperthermophilic bacterium AquifexRT aeolicus.";RL Nature 392:353-358(1998).DR EMBL; AE000726; AAC07186.1; -; Genomic_DNA.DR PIR; E70399; E70399.…KW Complete proteome; Nuclear proteinKW Complete proteome; Nuclear protein.SQ SEQUENCE 562 AA; 65495 MW; 1856B80EC277B7EB CRC64;

MRILFLSYRF NSLSQRLYCE LTEREHEVSV ELDVHPDLTV EAAELYKPDL IIAPFLKRKIPQEVWKKYKT LIIHPGPPGD RGPNALDWAI MKGERIWGVT LLEASEEYDA GDVWAYRTFPMRFARKASIY RNEVTEGVVE CVLEALENFE RGDFKPTPQK EHWWNPKMEQ ELRRVDWEQDDTKTVLRKVY ASDSQPGASS KVLGKEVLLF NAYPEEELKG KPGEVLALRD EAVCIGTRDGAVWITHMRER KKESIKLPSA RVLGEFLKGV KEDPIKPWEK VDFKTYREIL YEEEDGIGFIHFNFYNGAMS TEQCYRLLET IKYAKKRPVK AIVLLGSEDF FSNGMNLNTI ENAESPADESWRNINAIDDV CEEILKTPDK LTVAGMQGNA GAGGVFLALT CDLVFAREGV VLNPHYKNIGNLYGSEFWTY TLPKRVGWEK GKEVMENRMP ISSKKAFEIG LIDGVFGKTP KEFRQRLKERIKNFINSKDF YEFIEKKKKE RTSGEWLEEI QKCREHELEK MKLNFYGFDT SYHIARYYFVRRKPHFRTPP YLAIHRRLKF SL

//

Les compilations de banquesBanques

TrEMBL PIR-PSD

12 500 000 entrées~ complète

Swissprot

Page 22: De l’artisanat au haut débit…

22