23
1 Plan 1 l 1. nomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale : localisation des éléments génétiques b) Annotation fonctionnelle c) Intégrations Annotation Fonctionnelle Recherche de la fonction des gènes ou des protéines Génomique fonctionnelle - transcriptomique Données b bl h Génomique Prédictions in silico - protéomique - interactomique... bibliographiques

annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

1

Plan

1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes

a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégrations

Annotation Fonctionnelle

Recherche de la fonction des gènes ou des protéines

Génomique fonctionnelle- transcriptomiqueDonnées

b bl h

Génomique

Prédictions in silico

p m q- protéomique- interactomique...

bibliographiques

Page 2: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

2

Annotation fonctionnelle

gène

protéine

Fasta, BlastpPsi-Blast

Génomique

Banques protéiques généralistes

UniProt RefSeq

Protéines homologues

Les erreursd’annotation

?

Banque

Protéine malannotée

Protéine query

BLASTP

Propagation des erreurs

Génomique

Page 3: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

3

SPT:P72010 P72010 GLYCEROL 1-PHAPHATE DEHYDROGENASE. 3/2001 356 3e-97SPTNEW:AAK41055 Aak41055 GLYCEROL-1-PHOSPHATE DEHYDROGENASE ... 337 2e-91SPT:Q9UXE7 Q9uxe7 GLYCEROL 1-PHOSPHATE DEHYDROGENASE. 3/2001 337 2e-91SPT:Q9YER2 Q9yer2 370AA LONG HYPOTHETICAL GLYCEROL DEHYDROGE... 320 2e-86SPTNEW:BAB60393 Bab60393 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENA... 283 2e-75SPT:Q9HJ16 Q9hj16 GLYCEROL 1-PHOSPHATE DEHYDROGENASE RELATED... 277 2e-73SPT:Q9HS49 Q9hs49 VNG0406C. 3/2001 277 2e-73SW:Y712_METJA Q58122 HYPOTHETICAL PROTEIN MJ0712. 8/2001 265 5e-70SPT:O28599 O28599 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE (GLD... 248 9e-65SPT:Q9X7U9 Q9x7u9 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 182 5e-45SPT:Q9L1H9 Q9l1h9 PUTATIVE DEHYDROGENASE. 6/2001 176 5e-43SW:ARAM_BACSU P94527 ARABINOSE OPERON PROTEIN ARAM. 8/2001 157 3e-37SPT:O85004 O85004 PUTATIVE GLYCEROL-2-PHOSPHATE DEHYDROGENAS... 154 1e-36

PH1475

Annotation

351AA long hypotheticalGlycerol 1-Phaphate dehydrogenase

(SPT:O59144)

SPT:Q9KBR3 Q9kbr3 L-ARABINOSE UTILIZATION PROTEIN. 10/2000 145 1e-33SPT:Q9WYC1 Q9wyc1 ARAM PROTEIN, PUTATIVE. 6/2001 120 3e-26SPT:Q9RGD4 Q9rgd4 GLYCEROL DEHYDROGENASE (EC 1.1.1.6). 6/2001 87 4e-16SW:GLDA_CITFR P45511 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 81 2e-14SPT:Q9HHR2 Q9hhr2 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE. 6/2001 80 4e-14SW:GLDA_ECOLI P32665 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 79 7e-14SPTNEW:BAB38297 Bab38297 GLYCEROL DEHYDROGENASE. 6/2001 79 9e-14SPTNEW:AAG59146 Aag59146 GLYCEROL DEHYDROGENASE, (NAD). 6/2001 79 9e-14SPT:Q99XT5 Q99xt5 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 78 2e-13SW:GLDA_BACST P32816 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 78 2e-13SW:GLDA_PSEPU P50173 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 70 5e-11SW:YB67_SYNY3 P74246 HYPOTHETICAL OXIDOREDUCTASE SLR1167. 8/... 65 2e-09SPT:O13702 O13702 PUTATIVE GLYCEROL DEHYDROGENASE (EC 1.1.1.... 64 2e-09SW:YBDH_ECOLI P45579 HYPOTHETICAL OXIDOREDUCTASE IN CSTA-AHP... 63 6e-09SPTNEW:AAG54934 Aag54934 PUTATIVE OXIDOREDUCTASE. 6/2001 62 8e-09SW:AROB BUCAI P57604 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 59 9e-08SPT:Q9RNG6 Q9rng6 3-DEHYDROQUINATE SYNTHETASE HOMOLOG (FRAGM... 57 5e-07SPT:Q9A434 Q9a434 3-DEHYDROQUINATE SYNTHASE. 6/2001 53 7e-06SPT:Q9U2M4 Q9u2m4 Y38F1A.6 PROTEIN. 6/2001 52 9e-06SW:ADHB_CLOAB Q04945 NADH-DEPENDENT BUTANOL DEHYDROGENASE B ... 52 9e-06SPT:Q9JVW5 Q9jvw5 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 1e-05SW:CLCE_PSEAE O87612 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 1e-05SPT:Q9PNT2 Q9pnt2 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 2e-05SW:CLCE_PSESB O30847 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 2e-05SW:AROB_SALTY P77980 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 51 3e-05SW:AROB_BACSU P31102 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 50 4e-05SPT:P70784 P70784 TECR. 6/2001 50 6e-05

1e-07

1e-05

Les erreursd’annotation

?

Banque

Protéine malannotée

Protéine query

BLASTP

Propagation des erreurs

Protéine queryProtéines modulaires

BLASTP

Génomique

Banque

BLASTP

Page 4: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

4

SPT:O59127 O59127 587AA LONG HYPOTHETICAL PROTEIN. 5/99 875 0.0SPT:O27968 O27968 CONSERVED HYPOTHETICAL PROTEIN. 5/99 469 e-131SPTNEW:BAA81615 Baa81615 610AA LONG HYPOTHETICAL PROTEIN. 9/99 395 e-109SPT:O26919 O26919 MOLYBDENUM COFACTOR BIOSYNTHESIS MOAA HOMOLOG... 340 2e-92SW:Y619_METJA Q58036 HYPOTHETICAL PROTEIN MJ0619. 11/97 336 5e-91SW:YA54_METJA Q58454 HYPOTHETICAL PROTEIN MJ1054 (EC 1.1.1.-). ... 107 5e-22SPT O69696 O69696 HYPOTHETICAL 84 1 KD PROTEIN 5/99 104 3e 21

Exemple de problème d’annotation:les protéines à intéines

SPT:O69696 O69696 HYPOTHETICAL 84.1 KD PROTEIN. 5/99 104 3e-21SW:DPOL_PYRHO O59610 DNA POLYMERASE (EC 2.7.7.7). 7/99 77 7e-13SPT:P77933 P77933 DNA-DEPENDENT DNA POLYMERASE (EC 2.7.7.7) (DN... 76 1e-12SW:Y832_METJA Q58242 HYPOTHETICAL PROTEIN MJ0832. 12/98 71 3e-11SW:YE20_METJA Q58815 HYPOTHETICAL PROTEIN MJ1420. 12/98 67 6e-10SPTNEW:BAA79722 Baa79722 726AA LONG HYPOTHETICAL PROTEIN. 9/99 66 1e-09SW:MOAA_METJA Q58234 PUTATIVE MOLYBDOPTERIN COFACTOR SYNTHESIS ... 64 6e-09SPT:O58384 O58384 1136AA LONG HYPOTHETICAL PROTEIN. 5/99 61 4e-08SPT:O67929 O67929 MOLYBDENUM COFACTOR BIOSYNTHESIS PROTEIN A. 5/99 58 3e-07SPT:O53143 O53143 MOAA PROTEIN. 5/99 57 5e-07SW:RPA2_METJA Q58446 DNA-DIRECTED RNA POLYMERASE SUBUNIT A" (EC... 57 6e-07SW:DPOL_PYRSD Q51334 DNA POLYMERASE (EC 2.7.7.7) (DEEP VENT DNA... 57 6e-07PABY:PAB2273 PAB2273 moaA molybdenum cofactor biosynthesis prot... 56 1e-06SW:CNX2_ARATH Q39055 MOLYBDOPTERIN BIOSYNTHESIS CNX2 PROTEIN (M... 54 4e-06SPTNEW:AAD32277 Aad32277 MOLYBDOPTERIN BIOSYNTHESIS CNX2 PROTEI... 54 4e-06SPT:O58837 O58837 1352AA LONG HYPOTHETICAL ATP DEPENDENT HELICA 54 4e 06

MooA protein ?DNA polymerase ?Helicase ?Translation factor ?Transcription factor ?

Génomique

SPT:O58837 O58837 1352AA LONG HYPOTHETICAL ATP-DEPENDENT HELICA... 54 4e-06SPT:O28273 O28273 MOLYBDENUM COFACTOR BIOSYNTHESIS PROTEIN (MOA... 54 6e-06SW:IF2P_METJA Q57710 PROBABLE TRANSLATION INITIATION FACTOR IF-... 53 7e-06SPTNEW:CAB04440 Cab04440 F49H6.5 PROTEIN. 3/99 53 1e-05SPT:O57854 O57854 316AA LONG HYPOTHETICAL MOLYBDENUM COFACTOR B... 52 2e-05SW:DPOL_METJA Q58295 DNA POLYMERASE (EC 2.7.7.7). 12/98 52 2e-05SW:MOAA_MYCTU O05786 MOLYBDENUM COFACTOR BIOSYNTHESIS PROTEIN A... 51 4e-05SW:TF2B_METJA Q58192 TRANSCRIPTION INITIATION FACTOR IIB HOMOLO... 50 6e-05SPT:O28270 O28270 HEME BIOSYNTHESIS PROTEIN (NIRJ-2). 5/99 50 8e-05

Intéine avec domaine Domaine Domaine

Génomique

Intéine avec domaine endonucléase C-terminal de MooAN-terminal de MooA

Page 5: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

5

Annotation des protéines

gène

Prints

INT

E

protéine

Fasta, BlastpPsi-Blast

Prosite

Smart

Prodom

ER

PR

OC

D se

Smart

Génomique

Banques protéiques généralistes

SwissProt SpTrEMBL PIR

Pfam

Motifs, domaines, Protéines homologues

earch

Les erreursd’annotation

?

Banque

Protéine malannotée

Protéine query

BLASTP

Propagation des erreurs

Protéine queryProtéines modulaires

BLASTP

Banque

BLASTP

Paralogie

Fonction 1

Génomique

Banque

BLASTP

?

Protéine query

BLASTP

paralogue

Fonction 1

Fonction 2

Page 6: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

6

Relations d’homologie

spéciation

X1 X2

X0

ancêtre

orthologie

spéciation

X1 X2

X0

ancêtre

orthologie

duplication

X0

Espèce 0

Y0 Z0

paralogie

duplication

X0

Espèce 0

Y0 Z0

paralogie

X

espèce 1

Y

espèce 2

Gène ancestralcommun

Transfert horizontal

xénologie

X

espèce 1

Y

espèce 2

Gène ancestralcommun

Transfert horizontal

xénologieRappel

X1

espèce 1

X2

espèce 2

X1

espèce 1

X2

espèce 2Y0

espèce 0

Z0Y0

espèce 0

Z0X et Y espèce 1X et Y espèce 1

Fonction souventconservée

Fonction souventlégèrement différente

ATPase et GTPase6% 3% 7%

Importance de la paralogie

NAD/FAD utilizing enzymes

DNA binding proteins

Signal transduction systems

Fe-S oxidoreductases

S-adenosylmethionine methyltransferase

Other families of paralogs

6% 3%

0%

0%

42%

43%

7% 2%3%0%5%0%

36%

47%

Synechocystis sp. (57%) Methanococcus jannaschii (53%)

Génomique

No paralogs8% 2%3%0%0%1%

27%59%

12%2%0%0%0%1%

20%

65%

Mycoplasma genitalium (35%)Haemophilus influenzae (41%)

Prokaryotic genomes: the emerging paradigm of genome-based microbiologyKoonin & GalperinCurrent Opinion in Genetics & development7:757-763 (1997)

Page 7: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

7

Importance de la paralogieSegmentally duplicated regions in the Arabidopsis genome.

The Arabidopsis Genome Initiative. Nature 408:796-815 (2000)

Importance de la paralogie3 des 5 classes de protéases chez l’homme, la souris et le rat

GénomiqueRat Genome Sequencing Project Consortium, Nature 2004

Page 8: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

8

Devenir des paralogues

è Après duplication… 1 gène conserve fonction initiale, l’autre dégénère

=> pseudogène 1 gène conserve fonction initiale, l’autre évolue rapidement

=> nouvelle fonction le gène ancestral a plusieurs fonctions, les 2 gènes perdent

une partie de leur fonction=> complémentation

maintien de la fonction ancestrale mais spécialisationex: expression tissu-spécifique

Whole genome duplication in yeast

Examples of duplicated blocks in Saccharomyces cerevisiae

Kellis et al. Nature 2004

Page 9: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

9

Whole genome duplication in yeastAverage divergence for gene pairs (nb subst/1000 aa)

GénomiqueKellis et al. Nature 2004

Whole genome duplication in yeast

Origin of replication recognition complex protein ORC1 / Silencing protein SIR3

Kellis et al. Nature 2004

Page 10: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

10

Identification des orthologues

gi|2129084|pir||C64499 isocitrate dehydrogenase (EC 1.1.1.-... 666 0.0gi|7431325|pir||A69113 isocitrate dehydrogenase - Methanoba... 310 1e-83gi|6685584|sp|O27441|LEU3_METTH 3-ISOPROPYLMALATE DEHYDROGE... 303 2e-81gi|2129085|pir||H64389 isocitrate dehydrogenase (NADP+) (EC... 295 5e-79gi|3915940|sp|Q58130|LEU3_METJA 3-ISOPROPYLMALATE DEHYDROGE... 294 6e-79gi|11498236|ref|NP_069462.1| 3-isopropylmalate dehydrogenas... 278 4e-74gi|14521551|ref|NP_127027.1| 3-isopropylmalate dehydrogenas... 274 1e-72gi|7473536|pir||E75368 probable isocitrate dehydrogenase - ... 271 6e-72gi|15023878|gb|AAK78948.1|AE007613_4 (AE007613) Isocitrate ... 262 3e-69gi|6686294|sp|P50455|LEU3_SULS7 3-ISOPROPYLMALATE DEHYDROGE... 253 1e-66gi|11251519|pir||A82539 isocitrate dehydrogenase XF2596 [im... 251 5e-66g | |p || y g [gi|7492685|pir||T38621 probable isopropyl malate dehydrogen... 249 3e-65gi|6015753|emb|CAB57580.1| (Y18930) 3-isopropylmalate dehyd... 246 2e-64gi|6322097|ref|NP_012172.1| Homo-isocitrate dehydrogenase; ... 239 3e-62gi|14520655|ref|NP_126130.1| 3-isopropylmalate dehydrogenas... 235 3e-61gi|462385|sp|P33197|IDH_THETH ISOCITRATE DEHYDROGENASE [NAD... 231 7e-60gi|281496|pir||A43934 isocitrate dehydrogenase (NADP+) (EC ... 231 8e-60gi|15282623|ref|NP_201775.1| 3-isopropylmalate dehydrogenas... 228 8e-59gi|6685603|sp|Q9WZ26|LEU3_THEMA 3-ISOPROPYLMALATE DEHYDROGE... 224 8e-58gi|6225524|sp|Q9ZDR0|IDH_RICPR ISOCITRATE DEHYDROGENASE [NA... 224 8e-58

Identification des orthologues

Seuil de % d’identité ? Seuil d’expect ?

45 45

F

F

Conservation variable entre orthologues suivant les protéines considérées

22

HA

Transcriptionalregulator

4

11 11

HA

Tryptophanyl-tRNA synthetase

protéines considérées

Page 11: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

11

Identification des orthologuesComparaison par Blastp des protéines des génomes complets

« all-against-all » protein sequence comparison

P1

P2

P10best hit

• recherche des protéines dont le meilleur hit est à l’intérieur du même génome Identification des paralogues « récents »

• recherche des meilleurs hits réciproques (« reciprocal best hits »)

reciprocal best hit

P2

P3

P4

P5

Génome A

P26

P50

Génome B

Méthode utilisée dans COGhttp://www.ncbi.nlm.nih.gov/COG

PFUR:PFOK1717 1801964 1802872 R Pf_1801961 531 e-150SPT:O58008 O58008 294AA LONG HYPOTHETICAL ASPARAGINYL-TRNA SYNT... 521 e-147False

di ti

P. furiosus P. horikoshii

Multiple alignmentPABY:PAB2203 PAB2203 asnS ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1... 105 4e-22PFUR:PFOK1838 162483 163808 R Pf_162480 163793,163808 102 3e-21SPT:O57980 O57980 434AA LONG HYPOTHETICAL ASPARAGINYL-TRNA SYNT... 102 4e-21SW:SYN_THETH P54263 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 94 1e-18SW:SYD_METJA Q58950 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 90 1e-17SW:SYN_LACDE P54262 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 90 2e-17SW:SYD_ARCFU O29342 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 88 6e-17SW:SYN_BACSU P39772 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 86 2e-16SW:SYN_MYCGE P47359 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 84 9e-16SW:SYD_HALSA O07683 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 84 9e-16SW:SYN_MYCPN P75521 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 81 1e-14SW:SYD_METTH O26328 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 81 1e-14SPTNEW:BAA81203 Baa81203 421AA LONG HYPOTHETICAL ASPARTYL-TRNA ... 80 1e-14PFUR:PFOK0989 842910 844235 F Pf_844238 80 2e-14SW:SYN_BORBU O51128 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 79 3e-14

Results of BlastP search for PABY2356

prediction

Génomique

SW:SYN_ECOLI P17242 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 78 5e-14SW:SYN_HAEIN P43829 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 77 1e-13SW:SYD_HALVO O24822 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 76 3e-13PABY:PAB0646 PAB0646 aspS aspartyl-tRNA synthetase (aspS) 75 5e-13SPT:O58776 O58776 438AA LONG HYPOTHETICAL ASPARTYL-TRNA SYNTHET... 75 8e-13

Schematic view of the multiple alignment : differences in domain organisation

Anticodon binding domain

Page 12: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

12

Schematic view of the multiple alignment

Multiple alignmentSchematic view of the multiple alignment

Analysis of conservation : loss of key catalytic residues

Génomique

Arbres phylogénétiques

Famille X

Famille Y

Sp2

Sp4Sp3

Sp5

Sp1

Sp9

Sp8

Sp7

Sp6Sp5

Sp4

Page 13: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

13

Annotation fonctionnelle

gène

Prints

Pfam

IN Prédictions ab initio

protéine

Fasta, BlastpPsi-Blast

Prints

Prosite

Blocks

Smart

Prodom

NT

ER

PR

O

ab initio

Hélices transmembranaires

Peptide signal

Structures secondaires...

Génomique

COGBanques protéiques généralistes

SwissProt SpTrEMBL PIR

Motifs, domaines,familles

Protéines homologues Localisation, structure, ...

Bilan des annotations

Page 14: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

14

Bilan des annotations

Erreur d’annotations : (Brenner, Trends Genet. 1999)8 %

L’annotation est un processus dynamique=> Intégration de nouvelles données

Bilan des annotations

Estimated percentages of error for different functional descriptions in three microbial genomes

Devos & Valencia, Trends In Genetics, 2001

Page 15: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

15

Bilan des annotations

Misannotation over time in the NR database (from Genbank) for the 37 families investigated.

Schnoes et al, Plos Computational Biology, 2009

Page 16: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

16

Plan

1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes

a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégration

Localisation des éléments génétiques• éléments répétés • régions de régulation• gènes codant pour des ARNs non traduitsgènes codant pour des ARNs non traduits• gènes protéiques, pseudogènes…

Protéines• recherche de similarité• recherche de domaines fonctionnels• recherche de motifs « signature »

Intégration biologique• reconstitution des processus biologiques

Voies métaboliques,…• reconstitution des interactions,…• modélisation des systèmes…

Une tâche infinie !!!

Page 17: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

17

Intégration : catégories fonctionnelles

E. coli K12

Intégration : GOOntologie utilisée pour annoter les gènes et leurs produits (ARN protéines)Ontologie utilisée pour annoter les gènes et leurs produits (ARN,protéines)

=> vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à n’importe quel organisme

Structure de l’ontologie : un graphe=> noeuds = concepts liens : is_a et part_of

3 ontologies: fonction moléculaire localisation cellulaire processus biologique

Page 18: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

18

Intégration avec GO

[ th t i

[other organelles]

protein complex organelle

mitochondrion

is-apart-of

[other protein complexes]

fatty acid beta-oxidation multienzyme complex

Intégration des données

Gene Ontology Annotation for Human

Page 19: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

19

KEGG (Kyoto Encyclopedia of Genes and Genomes)

http://www.genome.jp/kegg/

KEGG pathways Global metabolic map

Page 20: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

20

Kegg pathways

Ex : DNA replication

KEGG metabolic pathwaysEx: Homo sapiens

Page 21: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

21

STRING

http://string.embl.de/

STRING

Page 22: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

22

Mueller et al. Biochimica et Biophysica Acta 2007

Blaby-Haas & de Crécy-Lagard, Trends in Biotechnology, 2011

Page 23: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale

23

From genome to systems biology

Borodina & Nielsen, Current Opinion in Biotechnology, 2005