17
1 Plan 1 l 1. nomes complets 2. Architecture des génomes 3. Annotation des génomes a) Annotation structurale : localisation des éléments génétiques b) Annotation fonctionnelle c) Intégrations Annotation Fonctionnelle Recherche de la fonction des gènes ou des protéines Génomique fonctionnelle - transcriptomique Données b bl h Génomique Prédictions in silico - protéomique - interactomique... bibliographiques

annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

1

Plan

1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes

a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégrations

Annotation Fonctionnelle

Recherche de la fonction des gènes ou des protéines

Génomique fonctionnelle- transcriptomiqueDonnées

b bl h

Génomique

Prédictions in silico

p m q- protéomique- interactomique...

bibliographiques

Page 2: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

2

Annotation fonctionnelle

gène

protéine

Fasta, BlastpPsi-Blast

Génomique

Banques protéiques généralistes

UniProt RefSeq

Protéines homologues

Les erreursd’annotation

?

Banque

Protéine malannotée

Protéine query

BLASTP

Propagation des erreurs

Génomique

Page 3: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

3

SPT:P72010 P72010 GLYCEROL 1-PHAPHATE DEHYDROGENASE. 3/2001 356 3e-97SPTNEW:AAK41055 Aak41055 GLYCEROL-1-PHOSPHATE DEHYDROGENASE ... 337 2e-91SPT:Q9UXE7 Q9uxe7 GLYCEROL 1-PHOSPHATE DEHYDROGENASE. 3/2001 337 2e-91SPT:Q9YER2 Q9yer2 370AA LONG HYPOTHETICAL GLYCEROL DEHYDROGE... 320 2e-86SPTNEW:BAB60393 Bab60393 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENA... 283 2e-75SPT:Q9HJ16 Q9hj16 GLYCEROL 1-PHOSPHATE DEHYDROGENASE RELATED... 277 2e-73SPT:Q9HS49 Q9hs49 VNG0406C. 3/2001 277 2e-73SW:Y712_METJA Q58122 HYPOTHETICAL PROTEIN MJ0712. 8/2001 265 5e-70SPT:O28599 O28599 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE (GLD... 248 9e-65SPT:Q9X7U9 Q9x7u9 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 182 5e-45SPT:Q9L1H9 Q9l1h9 PUTATIVE DEHYDROGENASE. 6/2001 176 5e-43SW:ARAM_BACSU P94527 ARABINOSE OPERON PROTEIN ARAM. 8/2001 157 3e-37SPT:O85004 O85004 PUTATIVE GLYCEROL-2-PHOSPHATE DEHYDROGENAS... 154 1e-36

PH1475

Annotation

351AA long hypotheticalGlycerol 1-Phaphate dehydrogenase

(SPT:O59144)

SPT:Q9KBR3 Q9kbr3 L-ARABINOSE UTILIZATION PROTEIN. 10/2000 145 1e-33SPT:Q9WYC1 Q9wyc1 ARAM PROTEIN, PUTATIVE. 6/2001 120 3e-26SPT:Q9RGD4 Q9rgd4 GLYCEROL DEHYDROGENASE (EC 1.1.1.6). 6/2001 87 4e-16SW:GLDA_CITFR P45511 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 81 2e-14SPT:Q9HHR2 Q9hhr2 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE. 6/2001 80 4e-14SW:GLDA_ECOLI P32665 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 79 7e-14SPTNEW:BAB38297 Bab38297 GLYCEROL DEHYDROGENASE. 6/2001 79 9e-14SPTNEW:AAG59146 Aag59146 GLYCEROL DEHYDROGENASE, (NAD). 6/2001 79 9e-14SPT:Q99XT5 Q99xt5 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 78 2e-13SW:GLDA_BACST P32816 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 78 2e-13SW:GLDA_PSEPU P50173 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 70 5e-11SW:YB67_SYNY3 P74246 HYPOTHETICAL OXIDOREDUCTASE SLR1167. 8/... 65 2e-09SPT:O13702 O13702 PUTATIVE GLYCEROL DEHYDROGENASE (EC 1.1.1.... 64 2e-09SW:YBDH_ECOLI P45579 HYPOTHETICAL OXIDOREDUCTASE IN CSTA-AHP... 63 6e-09SPTNEW:AAG54934 Aag54934 PUTATIVE OXIDOREDUCTASE. 6/2001 62 8e-09SW:AROB BUCAI P57604 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 59 9e-08SPT:Q9RNG6 Q9rng6 3-DEHYDROQUINATE SYNTHETASE HOMOLOG (FRAGM... 57 5e-07SPT:Q9A434 Q9a434 3-DEHYDROQUINATE SYNTHASE. 6/2001 53 7e-06SPT:Q9U2M4 Q9u2m4 Y38F1A.6 PROTEIN. 6/2001 52 9e-06SW:ADHB_CLOAB Q04945 NADH-DEPENDENT BUTANOL DEHYDROGENASE B ... 52 9e-06SPT:Q9JVW5 Q9jvw5 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 1e-05SW:CLCE_PSEAE O87612 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 1e-05SPT:Q9PNT2 Q9pnt2 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 2e-05SW:CLCE_PSESB O30847 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 2e-05SW:AROB_SALTY P77980 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 51 3e-05SW:AROB_BACSU P31102 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 50 4e-05SPT:P70784 P70784 TECR. 6/2001 50 6e-05

1e-07

1e-05

Les erreursd’annotation

?

Banque

Protéine malannotée

Protéine query

BLASTP

Propagation des erreurs

Protéine queryProtéines modulaires

BLASTP

Génomique

Banque

BLASTP

Page 4: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

4

Annotation des protéines

gène

Prints

INT

E

protéine

Fasta, BlastpPsi-Blast

Prosite

Smart

Prodom

ER

PR

OC

D se

Smart

Génomique

Banques protéiques généralistes

SwissProt SpTrEMBL PIR

Pfam

Motifs, domaines, Protéines homologues

earch

Les erreursd’annotation

?

Banque

Protéine malannotée

Protéine query

BLASTP

Propagation des erreurs

Protéine queryProtéines modulaires

BLASTP

Banque

BLASTP

Paralogie

Fonction 1

Génomique

Banque

BLASTP

?

Protéine query

BLASTP

paralogue

Fonction 1

Fonction 2

Page 5: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

5

Relations d’homologie

spéciation

X1 X2

X0

ancêtre

orthologie

spéciation

X1 X2

X0

ancêtre

orthologie

duplication

X0

Espèce 0

Y0 Z0

paralogie

duplication

X0

Espèce 0

Y0 Z0

paralogie

X

espèce 1

Y

espèce 2

Gène ancestralcommun

Transfert horizontal

xénologie

X

espèce 1

Y

espèce 2

Gène ancestralcommun

Transfert horizontal

xénologieRappel

X1

espèce 1

X2

espèce 2

X1

espèce 1

X2

espèce 2Y0

espèce 0

Z0Y0

espèce 0

Z0X et Y espèce 1X et Y espèce 1

Fonction souventconservée

Fonction souventlégèrement différente

Devenir des paralogues

è Après duplication… 1 gène conserve fonction initiale, l’autre dégénère

=> pseudogène 1 gène conserve fonction initiale, l’autre évolue rapidement

=> nouvelle fonction le gène ancestral a plusieurs fonctions, les 2 gènes perdent

une partie de leur fonction=> complémentation

maintien de la fonction ancestrale mais spécialisationex: expression tissu-spécifique

Page 6: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

6

ATPase et GTPase6% 3% 7%

Importance de la paralogie

NAD/FAD utilizing enzymes

DNA binding proteins

Signal transduction systems

Fe-S oxidoreductases

S-adenosylmethionine methyltransferase

Other families of paralogs

6% 3%

0%

0%

42%

43%

7% 2%3%0%5%0%

36%

47%

Synechocystis sp. (57%) Methanococcus jannaschii (53%)

Génomique

No paralogs8% 2%3%0%0%1%

27%59%

12%2%0%0%0%1%

20%

65%

Mycoplasma genitalium (35%)Haemophilus influenzae (41%)

Prokaryotic genomes: the emerging paradigm of genome-based microbiologyKoonin & GalperinCurrent Opinion in Genetics & development7:757-763 (1997)

Importance de la paralogieSegmentally duplicated regions in the Arabidopsis genome.

The Arabidopsis Genome Initiative. Nature 408:796-815 (2000)

Page 7: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

7

Importance de la paralogie3 des 5 classes de protéases chez l’homme, la souris et le rat

GénomiqueRat Genome Sequencing Project Consortium, Nature 2004

Identification des orthologues

gi|2129084|pir||C64499 isocitrate dehydrogenase (EC 1.1.1.-... 666 0.0gi|7431325|pir||A69113 isocitrate dehydrogenase - Methanoba... 310 1e-83gi|6685584|sp|O27441|LEU3_METTH 3-ISOPROPYLMALATE DEHYDROGE... 303 2e-81gi|2129085|pir||H64389 isocitrate dehydrogenase (NADP+) (EC... 295 5e-79gi|3915940|sp|Q58130|LEU3_METJA 3-ISOPROPYLMALATE DEHYDROGE... 294 6e-79gi|11498236|ref|NP_069462.1| 3-isopropylmalate dehydrogenas... 278 4e-74gi|14521551|ref|NP_127027.1| 3-isopropylmalate dehydrogenas... 274 1e-72gi|7473536|pir||E75368 probable isocitrate dehydrogenase - ... 271 6e-72gi|15023878|gb|AAK78948.1|AE007613_4 (AE007613) Isocitrate ... 262 3e-69gi|6686294|sp|P50455|LEU3_SULS7 3-ISOPROPYLMALATE DEHYDROGE... 253 1e-66gi|11251519|pir||A82539 isocitrate dehydrogenase XF2596 [im... 251 5e-66g | |p || y g [gi|7492685|pir||T38621 probable isopropyl malate dehydrogen... 249 3e-65gi|6015753|emb|CAB57580.1| (Y18930) 3-isopropylmalate dehyd... 246 2e-64gi|6322097|ref|NP_012172.1| Homo-isocitrate dehydrogenase; ... 239 3e-62gi|14520655|ref|NP_126130.1| 3-isopropylmalate dehydrogenas... 235 3e-61gi|462385|sp|P33197|IDH_THETH ISOCITRATE DEHYDROGENASE [NAD... 231 7e-60gi|281496|pir||A43934 isocitrate dehydrogenase (NADP+) (EC ... 231 8e-60gi|15282623|ref|NP_201775.1| 3-isopropylmalate dehydrogenas... 228 8e-59gi|6685603|sp|Q9WZ26|LEU3_THEMA 3-ISOPROPYLMALATE DEHYDROGE... 224 8e-58gi|6225524|sp|Q9ZDR0|IDH_RICPR ISOCITRATE DEHYDROGENASE [NA... 224 8e-58

Page 8: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

8

Identification des orthologuesComparaison par Blastp des protéines des génomes complets

« all-against-all » protein sequence comparison

P1

P2

P10best hit

• recherche des protéines dont le meilleur hit est à l’intérieur du même génome Identification des paralogues « récents »

• recherche des meilleurs hits réciproques (« reciprocal best hits »)

reciprocal best hit

P2

P3

P4

P5

Génome A

P26

P50

Génome B

Méthode utilisée dans COGhttp://www.ncbi.nlm.nih.gov/COG

Arbres phylogénétiques

Famille X

Famille Y

Sp2

Sp4Sp3

Sp5

Sp1

Sp9

Sp8

Sp7

Sp6Sp5

Sp4

Page 9: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

9

Annotation fonctionnelle

gène

Prints

Pfam

IN Prédictions ab initio

protéine

Fasta, BlastpPsi-Blast

Prints

Prosite

Blocks

Smart

Prodom

NT

ER

PR

O

ab initio

Hélices transmembranaires

Peptide signal

Structures secondaires...

Génomique

COGBanques protéiques généralistes

SwissProt SpTrEMBL PIR

Motifs, domaines,familles

Protéines homologues Localisation, structure, ...

Bilan des annotations

Page 10: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

10

Bilan des annotations

Erreur d’annotations : (Brenner, Trends Genet. 1999)8 %

L’annotation est un processus dynamique=> Intégration de nouvelles données

Bilan des annotations

Estimated percentages of error for different functional descriptions in three microbial genomes

Devos & Valencia, Trends In Genetics, 2001

Page 11: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

11

Bilan des annotations

Misannotation over time in the NR database (from Genbank) for the 37 families investigated.

Schnoes et al, Plos Computational Biology, 2009

Plan

1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes

a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégration

Page 12: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

12

Localisation des éléments génétiques• éléments répétés • régions de régulation• gènes codant pour des ARNs non traduitsgènes codant pour des ARNs non traduits• gènes protéiques, pseudogènes…

Protéines• recherche de similarité• recherche de domaines fonctionnels• recherche de motifs « signature »

Intégration biologique• reconstitution des processus biologiques

Voies métaboliques,…• reconstitution des interactions,…• modélisation des systèmes…

Une tâche infinie !!!

Intégration : catégories fonctionnelles

E. coli K12

Page 13: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

13

Intégration : GOOntologie utilisée pour annoter les gènes et leurs produits (ARN protéines)Ontologie utilisée pour annoter les gènes et leurs produits (ARN,protéines)

=> vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à n’importe quel organisme

Structure de l’ontologie : un graphe=> noeuds = concepts liens : is_a et part_of

3 ontologies: fonction moléculaire localisation cellulaire processus biologique

Intégration des données

Gene Ontology Annotation for Human

Page 14: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

14

KEGG (Kyoto Encyclopedia of Genes and Genomes)

http://www.genome.jp/kegg/

KEGG pathways Global metabolic map

Page 15: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

15

KEGG metabolic pathwaysEx: Homo sapiens

Kegg pathways

Ex : DNA replication

Page 16: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

16

STRING

http://string.embl.de/

STRING

Page 17: annotation.ppt [Mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à

17

From genome to systems biology

Borodina & Nielsen, Current Opinion in Biotechnology, 2005