27
Annotation de génomes complets Anne Morgat Séminaire IN’Tech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Embed Size (px)

Citation preview

Page 1: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Annotation de génomes complets

Anne Morgat

Séminaire IN’Tech - Octobre 2003 - Lyon

Fondation Rhône-Alpes

Futur

Page 2: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Séquençage= « décryptage » du support physique de l’information génétique

Après le séquençage …

Page 3: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

séquence ADN brute

• Annotation syntaxiqueEléments génétiques (features)

• CDSs, ARNs• Signaux de régulation• Répétitions... etc

détection par contenu

Après le séquençage… l’annotation

Objets« individuels »

BD• Annotation fonctionelle Attribution de « fonction(s) »

• produits des gènes• familles d ’opérateurs

•• Similarité de séquences

•• Annotation contextuelle / relationnelle

• analyse des relations entre les entités

Page 4: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Genome B

Genome A

Synton

Genome A Genome B

Dyn. Prog.

• Génomique comparative

• Réseaux de régulation

• Assemblages moléculaires

ABC tranporters Fichant et al.

• Voies métaboliques

relation

Annotation contextuelle/relationnelle

Page 5: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

............CGACTAGGATGGCGG.................... CGA CTA GGA TGG CGG ........phase 1

............ A L G W A ........

............ CGA CTA GGA TGG CGG ........phase 1

. code génétique + usage des acides-aminés

. usage des codons synonymes (biais d’usage du code)

• Biologie : usage du code génétique

Annotation syntaxique : Recherche de gènes (1)

. ARNt disponibles, taux d’expressions des gènes

Page 6: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

............ A L G W A ........

............ CGA CTA GGA TGG CGG ........phase 1

. code génétique + usage des acides-aminés

. usage des codons synonymes (biais d’usage du code)

P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G)

• Modèle mathématique : Chaînes de Markov

i

A,C,G,T

k

P(X/X1...Xk)Matrice(s) de transitions

• Biologie : usage du code génétique

• Utilisations

start stopPcodant

Apprentissage

w

phase 1

phase 2

phase 3

Annotation syntaxique : Recherche de gènes (1)

. ARNt disponibles, taux d’expressions des gènes

Page 7: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

• Procaryotes

Problèmes en suspens

• assertion des starts (non-ATG / alternatifs)

• protéines « atypiques » (membranaires)

• gènes « atypiques » (transfert horizontal)

GenMark (Borodovski)Glimmer (Salzberg)

Annotation syntaxique : Recherche de gènes (2)

Page 8: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

E. coli

C. jejuni

Modèle des gènes«natifs» de E. coli

Importance de la matrice de référence utilisée…

+1

+2

+3

+1

+2

+3

-1

Annotation syntaxique : Recherche de gènes (3)

Page 9: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

(distance du chi2)

-2- distance entre les distributions

axe 1

axe 2

-3- « meilleure » représentation plane

Gènes

-1- tableau des effectifs en codons

gene1

gene2

gene3

AAA AAC AAT ...

etc...

profil moyen

Codons

Usage des codons et Analyse Factorielle des Correspondances

Page 10: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Table de contingence

Usage des codons et Analyse Factorielle des Correspondances

Page 11: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Table de contingence AFC Visualisation Manipulation

Usage des codons et Analyse Factorielle des Correspondances

Page 12: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Table de contingence AFC Visualisation

localisation des gènes sur le chromosome

Manipulation

Usage des codons et Analyse Factorielle des Correspondances

Page 13: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

?

« FONCTION » ?• rôle biochimique• rôle physiologique• mécanisme

• par similarité de séquence (criblage de banques)

• expérimental (gène rapporteur; expression différentielle...)

• par contexte (voisinage)

• « synténies »• métabolisme. …

Annotation fonctionnelle

Page 14: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

?

Annotation fonctionnelle : similarité de séquences (2)

- domaines conservés- familles d’homologues- génomes de « référence »

NCBI NR,SwissProt,…

Bases«généralistes» Bases

«spécialisées»

PFAM,SMART,COGs,EcoGene

Similarités de séquence :

Analyse de séquences (aa) :

• peptides signaux, régions transmembranaires• structures 3D (PDB)

• Alignement de séquences(prog. dynamique)• Recherche de patterns, profils

Page 15: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

ACIAD2549 :« Conserved hypothetical protein »

Synténies bactériennes

Utilisation du contexte :

2549

25502551

2552

Annotation fonctionnelle : similarité de séquences (1)

- propagation des « erreurs »

- « orphelins »

Page 16: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Principe: recherche de synténies bactériennes

Etape 1 homologues

Genome A

Genome B

« synton »

Genome A Genome B

Blast+

Prog. Dyn.

Etape 2 distributionchromosomique

Annotation fonctionnelle : utilisation du contexte (2)

Page 17: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

B. subtilis (168)

E. coli (K12)

Synténies bactériennes

Page 18: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Quelles sont les fonctions associées à

ces gènes?

Page 19: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur
Page 20: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur
Page 21: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

B. subtilis (168)

E. coli (K12)

Page 22: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Voie de biosynthèse de la ménaquinone

Page 23: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

menC

B. subtilis (168)

E. coli (K12)

Page 24: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Low similarity

ytfD: First identified as an N-acylamino acid racemase (by similarity)Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999)

menC

ytfD

Page 25: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Annotation fonctionnelle : intégration de données hétérogènes

EC

EC

données métaboliques

données protéiques

données génomiques

chromosome

polypeptide

pathway

complexe moléculaire enzyme

gènesignal

réactionbiochimique

métabolite

opéron

bases de séquences…

Page 26: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Annotation fonctionnelle : intégration de données hétérogènes

organism

gene

protein

enzyme

- n-aires- requêtes

problèmes de représentation - des objets - des relations

?

Page 27: Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur

Environnement d’expertise

Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés) l’exploration des données (requêtes, navigation)

Environnement logiciel d’annotation

organism

gene

protein

enzymeEC

EC

données métaboliques

données protéiques

données génomiques

chromosome

polypeptide

pathway

complexemoléculaire enzyme

gènesignal

réactionbiochimique

métabolite

opéron

bases de séquences…