Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation...

Preview:

Citation preview

Annotation de génomes complets

Anne Morgat

Séminaire IN’Tech - Octobre 2003 - Lyon

Fondation Rhône-Alpes

Futur

Séquençage= « décryptage » du support physique de l’information génétique

Après le séquençage …

séquence ADN brute

• Annotation syntaxiqueEléments génétiques (features)

• CDSs, ARNs• Signaux de régulation• Répétitions... etc

détection par contenu

Après le séquençage… l’annotation

Objets« individuels »

BD• Annotation fonctionelle Attribution de « fonction(s) »

• produits des gènes• familles d ’opérateurs

•• Similarité de séquences

•• Annotation contextuelle / relationnelle

• analyse des relations entre les entités

Genome B

Genome A

Synton

Genome A Genome B

Dyn. Prog.

• Génomique comparative

• Réseaux de régulation

• Assemblages moléculaires

ABC tranporters Fichant et al.

• Voies métaboliques

relation

Annotation contextuelle/relationnelle

............CGACTAGGATGGCGG.................... CGA CTA GGA TGG CGG ........phase 1

............ A L G W A ........

............ CGA CTA GGA TGG CGG ........phase 1

. code génétique + usage des acides-aminés

. usage des codons synonymes (biais d’usage du code)

• Biologie : usage du code génétique

Annotation syntaxique : Recherche de gènes (1)

. ARNt disponibles, taux d’expressions des gènes

............ A L G W A ........

............ CGA CTA GGA TGG CGG ........phase 1

. code génétique + usage des acides-aminés

. usage des codons synonymes (biais d’usage du code)

P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G)

• Modèle mathématique : Chaînes de Markov

i

A,C,G,T

k

P(X/X1...Xk)Matrice(s) de transitions

• Biologie : usage du code génétique

• Utilisations

start stopPcodant

Apprentissage

w

phase 1

phase 2

phase 3

Annotation syntaxique : Recherche de gènes (1)

. ARNt disponibles, taux d’expressions des gènes

• Procaryotes

Problèmes en suspens

• assertion des starts (non-ATG / alternatifs)

• protéines « atypiques » (membranaires)

• gènes « atypiques » (transfert horizontal)

GenMark (Borodovski)Glimmer (Salzberg)

Annotation syntaxique : Recherche de gènes (2)

E. coli

C. jejuni

Modèle des gènes«natifs» de E. coli

Importance de la matrice de référence utilisée…

+1

+2

+3

+1

+2

+3

-1

Annotation syntaxique : Recherche de gènes (3)

(distance du chi2)

-2- distance entre les distributions

axe 1

axe 2

-3- « meilleure » représentation plane

Gènes

-1- tableau des effectifs en codons

gene1

gene2

gene3

AAA AAC AAT ...

etc...

profil moyen

Codons

Usage des codons et Analyse Factorielle des Correspondances

Table de contingence

Usage des codons et Analyse Factorielle des Correspondances

Table de contingence AFC Visualisation Manipulation

Usage des codons et Analyse Factorielle des Correspondances

Table de contingence AFC Visualisation

localisation des gènes sur le chromosome

Manipulation

Usage des codons et Analyse Factorielle des Correspondances

?

« FONCTION » ?• rôle biochimique• rôle physiologique• mécanisme

• par similarité de séquence (criblage de banques)

• expérimental (gène rapporteur; expression différentielle...)

• par contexte (voisinage)

• « synténies »• métabolisme. …

Annotation fonctionnelle

?

Annotation fonctionnelle : similarité de séquences (2)

- domaines conservés- familles d’homologues- génomes de « référence »

NCBI NR,SwissProt,…

Bases«généralistes» Bases

«spécialisées»

PFAM,SMART,COGs,EcoGene

Similarités de séquence :

Analyse de séquences (aa) :

• peptides signaux, régions transmembranaires• structures 3D (PDB)

• Alignement de séquences(prog. dynamique)• Recherche de patterns, profils

ACIAD2549 :« Conserved hypothetical protein »

Synténies bactériennes

Utilisation du contexte :

2549

25502551

2552

Annotation fonctionnelle : similarité de séquences (1)

- propagation des « erreurs »

- « orphelins »

Principe: recherche de synténies bactériennes

Etape 1 homologues

Genome A

Genome B

« synton »

Genome A Genome B

Blast+

Prog. Dyn.

Etape 2 distributionchromosomique

Annotation fonctionnelle : utilisation du contexte (2)

B. subtilis (168)

E. coli (K12)

Synténies bactériennes

Quelles sont les fonctions associées à

ces gènes?

B. subtilis (168)

E. coli (K12)

Voie de biosynthèse de la ménaquinone

menC

B. subtilis (168)

E. coli (K12)

Low similarity

ytfD: First identified as an N-acylamino acid racemase (by similarity)Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999)

menC

ytfD

Annotation fonctionnelle : intégration de données hétérogènes

EC

EC

données métaboliques

données protéiques

données génomiques

chromosome

polypeptide

pathway

complexe moléculaire enzyme

gènesignal

réactionbiochimique

métabolite

opéron

bases de séquences…

Annotation fonctionnelle : intégration de données hétérogènes

organism

gene

protein

enzyme

- n-aires- requêtes

problèmes de représentation - des objets - des relations

?

Environnement d’expertise

Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés) l’exploration des données (requêtes, navigation)

Environnement logiciel d’annotation

organism

gene

protein

enzymeEC

EC

données métaboliques

données protéiques

données génomiques

chromosome

polypeptide

pathway

complexemoléculaire enzyme

gènesignal

réactionbiochimique

métabolite

opéron

bases de séquences…

Recommended