View
218
Download
0
Category
Preview:
Citation preview
Annotation de séquences génomiques: gènes
Olivier GarsmeurGaétan Droc
Franc-Christophe BaurensDominique This
Stéphanie Sidibé-Bocs
Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2
principales questions :
1) Où sont les gènes et comment sont-ils distribués ?
Distinguer gènes et éléments transposables
Annotation structurale
2) Quelle est la fonction de ces gènes ?
Annotation fonctionnelle
Annotation des séquences génomiques
Les gènes
● Ou sont les gènes? ● Les prédictions sont basées sur la structure (motifs, signatures ): intron,
exon, splice site, UTR.
Gene
StopGT AG
Gène prédit fonctionnel Structure complète
Codon initiateur M (ATG)Stop codon TAA, TAG or TGAGT (GC) / AG splicing sitePas de stop dans les exons prédits
Pseudogene (non fonctionnel) Structure NON complete
missing_acceptormissing_donormissing_start_codonmissing_stop_codonmultiple_stop_in_frame
CDS (CoDing Sequence)
ATG
Exon1 Exon2
Annotation automatique
Deux méthodes d'annotation automatique :
1. Méthodes intrinsèques (ab-initio)
2. Méthodes extrinsèques
-Basée uniquement sur des analyses informatiques avec des modèles statistiques
-Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome
- Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"
1. Méthode intrinsèque d'annotation automatique
1. Méthode intrinsèque d'annotation automatique
Lukashin & Borodovsky, 1998
ensemble des transitions possibles entre états cachés (cercles)
brin direct
brin complémentaire
Exemples de logiciels de prédiction des gènes
Outils d'annotation automatique des gènes
Plantes: GeneMark.HMMGeneFinderEugeneFgeneSHGlimmerAAugustus
Animaux:GenieHMMgeneMagPieGenIDGrail
Humain:GenescanGeneFinderGeneWise
2. Méthodes extrinsèques
ADNg
Protéine
AlignementADNg - Protéine
AlignementADNg - ADNc
ADNc ADNg
AlignementADNg - ADNg
Approche comparative basée sur les similarités de séquences-> la séquence à annoter est comparée aux bases de données
3 types de comparaison
L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits
dans les bases de données
sequence (query) target (Subject) database
BLASTN nucleotide nucleotide NR , EST, genomes
BLASTX translated nucleotide protein Swissprot-Trembl
BLASTP protein protein Swissprot-Trembl
TBLASTX translated nucleotide translated nucleotide NR , EST, genomes
TBLASTN protein translated nucleotide NR , EST, genomes
2. Méthodes extrinsèques
Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines
Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants
Domaines protéiques conservés = signatures
http://www.ebi.ac.uk/interpro/
2. Méthodes extrinsèques
BD de domaines utilisées par Interproscan :
Prosite patternsPfamProDomSuperfamily TIGRFAMsGENE3DHAMAPPANTHERPIRSF
Bases de données…oui, mais…
Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments).
Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs
Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) Cluster d’ESTs disponibles, detection de structures correspondant à des gènes
Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)
Eléments répétésLes gènes ne représentent qu’une petite portion du génome
● Les éléments répétés peuvent représenter plus de 80% du génome (blé)différents types
Class Order Superfamily Family Code / LabelCopia opie RLCGypsy maggy RLG
Unclassified RLXL1 RIL
Unclassified RIXAlu RSA
Unclassified RSXCACTA DTCMutator DTM
Stowaway DTTTourist DTH
Helitron Helitron DHH
LTR, long terminal repeat;LINE, long interspersed nuclear element;SINE, short interspersed nuclear element;TIR , terminal inverted repeat.MITE, Miniature Inverted Transposable Element
DNA transposons
TIR
MITE
LINE
SINE
Retrotransposon
LTR
Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.
Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons
LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy)
On peut filtrer les éléments répétés avant l'annotation des gènes -les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment)
Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée
Repeat masker est l'outil le plus utilisé pour masquer les répétitions
http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker
Masquer les séquences répétées
Annotation automatique pratique, mais à vérifier manuellement !
Réalisée avec des programmes informatiques, algorithmes statistiques
- le résultat est un équilibre entre faux positifs et faux négatifs- le transfert peut induire des erreurs ou des aberrations
travail humain, donc :
- lent !- également source d'erreur !
Annoter manuellement les gènes dans les régions d'intérêt
Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)
Annotation automatique
Méthode intégrative = ab-initio + approches comparativesPrédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour
améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)
Méthode intégrative d'annotation automatique
Evaluation de la pertinence de l’annotationExemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago
VP (vrais positifs) gènes prédits, réellement présents = bonne prédictionFP (faux positifs) gènes prédits, mais réellement non présents = sur prédictionFN (faux négatifs) gènes non prédits, mais normalement présents = sous prédictionVN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction
Gene finder Sn N Sp N Sn E Sp E Sn G Sp GGenScan+ 83.2 98.2 69.6 78 25.8 29
GenMarkHMM 89.9 94.8 73.1 76.6 32.4 31.6FgenesH-At 95.1 93 85.3 81.4 47 46.5FgenesH-Mt 97.6 92.1 85.1 80.7 52.8 47.8
EGN 93.7 95 84.7 85.4 55.5 50.5EGN+FgenesH 97.8 94.2 90 86.9 63.2 56.4EGN+FH+AA 98.6 93.9 92.4 88 69.2 61.8
EGN+FH+AA+EST
98.2 99.9 94.4 94.6 80.2 79.4
la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp
Sensibilité =
Spécificité =
http://eugene.toulouse.inra.fr/
Combiner d'annotation automatique
C
Eugene
FGenesHBlastx Genome Threader
SpliceMachine Eugene HMM
DNA sequence
blastptblastnInterproscanBBMHGreenphyl
blastptblastnInterproscanBBMHGreenphyl
blastxGThExonerate
STRUCTURAL
FUNCTIONAL
A B
blastxGthExonerate
Eugene: fonctionnement
EuGène : fichier graphique de sortie
séquence nucléotidique
gène (7 exons)
transposon
Eléments annotés
exemple de logiciel d'annotation : Artemis
http://www.sanger.ac.uk/resources/software/artemis/
Annotation manuelle
Dr Stéphanie Sidibe Bocs
http://southgreen.cirad.fr/
Plateforme d'annotation GNPAnnot au CIRAD
Annotateurintégration
vérification
croisement
analyse
Annotation automatique Annotation manuelle
Plateforme d'annotation GNPAnnot au CIRAD
http://www.gnpannot.org/
GBrowse : outil de visualisation de l'annotation
séquence
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
Gènes annotés
GBrowse : outil de visualisation de l'annotation
séquence
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
Eléments répétés annotés
A vous de jouer …
L’annot at ion des génomesCahier de vacances
½ journée
Recommended