La traduction commence à un codon AUG mais parfois non

Preview:

DESCRIPTION

Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours. - PowerPoint PPT Presentation

Citation preview

Parfois mais pas toujoursoui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours

Je n’aimerais pas vivre en Amérique mais parfois si

Je n’aimerais pas vivre à la belle étoile mais parfois si

J’aimerais bien vivre dans le cinquième mais parfois non

Je n’aimerais pas vivre dans un donjon mais parfois si

Je n’aimerais pas vivre d’expédients mais parfois si

J’aime bien vivre en France mais parfois non (...)

Georges Perec, Penser/Classer

La traduction commence à un codon AUG mais parfois non

La traduction se termine à un codon stop mais parfois non

Le code n’est pas chevauchant mais parfois oui

Réplication : 10-6/nt

Transcription : 10-5/nt

Traduction : 5.10-4/codon

Erreurs dans le transfert d’information

Décodages non conventionnels (recodage)

Décalage du cadre de lecture

AUG

+1

- 1

Translecture

AUG

1 ARN 2 polypeptides

Le recodage- Dépend de séquences et de structures sur l’ARNm (mécanisme conservé chez les eucaryotes)

- Observé principalement dans des éléments génétiques autonomes (virus, transposons)

pol pro gag

LTR

AUG STOP

int LTR

Gag Gag Pol IntPro

HIV

gagpol

Protéine Gag95%

Protéine Gag-Pol5%

Décalage de phase et virus

« Le cheval de Troie »

Décalage de phase et autorégulation

Facteur de terminaison de la traduction RF2 et décalage

Site ESite P Site A

La terminaison de la traduction eucaryote

AA STOP CA(A/G)N(U/C/G)A

Translecture et régulation épigénétique

D’après True et Linquist, Nature, 2000

Incorporation de sélénocystéine au codon UGA

Reprogrammation de codon stop

Mécanismes (facteurs cis et trans)

Gènes cellulaires et recodage

Maladies à codons stop

Thèmes de l’équipe

ORF1 ORF2

• Approche par modélisation• Approche sans a priori

• Translecture : gènes candidats

Gènes cellulaires et recodage (levure)

Recherche de sites de décalage de phase de lecture

Le décalage de phase de lecture en -1

Développer des outils d’identification d’événements de recodage eucaryote

Caractériser le décalage de phase de lecture en -1

Recherche de sites de décalage en -1

1000

1000

2000

2000

3000

3000

4000

4000

+10

-1

Modèle de site eucaryoteJacks et Varmus, 1985 et 1988

X XXY YYZ

HeptamèreBrierley, 1993

Pause du ribosomeBrierley 1993, Dinman 2000

Pas de site authentique identifié …

Deux approches complémentaires

• Modèle pas assez précis (ou incomplet)

• Modèle trop rigide (mécanismes dégénérés ou différents )

Affiner le modèle

Approche sans a priori sur le mécanisme

Recherche de sites de décalage en -1

Collaboration : Alain Denise, Jean-Paul Forest, Christine Froidevaux, Bernard Prum, Hugues Richard, Michel Termier

5’ X XXY YYZ

H SPHeptamère glissant Espaceur Structure secondaire

3’

AUG

Représentation des données

Affiner le modèle

5’ NNX XXY YYZ NNNNNNNNN

H SP

ES1.5’

EL1

ES2.3’

EL2

EL1’

Heptamère glissant Espaceur Structure secondaire

3’ES2.5’

ES1.3’

AUG

120 propriétés (attributs)pour décrire les sites de FS

Représentation des données

Affiner le modèle

27 sites sauvages de virus et 320 mutants efficacité 5% : 191 exemples efficacité 2% : 98 contre-exemples

Données :

Affiner le modèle

• Apprentissage supervisé : on apprend le concept binaire FS_efficace

• Apprentissage disjonctif : toutes les séquences n’induisent pas du FS pour les mêmes raisons

• Description sous forme de règles conjonctives : une règle est constituée de plusieurs conditions

Affiner le modèle

Regroupements

règle 1

règle 2

règle 3

Apprentissage

Affiner le modèle

5’NNX XXY YYZ NNNNNNNNN

H SP

ES1.5’

EL1

ES2.3’

EL2

EL1’

3’ES2.5’

ES1.3’

AUG

si YG et ZG et nombre de A dans H 4

et nombre de C dans SP 1 et nombre de paires G-C dans ES1 6

et % de G dans ES1.5’ 65

alors FS_efficace

33% des exemples couverts et 0 contre-exemple

Validation expérimentale ?*** Conditions suffisantes, pas nécessaires

Exemple de règles

Affiner le modèle

Evaluation in vivo

NNX XXY YYZ NNNNNNNNN

H SP

ES1.5’

EL1

ES2.3’

EL2

EL1’

3’ES2.5’

ES1.3’

lacZ lucpSV40

ATG

Affiner le modèle

Activité -galactosidase

Activité luciférase= Efficacité de décalage

AUG

Transcription

AAAAA

lacZ lucpSV40

ATG

Traduction

Evaluation in vivo : système « double reporter »

Affiner le modèle

si YG et ZG et nombre de A dans H 4

et nombre de C dans SP 1 et nombre de paires G-C dans ES1 6

et % de G dans ES1.5’ 65

Validation expérimentale

Affiner le modèle

• Identification de nouveaux attributs

Composition de l’espaceur (voir Michaël …) Dinucléotide en amont de l’heptamère Dissymétrie entre un appariement C-G et G-C

• Identification de nouvelles règles

Conclusions

Affiner le modèle

5’ . . X XXY YYZ

H SPHeptamère glissant Espaceur Structure secondaire

3’

AUG

Recherche de sites de décalage en -1

Première étape fondée sur un modèle minimum

AUG

N NNN

NN XXX YYY Z

Recherche de sites de décalage en -1

Rechercher un heptamère

Tige1 5’ Tige1 3’

Boucle 1

Heptamère

Recherche de sites de décalage en -1

Rechercher un pseudonoeud

Identification de 185 régions chez S. cerevisiae

Tige1 5’ Tige1 3’

Boucle 1

Heptamère

Recherche de sites de décalage en -1

Rechercher un pseudonoeud

Retrouve les sites connus

Classement des candidats en fonction des propriétés issues du modèle affiné

Au moins trois bons candidats

Recherche de sites de décalage en -1

Bilan de l’approche par modèle :

Candidats issus d’un génome “aléatoire”

Regarder le décalage de phase sous un angle différent

sans a priori sur le site de décalage lui-même définition génomique

Fonctionnel Linguistique/statistique

Recherche de sites de décalage en -1

Approches sans a priori sur le mécanisme

START

> 99 nt

STOP1 STOP2 STOP3

phase 0phase -1

> 99 nt

> 150 nt

ORF0ORF-1

22 445 régions chez S. cerevisiaeGenbank – rel. 27/10/2002

10 régions chez le virus L-AGenbank – rel. 03/08/2002

Recherche de sites de décalage en -1

Découpage

START STOP1 STOP2 STOP3

phase 0phase -1

ORF0ORF-1

84 régions chez S. cerevisiae1 région chez le virus L-A

Banques de motifs: Interpro 7.0 Application: GenRecode

Motif protéique ?Motif protéique ?

Recherche de sites de décalage en -1

Recherche de motifs

0

-1

0

-1

Recherche de sites de décalage en -1

Recherche basée sur la statistique des séquences : identification

110 régions chez S. cerevisiae1 région chez le virus L-A

0

100

200

300

400

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

21000

≥0.95

probabilité

Nombre de régions

ADN

ARNmAAAAAA

2MM

RT-PCR

43 5 6 7 8 9 10 11 12 13 161 1714 15 18

1 kb

500 b

Recherche de sites de décalage en -1

28 candidats sur 55 ont un ARNm qui couvre les 2 ORFs

Région de décalage

+1

0

-1

Recherche de sites de décalage en -1

lacZ luc

pSV40

ATG

Evaluation in vivo

0%

2%

4%

6%

8%

10%

12%

14%

2 11 16 21 30 32 40 41 43 48 50

HMM

Motifs

Candidat

Taux décalage de phase3

6

2

Recherche de sites de décalage en -1

11 séquences candidates induisent du décalage in vivo

HMM

Motifs

2 3

5

-

1 2-

Modèlisation

Recherche de sites de décalage en -1

Bilan

• Recherche dans d’autres levures

• Recherche dans des organismes plus complexes

Cette stratégie peut être appliquée à d’autres

organismes.

Applicable à d’autres types de recodage.• Décalage de phase de lecture en +1 (avec Phil Farabaugh)

• Translecture

Nouveaux types de recodage …

Recherche de sites de décalage en -1

Perspectives

Merci !!!Institut de Génétique et Microbiologie

Laboratoire de Recherche en Informatique

Laboratoire de Statistique et Génome

GMT

Michaël BekaertLaure BidouIsabelle HatinOlivier NamyJean-Pierre Rousset

BIG

Michel Termier

Alain DeniseJean-Paul ForestChristine Froidevaux

Bernard PrumHugues Richard

Recommended