Étude du décalage de phase de lecture dans le génome de Saccharomyces cerevisiæ Michaël Bekaert...

Preview:

Citation preview

Étude du décalage de phase de Étude du décalage de phase de lecture dans le génome de lecture dans le génome de Saccharomyces cerevisiæSaccharomyces cerevisiæ

Michaël Bekaert

Université Pierre et Marie Curie

Directeur de thèse : Jean-Pierre RoussetInstitut de Génétique et Microbiologie

La levure Saccharomyces cerevisiae

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

ribosome

ARNm

La traduction

ARNt

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

ECAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Un messager, un polypeptide

P A

E

CAU AUG GAU UAC AUG GUC UAA GAU

La traduction

Le recodage

Saut de ribosome

Translecture

Décalage de phase de lecture en -1

Décalage de phase de lecture en +1

Un messager, deux polypeptides

Le recodage

• Dépend de séquences et de structures sur l’ARNm

• Observé principalement dans des petits éléments génétiques autonomes (virus et transposons)

Vestige d’un monde à ARN… Compacité des génomes Biais des analyses

• Pourquoi des virus et des transposons ?

Recherche de sites de décalage de phase de lecture dans les génomes

Le décalage de phase de lecture en -1

Développer des outils d’identification d’événements de recodage eucaryote

Caractériser le décalage de phase de lecture en -1

Virus HIV

Le décalage de phase de lecture en -1

.

.

rev tat

nef

vif

vpr vpu

pol pro env gag

LTR LTR int

ARNm

Le décalage de phase de lecture en -1

gagpol

Protéine Gag95%

Protéine Gag-Pol5%

Site canonique de décalage de phase de lecture

Le décalage de phase de lecture en -1

Modèle Jacks et Varmus, 1985 et 1988

1000

1000

2000

2000

3000

3000

4000

4000

+1

0

-1

X XXY YYZ

Heptamère Brilerly, 1993

Les expériences

Décalage de phase de lecture en -1

Nouveaux gènes Mécanisme

Impact del’environnement

Virus

Site EHMM

Modélisation

Similarité

Espaceur

TransposonsLevure

Aujourd’hui

Nouveaux gènes

Virus

Site EHMM

Similarité

Décalage de phase de lecture en -1

Mécanisme

Impact del’environnementModélisation

Espaceur

TransposonsLevure

Recherche de sites de décalage de phase de lecture dans les génomes

Le décalage de phase de lecture en -1

Recherches à partir de ce modèle Hammell et al., 1999 Liphardt, 1999

1000

1000

2000

2000

3000

3000

4000

4000

+1

0

-1

Deux approches complémentaires

Le décalage de phase de lecture en -1

• Modèle pas assez précis (ou incomplet)

• Modèle trop rigide (mécanismes différents ou dégénérés)

Affiner le modèle

Approche sans a priori sur le mécanisme

Affiner le modèle

Le décalage de phase de lecture en -1

• Identifier de nouveaux attributs

Composition de l’espaceur Dissymétrie entre un appariement C-G et G-C

(Bekaert et al., Bioinformatics, 2003)

Recherche basée sur le modèle affiné

Le décalage de phase de lecture en -1

X XXY YYZP SP

S1

L1

S2

L2

L’1

5’

3’

Rechercher un heptemère

Le décalage de phase de lecture en -1

AUG

N NNN

NN XXX YYY Z

Rechercher un pseudonoeud

Le décalage de phase de lecture en -1

Affiner le modèle

Le décalage de phase de lecture en -1

X XXY YYZP SP

S1

L1

S2

L2

L’1

5’

3’

Valider des sites putatifs (Bekaert et al., Mol Cell, sous presse)

Le décalage de phase de lecture en -1

Cucurbit aphid-borne yellows virus

Turnip yellows virus

Potato leafroll virus

Cereal yellow dwarf virus-RPV

Cocksfoot mottle virus

Human T-cell lymphotropic virus 1

Simian T-cell lymphotropic virus 1

Bovine leukemia virus

Mouse mammary tumor virus Enzootic nasal tumor virus Simian type D

Rous sarcoma virus

Visna virus

Feline immunodeficiency virus Equine infectious anemia virus

Human immunodeficiency virus 2

Simian immunodeficiency virus

Simian retrovirus type 2

Human immunodeficiency virus 1

L-A virus

Giardia virus

Trichomonas vaginalis virus II

Human astrovirus PRRSV

Human coronavirus

Murine hepatitis virusSARS Avian infectious bronchitis virus

Red clover necrotic mosaic virus

Barley yellow dwarf virus-PAS

Carrot mottle mimic virus

Groundnut rosette virus

Pea enation mosaic virus 2

Human T-cell lymphotropic virus 2

Mason-Pfizer monkey virus

CoronaviridaeCoronavirus

ArteriviridaeArterivirus

AstrovirideaMamadtrovirussTombusviridea

Dianthovirus

Umbravirus

LuteovirideaPolerovirus

LuteoviridaeLuteovirus

RetrovirideaDeltaretrovirus

RetrovirideaBetaretrovirus Retroviridea

Alpharetovirus

RetrovirideaLentivirus

TotiviridaeTotivirus

TotiviridaeGiardiavirus

Retrovirus

Virus à ARNdouble brin

Virus àARN positif

pAC99 : évaluation in vivo

Le décalage de phase de lecture en -1

-galactosidase

-galactosidase-luciférase

Région de décalage

lacZluc

+1

0

-1

Plus de virus

Le décalage de phase de lecture en -1

Pseudo-consensus

13,0%±2SRV1 gag/pro

0,7%±0ScYLV

10,3%±1SARS

15,7%±1PRRSV

17,8%±2PLRV-W

19,0%±1PLRV

31,0%±2PEMV1

20,2%±2MMTV gag/pro

13,1%±1LDV

13,0%±2L-BC

10,0%±1L-A

19,3%±1IBV

6,0%±1HIV1

9,0%±1FIV

7,0%±1EIAV

17,5%±1CABYV

12,2%±1BYDV

12,0%±1BWYV

8,1%±1BLV gag/pro

15,8%±2BChV

GGGGGGAAACUC

gGa.GGgAAAC.ca

gaG.GGgAAAu.ca

gGG.uuuAAAC.Uu

UGc.uuuAAAC.Ug

gGG.uuuAAAu.cC

gGG.GGgAAAu.cC

gGa.GGgAAAC.UC

UuG.aaAAAAC.UC

UGc.uuuAAAC.gC

cGu.GGauuuu.Uu

gGa.GGguuua.ca

gGG.uuuAAAC.Ua

gGG.uuuuuua.aa

UGG.GGgAAAC.UC

gGG.aaAAAAC.cC

gGG.GGgAAAC.UC

UaG.GGguuuu.gu

gGG.GGgAAAC.UC

Uaa.aaAAAAC.UC

gGa.GGgAAAu.cC

Heptamère DécalageVirus

Profil HMM

Identifier de nouveaux virus

Le décalage de phase de lecture en -1

1500 génomes

285 candidats

74 séquences

profil HMM

inspection manuelle- pas dans la bonne phase- pas de structure secondaire

biais nucléotidique

Le décalage de phase de lecture en -1

0

20

40

60

80

-9/-10 -8/-9 -7/-8 -6/-7 -5/-6 -4/-5 -3/-4 -2/-3 -1/-2

dinucléotide

Chi2

Dinucléotide en amont du site glissant

Le décalage de phase de lecture en -1

Dinucléotide en amont du site glissant

Le décalage de phase de lecture en -1

0%

5%

10%

15%

20%

25%

AA AC UA UC UG UU AG AU CA CC CG CU GA GC GG GU

dinucléotide

Taux décalage de phase

Propriété de Pus3p

Le décalage de phase de lecture en -1

Réaction catalysée par Pus3p

uridine pseudouridine ()

H+ OHHOH

NH

OCH2

O OH

O

O

O

P-O

OO

5

1HN

NO

CH2

O OH

O

O

O

PO

-O

O

H5

1

180°

HN

38-39

Pus3p(Lecointe et al, 1998)

Effet de l’absence de pseudouridine en position 39

Le décalage de phase de lecture en -1

0%

5%

10%

15%

20%

25%

CG GA UA UC

WTpus3

dinucléotide

taux de décalage de phase

Et le site E ?

Le décalage de phase de lecture en -1

P AE

La traduction

Influence de l’ARNt au site E sur la traduction

Adapté de Frank et al., 1999

Un site de décalage de phase étendue…

Le décalage de phase de lecture en -1

L’ARNt est éjecté prématurément ?

L’ARNt reste?

• Influence de la pseudouridine sur le l’ARNt au site E

Influence la phase d’accommodation au site A ?

Déstabilise l’ARNt au site P ?

• Influence de l’ARNt au site E

Le décalage de phase de lecture en -1

Affiner le modèle : mécanisme

• Influence de la modification 39 de l’ARNt au site E

• Impact sur la fidélité de la traduction

Le décalage de phase de lecture en -1

Affiner le modèle : bioinformatique

• Identifier de nouveaux attributs

Composition de l’espaceur Dissymétrie entre un appariement C-G et G-C Site E / Dinucléotide en amont de l’hepamère

Approches sans a priori sur le mécanisme

Le décalage de phase de lecture en -1

• Regarder le décalage de phase sous un angle différent

• Identifier de nouveaux sites

sans a priori sur le site de décalage lui-même définition génomique

FonctionnelLinguistique/statistique

Implémentation

Le décalage de phase de lecture en -1

Stockage des séquences

Découpage du génome

HMM

Motifs

RT-PCR

Evaluation in vivo

Classement

Quelques outils

Le décalage de phase de lecture en -1

(Bekaert et al., Bioinformatics, soumis)

Découpage

Le décalage de phase de lecture en -1

START

> 99 nt

STOP1 STOP2 STOP3

phase 0phase -1

> 99 nt

> 150 nt

ORF0ORF-1

22 445 régions chez S. cerevisiaeGenbank – rel. 27/10/2002

10 régions chez le virus L-AGenbank – rel. 03/08/2002

Motifs

Le décalage de phase de lecture en -1

START

Motif protéique ?

STOP1 STOP2 STOP3

Motif protéique ?

ORF0ORF-1

84 régions chez S. cerevisiae1 région chez le virus L-A

Banques de motifs: Interpro 7.0 Application: GenRecode

Modèle de Markov

Le décalage de phase de lecture en -1

0

-1

0

-1

Modèle de Markov

Le décalage de phase de lecture en -1

0

-1

0

-1

Classement

Le décalage de phase de lecture en -1

110 régions chez S. cerevisiae1 région chez le virus L-A

Probabilité de déphasage > 95% 0

100

200

300

400

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

21000

≥0.95

probabilité

Nombre de régions

Vers de nouveaux sites eucaryotes : synthèse

Le décalage de phase de lecture en -1

79

5

105• Le site du virus L-A est retrouvé

• Identification de 189 régions chez S. cerevisiae

• Classement des candidats

HMM

Motifs

ARNm

Le décalage de phase de lecture en -1

ADN

ARNmAAAAAA

2MM

RT-PCR

43 5 6 7 8 9 10 11 12 13 161 1714 15 18

1 kb

500 b

pAC99 : évaluation in vivo

Le décalage de phase de lecture en -1

-galactosidase

-galactosidase-luciférase

Région de décalage

lacZluc

+1

0

-1

Décalage in vivo

Le décalage de phase de lecture en -1

0%

2%

4%

6%

8%

10%

12%

14%

2 11 16 21 30 32 40 41 43 48 50

HMM

Motifs

candidat

Taux décalage de phase3

6

2

De nouveaux sites eucaryotes ?

Le décalage de phase de lecture en -1

Stockage des séquences

Découpage du génome

HMM

Motifs

RT-PCR

Evaluation in vivo

Classement

1 génome

22 445 régions

110 candidats

84 candidats

28 ARNm /50

11 sites /28

Les 11 candidats

Le décalage de phase de lecture en -1

fsORF % Sage Canonique ORF0 ORF-1 Notes2 6% Oui heptamère SCO2 - SCO2 (involved in stability of Cox1p and Cox2p)11 11% Oui heptamère YDL038C PRM7 PRM7 (pheromone-regulated membrane protein)16 9% - - AAD6 AAD16 AAD6 (high similarity with the AAD of P. chrysosporium)21 13% - Oui - - Intergénique / PRF1330 12% Oui - YKL033W-A - -32 7% Oui - SRL3 SRL3 (Suppressor of Rad53 null Lethality)40 5% - - YMR084W YMR085W putative glutamine--fructose-6-phosphate transaminase41 5% Oui - ADE17 - ADE17 (AICAR transformylase/IMP cyclohydrolase)43 10% - - MRPL24 - MRPL24 (Mitochondrial ribosomal protein)48 5% Oui - STE4 - STE4 (GTP-binding protein beta subunit of the pheromone pathway)50 7% Oui - - RAD17 RAD17 (DNA damage checkpoint control protein)

Perspectives

Le décalage de phase de lecture en -1

• Recherche dans d’autres levures

• Recherche dans des organismes plus complexes

Cette stratégie peut être appliquée à d’autres organismes.

Applicable à d’autres types de recodage.• Décalage de phase de lecture en +1

• Translecture

Nouveaux types de recodage

Analyse des génomes

Le décalage de phase de lecture en -1

Le décalage de phase de lecture en -1 n’est pas un phénomène limité aux gènes viraux, il pourrait être sous-évalué dans les génomes eucaryotes.

HMM

Motifs

2 3

5

-

1 2-

Merci !!!

Institut de Génétique et Microbiologie

Laboratoire de Recherche en Informatique

Laboratoire de Statistique et Génome

Agnès Baudin-BaillieuLaure BidouBruno CosnierMuriel Decraene Céline FabretMaryse Godon

Isabelle HatinMarta Kwapisz Olivier NamyJean-Pierre RoussetMichel Termier

Alain DeniseJean-Paul ForestChristine Froidevaux

Bernard PrumHugues Richard

Recommended