24
Modèles probabilistes pour les séquences biologiques

Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Modèles probabilistes pour les séquences biologiques

Page 2: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Plan

§  Prédiction de gènes •  Modèle de Bernoulli

•  Rapport de vraisemblance

§  Chaînes de Markov •  îlots CpG

Page 3: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Gène

§  Gène: une séquence de nucléotides codant pour une protéine

§  Problème de la prédiction des gènes: Déterminer le début et la fin des gènes dans un génome

Page 4: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Les différences entre procaryotes et eucaryotes

§  Dans les génomes procaryotes la plupart de la séquence est codante pour des protéines.

•  Par exemple le 70% du génome de H.influenzae est codant.

•  Dans les procaryotes chaque gène est une séquence de bases où il n’y a pas d’introns.

Page 5: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Un gène procaryotes

§  Comment trouver les séquences codantes ? •  Chercher les ORFs

•  Comment choisir les gènes parmi tous les ORFS ?

H. Richard - UPMC 5

3

A.Carbone - UPMC 9

Dans les génomes procaryotes la plupart de la séquence est codante pour des protéines.

Par exemple le 70% du génome de H.influenzae est codant.

Les procaryotes se répliquent assez rapidement, donc moins de temps est dépensé pour

la mise en route de mécanismes d’organisation moléculaire et de processus biologiques

sophistiqués.

Dans les procaryotes chaque gène est une séquence de bases où il n’y a pas d’introns.

Quelques différences entre procaryotes et eucaryotes

qui jouent un rôle dans la transcription

A.Carbone - UPMC 10

A.Carbone - UPMC 11

5’ untraslatedregion (UTR)

A.Carbone - UPMC 12

Epissage chez les eucaryotes

exon1 exon2 exon3intron1 intron2

transcription

traduction

epissage

exon = codant

intron = non-codant

Batzoglou

Page 6: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Un gène eucaryotes

§  Comment trouver les séquences codantes ? •  Chercher les ORFs

•  Comment choisir les gènes parmi tous les ORFS ?

H. Richard - UPMC 6

Prediction de genes, objectifs

Localiser les genes presents sur une sequence d’ADN

Retrouver la structure complete des genes :

JS Varre (IUP GenPro) Introduction a la bioinformatique annee 2007-2008 31 / 41

Page 7: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Un gène eucaryotes : Epissage

H. Richard - UPMC 7

3

A.Carbone - UPMC 9

Dans les génomes procaryotes la plupart de la séquence est codante pour des protéines.

Par exemple le 70% du génome de H.influenzae est codant.

Les procaryotes se répliquent assez rapidement, donc moins de temps est dépensé pour

la mise en route de mécanismes d’organisation moléculaire et de processus biologiques

sophistiqués.

Dans les procaryotes chaque gène est une séquence de bases où il n’y a pas d’introns.

Quelques différences entre procaryotes et eucaryotes

qui jouent un rôle dans la transcription

A.Carbone - UPMC 10

A.Carbone - UPMC 11

5’ untraslatedregion (UTR)

A.Carbone - UPMC 12

Epissage chez les eucaryotes

exon1 exon2 exon3intron1 intron2

transcription

traduction

epissage

exon = codant

intron = non-codant

Batzoglou

Page 8: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Modèles de Bernoulli

§  Modèle de background (composition en nucléotides) (%A, %C, %G, %T)

§  Modèle pour les codons (code génétique dégénéré)

(%AUU, %AUC, %AUG, %AUA,! %GUU, %GUC,……! %GGA, %GGC, %GGG, %GGT)

Page 9: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Probabilité d’une séquence

§  Avec le modèle de Bernoulli background

§  Avec le modèle de codons

§  Nb nucléotides avant le codons stop TAA (bg) ?

P (S = c0 c1 . . . c`�1 | codons) =`/3Y

i=0

pc3i c3i+1 c3i+2

P (S = c0 c1 . . . c`�1 | background) =`�1Y

i=0

pci

Page 10: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Rapport de vraisemblance

§  Ratio des probabilités pour les deux modèles dans une fenêtre (100 bp)

§  Pour chaque phase, score: X

i2fenetre mod3

log

pci ci+1 ci+2

pci · pci+1 · pci+2

Phase 1

Phase 2

Phase 3

gènes E. Coli

Page 11: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Annotation de sites promoteurs

Matrices poids position

Page 12: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Sites promoteurs

H. Richard - UPMC 12

•  Les promoteurs sont des segments d’ADN qui précèdent les zones qui régulent le début de la transcription

5

A.Carbone - UPMC 17

Détection d’un site d’épissage

5’ 3’Donor site

Position

% -8 … -2 -1 0 1 2 … 17A 26 … 60 9 0 1 54 … 21C 26 … 15 5 0 1 2 … 27G 25 … 12 78 99 0 41 … 27T 23 … 13 8 1 98 3 … 25

Extrait d’une présentation de Serafim Batzoglou (Stanford)

Intron 1 Intron 2

A.Carbone - UPMC 18

Sites d’épissage consensus

Donateur: 7.9 bitsAccepteur: 9.4 bits

A.Carbone - UPMC 19

Promoteurs

• Les promoteurs sont des segments d’ADN qui précèdent les zones qui régulent le début de la transcription

• Promoteur attire l’ARN-polymerase vers le site de départ de la transcription

5’Promoteur 3’

A.Carbone - UPMC 20

Mécanisme d’épissage

(http://genes.mit.edu/chris/)

•  Promoteur attire l’ARN-polymerase vers le site de départ de la transcription

Page 13: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Région régulatrice

H. Richard - UPMC 13

Page 14: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Région régulatrice

§  Généralement 100-500 bp en amont du début de la transcription (procaryotes)

•  peut aller jusqu’à 5kbp chez les eucaryotes.

§  Motifs de séquence responsable de la fixation

H. Richard - UPMC 14

group of genes activated by PHO4p (from J. Van Helden course)

Interface between the yeast Pho4p protein and one of its binding sites

10

Pho4p (yeast)

Pho4p DNA binding site (oligonucleotide)

Page 15: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Sites promoteur

§  Un site promoteur peut être localisé n’importe où dans la région de régulation

§  Il y a des variations dans la composition de la séquence du site promoteur (en général des substitutions).

H. Richard - UPMC 15

Page 16: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Motifs et débuts de transcription

H. Richard - UPMC 16

gene ATCCCG

gene TTCCGG

gene ATCCCG

gene ATGCCG

gene ATGCCC

Comment modéliser les séquences promoteurs ?

Comment annoter une région en amont d’un gène ?

Page 17: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Matrice des fréquences

§  Chaque colonne : loi de Bernoulli •  Résume les préférences de séquence du motif

A 1 0 8 0 0 0 0 0 0

C 0 8 0 8 0 0 0 1 1

G 7 0 0 0 8 0 8 4 4

T 0 0 0 0 0 8 0 3 3

Matrice de comptages

Matrice des fréquences

A 0.125 0 1 0 0 0 0 0 0C 0 1 0 1 0 0 0 0.125 0.125G 0.875 0 0 0 1 0 1 0.5 0.5T 0 0 0 0 0 1 0 0.375 0.375

Page 18: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Matrice des fréquences

§  En pratique on ajoute des pseudo-comptages •  +1 partout ou en proportion des fréquences de chaque

nucléotide A 1+1 0+1 8+1 0+1 0+1 0+1 0+1 0+1 0+1

C 0+1 8+1 0+1 8+1 0+1 0+1 0+1 1+1 1+1

G 7+1 0+1 0+1 0+1 8+1 0+1 8+1 4+1 4+1

T 0+1 0+1 0+1 0+1 0+1 8+1 0+1 3+1 3+1

A 0.17 0.08 0.75 0.08 0.08 0.08 0.08 0.08 0.08C 0.08 0.75 0.08 0.75 0.08 0.08 0.08 0.17 0.17G 0.67 0.08 0.08 0.08 0.75 0.08 0.75 0.42 0.42T 0.08 0.08 0.08 0.08 0.08 0.75 0.08 0.33 0.33

fi,j =ni,j + cPj ni,j + c

Page 19: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Matrice de score poids position

§  log-rapport de vraisemblance

§  pj : fréquences des nt dans le modèle de Bernoulli background

§  Score à une position : •  somme des poids des nucléotides pour chaque position

wi,j = log2fi,jpj

A -0.96 -1.96 1.21 -1.96 -1.96 -1.96 -1.96 -1.96 -1.96C -1.07 2.10 -1.07 2.10 -1.07 -1.07 -1.07 -0.07 -0.07G 1.93 -1.07 -1.07 -1.07 2.10 -1.07 2.10 1.25 1.25T -1.96 -1.96 -1.96 -1.96 -1.96 1.21 -1.96 0.04 0.04

GGACGTGGT! ||||||||! GACGTGGTT!

1.93 – 1.07 + 1.21 + 2.1 + 2.1 + 1.21 + 2.1 + 1.25 + 0.04 à 10.87

1.93 – 1.96 – 1.07 – 1.07 - 1.96 – 1.07 + 2.1 + 0.04 + 0.04 à -3.02

Page 20: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Scanner une séquence

§  Comment décider la valeur seuil du score ?

Page 21: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Distribution du score

§  Distribution du score pour un ensemble de séquences aléatoire avec le modèle background

§  Seuil d’annotation fixé pour avoir un taux de fausse prédiction attendu de x%

•  on décide de la proportion de fausses alertes

x%

Page 22: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

A simple HMM for gene detection

Bioinformatics Algorithms

A simple HMM M for gene detection

• States are ‘in exon’ and ‘in intron’

• p probability that the process stays ‘in exon’; 1–p probability that the

process switches into ‘in intron’

• q probability that the process stays ‘in intron’; 1–q probability that the

process switches into ‘in exon’

• The probability that an exon has length k is

P(exon of length k | M) = pk (1–p)

exon intron0.4 0.6

0.6

0.4P(A)=0.2

P(C)=0.3

P(G)=0.3

P(T)=0.2

P(A)=0.25

P(C)=0.25

P(G)=0.25

P(T)=0.25

21

A.Carbone - UPMC 81

Distribution des longueurs

Un HMM simple pour identifier un gène eucaryote :

exon intron

1-p

1-q

p q

P(exon de longueur k) = pk(1-p) (distribution géométrique)

Mais la distribution des longueurs des exons ne peut pas être géométrique: la longueur

semble jouer un rôle fonctionnel dans l’epissage. Exons qui sont trop courts (<50pb)

ne sont pas détectées par le spliceosome et exons qui sont trop longues (>300pb) sont

difficiles à détecter. D’autres modèles de la longueurs des exons ont été proposés.

A.Carbone - UPMC 82

HMM généralisés (GHMM)

Dans un GHMM la sortie d’un état peut être une chaîne de symboles de longueur finie.

Pour un état donné, la longueur et la chaîne de symboles peut être choisi aléatoirement

selon une distribution de probabilité. La distribution de probabilité peut être différente

pour des états différents.

- Q ensemble fini d’états

- S distribution de probabilité associée à l’état initiale

- Tij probabilité de transition pour chaque paires d’états i,j �Q

- f distribution des longueurs par état (fq est la distribution des longueurs de l’état q)

- Modèles de probabilités pour chaque état selon les chaînes de sorties issues après la

visite d’un état

A.Carbone - UPMC 83

Modèle GENSCANLe modèle probabiliste de la structure des gènes (Berge et Karlin, 1997) est basé sur un GHMM

États = unités fonctionnelles d’un gène

Transitions entre états = le modèle assure

que l’ordre de visite des états est

biologiquement cohérent

Division des états selon les 3 reading frames

Modélisation du gène dans le brin de lecture

Modélisation du gène dans le brin opposé

A.Carbone - UPMC 84

Prédiction de la structure d’un gène

Une lecture ) d’une séquence S de longueur L est une séquence ordonnée d’états (q1,…, qt)

de durée di associée à chaque etat (L = ¦ti=1 di).

) est une annotation possible d’une séquence.

Supposons de connaître une lecture ) et une séquence S. Soit Si le segment de S produit

par qi et soit P(Si|di) la probabilité de générer Si à l’ état qi et avec durée di. La probabilité que

le modèle est passé par l’état qi pour générer la séquence selon ) est:

P() ,S) =Sq1fq1(d1)P(S1|d1) �tk=2Tqk-1qkfqk(dk)P(Sk|dk)

Supposons de connaître S ainsi que une lecture ), les deux de longueur L. La probabilité

conditionnée de ) étant donné que la séquence génératrice est S, peut être calculée

comme suit:

P(),S) P(),S)

P()|S) = ------------ = -----------------------------------------

P(S) ¦ P()i,S))i est une lecture de longueur L

Page 23: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

Outils statistiques de prédiction des gènes

• GENSCAN/Genome Scan • TwinScan • Glimmer • GenMark

Page 24: Modèles probabilistes pour les séquences biologiques · 2018-02-22 · Région régulatrice § Généralement 100-500 bp en amont du début de la transcription (procaryotes) •

28

A.Carbone - UPMC 109 A.Carbone - UPMC 110

A.Carbone - UPMC 111 A.Carbone - UPMC 112