46
Contexte L’analyse d’une séquence Comparaison de deux séquences Que faut-il penser de tout ça ? Comparaison de deux séquences avec gaps : score local et p-valeur Sabine MERCIER Institut de Mathématiques de Toulouse (IMT) Laboratoire de Statistique et Probabilités (LSP) Université Toulouse le Mirail (UTM) [email protected] Nancy, 28 mars 2008 Sabine MERCIER Comparaison de deux séquences avec gaps 1/46

Comparaison de deux séquences avec gaps : score local et p

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Comparaison de deux séquences avec gaps :score local et p-valeur

Sabine MERCIER

Institut de Mathématiques de Toulouse (IMT)Laboratoire de Statistique et Probabilités (LSP)

Université Toulouse le Mirail (UTM)[email protected]

Nancy, 28 mars 2008

Sabine MERCIER Comparaison de deux séquences avec gaps 1/46

Page 2: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Plan

1 ContexteLes séquences biologiquesModélisation

2 L’analyse d’une séquenceScore local pour une séquenceSignification statistique

3 Comparaison de deux séquencesAlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

4 Que faut-il penser de tout ça ?

Sabine MERCIER Comparaison de deux séquences avec gaps 2/46

Page 3: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Plan

1 ContexteLes séquences biologiquesModélisation

2 L’analyse d’une séquenceScore local pour une séquenceSignification statistique

3 Comparaison de deux séquencesAlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

4 Que faut-il penser de tout ça ?

Sabine MERCIER Comparaison de deux séquences avec gaps 3/46

Page 4: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Les séquences biologiques (1/3)

Un peu de biologie moléculaire.Les types de séquences biologiques.

Sabine MERCIER Comparaison de deux séquences avec gaps 4/46

Page 5: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Les séquences biologiques (2/3)

Sabine MERCIER Comparaison de deux séquences avec gaps 5/46

Page 6: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Les séquences biologiques (3/3)

Protéine : la stucture primaire correspond à la séquence desacides aminés.

>1A6A : A HLA-DR3HVIIQAEFYLNPDQSGEFMFDFDGDEIFHVDMAKKETVWRLEEFGRFASFEAQGALANIAVDKANLEIMTKRSNYTPITNVPPEVTVLTNSPVELREPNVLICFIDKFTPPVVNVTWLRNGKPVTTGVSETVFLPREDHLFRKFHYLPFLPSTEDVYDCRVEHWGLDEPLLKHEF

Sabine MERCIER Comparaison de deux séquences avec gaps 6/46

Page 7: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Modélisation des séquences biologiques (1/2)

Les séquences biologiques correspondent à une suite decaractères pris dans un alphabet (fini) adapté au type desséquences.

A = {A,C,G,T}, A = {A,C,D, . . . ,U},

ou A = {α, β,U , . . .}, . . .

Mathématiquement, les séquences sont modélisées par unesuite de variables à valeurs dans A

A = A1 . . .An Ak → A

>1A6A : A HLA-DR3 = HVIIQAEFYLNP...HWGLDEPLLKHEF

Sabine MERCIER Comparaison de deux séquences avec gaps 7/46

Page 8: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Modélisation des séquences biologiques (2/2)

A = A1 . . .An, Akv .a.→ A. Comment varient-elle ?

Modèle M0 ou IID (Indépendantes et IdentiquementDistribuées) : le moins réaliste, le plus utilisé.Modèle markovien M1 ou plus.Les chaînes de Markov cachés (HMM) : il peut prendre encompte par exemple l’hétérogénéité des séquences(codant/non-codant).

Sabine MERCIER Comparaison de deux séquences avec gaps 8/46

Page 9: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Les séquences biologiquesModélisation

Longueur des séquences

Génome humain :3 milliards de paires de bases.Bactérie :'4600 kb (E. Coli).Protéine :de '10 à '1000 d’a.a., 350 a.a. en moyenne.

Sabine MERCIER Comparaison de deux séquences avec gaps 9/46

Page 10: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Plan

1 ContexteLes séquences biologiquesModélisation

2 L’analyse d’une séquenceScore local pour une séquenceSignification statistique

3 Comparaison de deux séquencesAlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

4 Que faut-il penser de tout ça ?

Sabine MERCIER Comparaison de deux séquences avec gaps 10/46

Page 11: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

L’analyse d’une séquence

On cherche le segment le plus “quelque chose”.

1 Cette recherche s’effectue par rapport à un critère :hydrophobicité, acidité, etc...

→ choix d’une échelle de scores

2 On regarde quels segments ? Tous !

à longueur fixée→ fenêtre glissanteou bien de n’importe quel longueur→ score local

Sabine MERCIER Comparaison de deux séquences avec gaps 11/46

Page 12: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Echelles de scores : exemples

→ caractères physico-chimiques

Hydrophobicité(Kyte et Doolittle 1982)

A 1.8 C 2.5 D -3.5E -3.5 F 2.8 G -0.4H -3.2 I 4.5 K -3.9L 3.8 M 1.9 N -3.5P -1.6 Q -3.5 R -4.5S -0.8 T -0.7 V 4.2W -0.9 Y -1.3

Antigéniticité

A 0.12 C -0.12 D 0.31E 0.06 F -0.77 G -0.18H -0.65 I -2.92 K -0.05L 0.75 M 0.38 N -0.14P -0.05 Q -0.03 R -0.07S -0.01 T 0.21 V -0.01W -0.11 Y 0.01

Sabine MERCIER Comparaison de deux séquences avec gaps 12/46

Page 13: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Score local d’analyse - Exemple

Echelle d’hydrophobicité (Karlin et Altschul 1990) :

s =

I, L, V → +2F , M, A, C → +1G, S, Y , W , T , P → 0N, Q, H, D, E → −1K , R → −2

A = F C G K C V N I D K R A YX = +1 +1 0 −2 +1 +2 −1 +2 −1 −2 −2 +1 +0

Hn = max1≤i≤j≤n(Xi + · · ·+ Xj) → Hn = 4

Sabine MERCIER Comparaison de deux séquences avec gaps 13/46

Page 14: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Score local d’analyse - Le dessin

X : :

1 n i j

Sk

k 0

Sk = X1 + … + Xk

Hn

I

Sk

Sabine MERCIER Comparaison de deux séquences avec gaps 14/46

Page 15: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Signification statistique

Les scores locaux calculés sont-ils significatifs ?

Test : (Hypothèse privilégiée) séquence ordinaire(Hypothèse alternative) origine biologique

Etablir la distribution du score local

PH0[Hn ≥ a] p-valeur

Choix d’un modèle : X = (Xk ) i.i.d.

Sabine MERCIER Comparaison de deux séquences avec gaps 15/46

Page 16: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Approximation de Karlin - Résultat

(Karlin et al. 1990, 1992, 1993)Hypothèse : Scores en moyenne négatifs

loi de Hnn→+∞−→ loi de Gumble

entièrement définie par 2 paramètres λ et K

λ

racine d’une équationpolynomiale

E [eλXi ] = 0.

K

plus difficileà obtenir

Sabine MERCIER Comparaison de deux séquences avec gaps 16/46

Page 17: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Approximation de Karlin - Démonstration !

On définit des temps d’arrêt (échelles descendant).

X : :

1 n i j

Sk

k 0

Sk = X1 + … + Xk

T0 T1 T2 T3

Q1 Q2

Q3

Hn ' max1≤i≤nQ (Qi)

Théorie durenouvellement :la séquence estdécoupée en portionsi.i.d.

Sabine MERCIER Comparaison de deux séquences avec gaps 17/46

Page 18: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Loi exacte (1/3) (Daudin et al. 1999, 2000)

X : :

1 n i j

Sk

k 0

Sk = X1 + … + Xk

Wk

0 k

S0 = 0 Sk = Sk-1 + Xk

W0 = 0 Wk = max(0,Wk-1 + Xk)

T1 T2

T3

Sabine MERCIER Comparaison de deux séquences avec gaps 18/46

Page 19: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Loi exacte (2/3)

Ainsi, le score local correspond au maximum de W.

Hn = max1≤k≤nWk

W est un processus connu, le processus de Windley.

Pour X i.i.d., W est une chaîne de Markov d’ordre 1.

Loi du maximum d’une chaîne de Markov→ On sait faire !

Sabine MERCIER Comparaison de deux séquences avec gaps 19/46

Page 20: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Loi exacte (3/3)

Pour obtenir la p-valeur exacte P[Hn ≥ a],

On établit une matrice de taille

(a + 1)× (a + 1)

remplie à partir de la distribution des scores.Il faut élever cette matrice à la puissance n.

Sabine MERCIER Comparaison de deux séquences avec gaps 20/46

Page 21: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Avantages et inconvénients

Approximation

Calcul immédiatScore moyen négatifInadaptée aux courtesséquencesInadaptée pour E [Xi ] ' 0

Loi exacte

Exacte (choix du modèle !)Indépendant du signe duscore moyenAdaptée aux courtes etmoyennes longueursScores entiers outransformés

Sabine MERCIER Comparaison de deux séquences avec gaps 21/46

Page 22: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Score local pour une séquenceSignification statistique

Conclusion

Deux méthodes ayant clairement leur propre champd’application : méthodes complémentaires.

La méthode exacte a de l’avenir.

Amélioration de l’implémentation (Nuel 2006)

Cas markovien (Hassenforder et al. 2003)

Prochaine étape : cas de deux séquences.

Sabine MERCIER Comparaison de deux séquences avec gaps 22/46

Page 23: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Plan

1 ContexteLes séquences biologiquesModélisation

2 L’analyse d’une séquenceScore local pour une séquenceSignification statistique

3 Comparaison de deux séquencesAlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

4 Que faut-il penser de tout ça ?

Sabine MERCIER Comparaison de deux séquences avec gaps 23/46

Page 24: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Alignements de deux séquences (1/2)

1 2 3 4 5 6 7 8 9

A: G E N E P A F I N

B: M M G E B I E N M A N G 1 2 3 4 5 6 7 8 9 10 11 12

I

J

G E N - E P - A F I N M M G E B I E N M A NG

Ici, décalage de α = +2.

Un alignement local gappé est définipar les indices des lettres alignées

A : u(1) = 1 . . . u(4) = 4 . . . u(6) = 6

B : v(1) = 3 . . . v(4) = 7 . . . u(6) = 10

` u(.) v(.)

Sabine MERCIER Comparaison de deux séquences avec gaps 24/46

Page 25: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Alignements de deux séquences (2/2)

1

A: G E N E P A F I N

B: M M G E B I E N M A N G

3

I

J

G E N E PA F I N MM G E B I E NMANG

Longueur commune

3

Toujours un décalage de α = +2.

Un alignement local sans gap estdéfini par les indices de début dessegments et la longueur. Ici,

i = 1 j = 3 ` = 3

Sabine MERCIER Comparaison de deux séquences avec gaps 25/46

Page 26: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Matrices de similarité s(., .) =?

BLOSUM62 Substitution Matrix

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 S -1 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 T -1 1 4 1 -1 1 0 1 0 0 0 -1 0 -1 -2 -2 -2 -2 -2 -3 P -3 -1 1 7 -1 -2 -1 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 A 0 1 -1 -1 4 0 -1 -2 -1 -1 -2 -1 -1 -1 -1 -1 -2 -2 -2 -3 G -3 0 1 -2 0 6 -2 -1 -2 -2 -2 -2 -2 -3 -4 -4 0 -3 -3 -2 N -3 1 0 -2 -2 0 6 1 0 0 -1 0 0 -2 -3 -3 -3 -3 -2 -4 D -3 0 1 -1 -2 -1 1 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 E -4 0 0 -1 -1 -2 0 2 5 2 0 0 1 -2 -3 -3 -3 -3 -2 -3 Q -3 0 0 -1 -1 -2 0 0 2 5 0 1 1 0 -3 -2 -2 -3 -1 -2 H -3 -1 0 -2 -2 -2 1 1 0 0 8 0 -1 -2 -3 -3 -2 -1 2 -2 R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 2 -1 -3 -2 -3 -3 -2 -3 K -3 0 0 -1 -1 -2 0 -1 1 1 -1 2 5 -1 -3 -2 -3 -3 -2 -3 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 2 -2 0 -1 -1 I -1 -2 -2 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 2 1 0 -1 -3 L -1 -2 -2 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 3 0 -1 -2 V -1 -2 -2 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 -1 -1 -3 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 3 1 Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 2 W -2 -3 -3 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11

Sabine MERCIER Comparaison de deux séquences avec gaps 26/46

Page 27: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Score d’alignement (1/2)

1

A: G E N E P A F I N

B: M M G E B I E N M A N G

3

I

J

G E N E PA F I N MM G E B I E NMANG

Longueur commune

3

i = 1 j = 3 ` = 3

Score d’alignement : on somme lesscores des couples.

+6 + 5− 2 = 9

maxi j `→ Hn,m

Sabine MERCIER Comparaison de deux séquences avec gaps 27/46

Page 28: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Score d’alignement (2/2)

1 2 3 4 5 6 7 8 9

A: G E N E P A F I N

B: M M G E B I E N M A N G 1 2 3 4 5 6 7 8 9 10 11 12

I

J

G E N - E P - A F I N M M G E B I E N M A NG

Choix de pénalité des gaps :−δ = −2.

u = 1,2,3,4,5,6v = 3,4,5,7,9,10` = 6

+6 + 5−2 + 5−2 + 4 − (2×2) = 12

maxu v `

→ Mn,m

Sabine MERCIER Comparaison de deux séquences avec gaps 28/46

Page 29: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Matrice de Smith et Waterman

C C C A T C C C - G

s(.,.) A C G T A +3 -4 -2 0 C +3 +1 -3 G +4 +2T +1

BA 0

C0

C0

G0

T 0

C 0 3 3 1 0 A 0 1 1 1 0 T 0 0 0 3 2

δ=-2

Alignements locaux optimaux

. . . T T − . . . T

. . . G . . . G G −

Mij = max

0

Mi−1,j − δMi,j−1 − δ

Mi−1,j−1 + s(Ai ,Bj)

Temps de calcul linéaire au produitdes longueurs n ×m.

Sabine MERCIER Comparaison de deux séquences avec gaps 29/46

Page 30: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

BLAST

Basic Local Alignment Search Tool (Altschul et al., 1990)

Méthode de calcul approché du score local de Smith etWaterman (Mn,m).Le seul à proposer une signification statistique (E-value).Utilisé plusieurs centaines de milliers de fois par jour(NCBS).

Sabine MERCIER Comparaison de deux séquences avec gaps 30/46

Page 31: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Problème statistique

Les scores locaux calculés sont-ils significatifs ?

Test : (Hypothèse privilégiée) séquences indépendantes(Hypothèse alternative) ancêtre commun

Etablir la distribution du score local

PH0[Mm,n ≥ a] p-valeur

A = (Ak ) et B = (Bk ) i.i.d.

Sabine MERCIER Comparaison de deux séquences avec gaps 31/46

Page 32: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Signification statistique : état de l’art

1 Prise en compte des shifts :

p-valeur de Hn,m

2 Et des gaps :p-valeur de Mn,m

Tous ces résultats reposent sur le cas d’une séquence :

p-valeur Hn

Sabine MERCIER Comparaison de deux séquences avec gaps 32/46

Page 33: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Résultat autour de Karlin, SANS gap, Hn,m

G E N E P A F I N

M M G E B I E N M A N G

α=0 A : G E N EPAF I N B : MMG EB I ENM ANG Xα : -3-2+0+5 … -2

α=0

α=+8

A : G E N E PAFI N B : MMGEBIEN M A N G Xα : -3-1+6-2

α=+8

. .

.

Résultat cas 1 séquence”valable” cas 2 séquences.Dembo et al. 1994 ledémontrent pour n = m.

Loi de Hn,m

n→+∞−→

Loi de Gumble λu, Ku

longueur = nm

Sabine MERCIER Comparaison de deux séquences avec gaps 33/46

Page 34: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Autour des méthodes exactes, SANS gap, Hn,m

G E N E P A F I N

M M G E B I E N M A N G

α=0 A : G E N EPAF I N B : MMG EB I ENM ANG Xα : -3-2+0+5 … -2

α=0

α=+8

A : G E N E PAFI N B : MMGEBIEN M A N G Xα : -3-1+6-2

α=+8

. .

. Hn,m(A,B) = max

αHnα(Xα)

SI les décalages sontindépendants

P[Hn,m < a] =∏α

P[Hnα < a]

avec P[Hnα < a] p-valeurexacte du score local d’UNEséquence de longueur nα.

Sabine MERCIER Comparaison de deux séquences avec gaps 34/46

Page 35: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Comparaison des p-valeurs, cas SANS gap

pu : ExactepF : Karlinpe : Référence

Sabine MERCIER Comparaison de deux séquences avec gaps 35/46

Page 36: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Les résultats autour de Karlin : cas des GAPS

On a toujours une loi de Gumble : λg , Kg , mn.

ConjecturesConfirmées par simulations.(Mott 1992, Vingron et al. 1994,Altschul et al. 1996, Spang et al. 1998)Calcul de λg et Kg : par ajustement (bases de données ousimulations).(Pearson et al. 1988, Pearson 1998,Altschul et al. 2001, Bundschuh 2002).

Résultats théoriques partiels : coût des gaps lourd.(Bailey et Gribskov 2002).p-valeur approchée pour un score local gappé différent decelui de Smith et Waterman (Mott et Tribe 1999)

Sabine MERCIER Comparaison de deux séquences avec gaps 36/46

Page 37: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Les derniers résultats sur les gaps

Mais comment prendre en compte les gaps ! ?

Méthode des h-uplets (Fayyaz et al. 2007)GEM : Greedy Extention Method (Mott et Tribe 1999)

Sabine MERCIER Comparaison de deux séquences avec gaps 37/46

Page 38: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Méthode h-uplets (1/5) : un nouveau score local

A

B α

h lettres (ici h=3)

Aαhi

AHY AHY

AVL KLY

UZN

EHB

CFE

FGN

Soit un décalage α et un entier h >0

Soit S une fonction de scores de Ah ×Ah

S(CFE ,FGN) S(AHY ,KLY ) S(AHY ,AVL) . . .

Xαh = −2 +1 +2 . . .

Soit Hnαh le score local de LA séquence Xαh.

Sabine MERCIER Comparaison de deux séquences avec gaps 38/46

Page 39: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Méthode h-uplets (2/5)

On définit

Mhm,n = maxα Hnαh

Introduction des gaps par la fonction des scores (Zhang 1995).

S = score global avec gaps des h-uplets (s :BLOSUM62, δ=-1)

S(CUY ,AYG) = +2 : −→ C U Y −A − Y G

α −1−2 +2−1 +3−3 · · · → C U Y − . . . U D − TA − Y G . . . − D G N

Sabine MERCIER Comparaison de deux séquences avec gaps 39/46

Page 40: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Méthode h-uplets (3/5)

La signification statistique deMhm,n ?

On adapte le résultat du score local sans gap avec shifts.La différence est sur l’alphabet, Ah au lieu de A.Une fonction de score qui fait aparaître les gaps.

Sabine MERCIER Comparaison de deux séquences avec gaps 40/46

Page 41: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Méthode h-uplets (4/5)

Choix de h ? Test pour 2 ≤ h ≤ 4.

Pour des séquences courtes et moyennes,h = 2 donne de meilleurs résultats et c’est rapide.Pour des séquences plus grandes (' 1000),h = 4 donne de meilleurs résultats.

Sabine MERCIER Comparaison de deux séquences avec gaps 41/46

Page 42: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

AlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

Méthode h-uplets (5/5)

Sabine MERCIER Comparaison de deux séquences avec gaps 42/46

Page 43: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Plan

1 ContexteLes séquences biologiquesModélisation

2 L’analyse d’une séquenceScore local pour une séquenceSignification statistique

3 Comparaison de deux séquencesAlignementS et scores d’alignementSSignification statistiqueLes derniers résultats sur les gaps

4 Que faut-il penser de tout ça ?

Sabine MERCIER Comparaison de deux séquences avec gaps 43/46

Page 44: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Conclusion

Bilan des différents travaux

p-valeur du score local gappé reste un problème important.Les méthodes en ligne ne sont pas satisfaisantes.Il faut implémenter les derniers résultats.

Sabine MERCIER Comparaison de deux séquences avec gaps 44/46

Page 45: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Conclusion

Mon “sentiment”

Il n’est pas raisonable de se focaliser sur le score local deSmith et Waterman.Définir un score local gappé proche de celui réellementcalculé et trouver sa p-valeur.

Le problème probabiliste est difficilecar l’outil est compliqué.

Sabine MERCIER Comparaison de deux séquences avec gaps 45/46

Page 46: Comparaison de deux séquences avec gaps : score local et p

ContexteL’analyse d’une séquence

Comparaison de deux séquencesQue faut-il penser de tout ça ?

Conclusion

Perspectives et idées

Net effort sur les temps de calculs.Loi du nombre de gaps dans l’alignement réalisant le scorelocal.Actuellement, la séquence requête comme la base dedonnées sont considérées aléatoires.p-valeur d’un score local conditionnellement à la requête ?

Sabine MERCIER Comparaison de deux séquences avec gaps 46/46