28
1 Recherche de répétitions Recherche de répétitions distantes dans les distantes dans les séquences séquences Etudiant : Etudiant : Laurent Laurent NOE NOE Encadrant : Encadrant : Gregory Gregory KUCHEROV KUCHEROV

1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

Embed Size (px)

Citation preview

Page 1: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

1

Recherche de répétitions distantes dans Recherche de répétitions distantes dans les séquencesles séquences

Etudiant : Etudiant : Laurent NOELaurent NOE Encadrant : Encadrant : Gregory KUCHEROVGregory KUCHEROV

Page 2: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

2

Plan

1. Introduction au problème

2. Les programmes existants

3. La méthode adoptée

4. L’algorithme

5. Résultats obtenus et extensions envisagées

6. Conclusion

Page 3: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

3

1. Introduction

L’ADN• La molécule

• L’information contenue

Extraction de l’information (séquençage) Gènes et fonctions Aspects automatisables

Page 4: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

4

Recherche de répétitions• Problème connu de l’algorithmique du texte

• Spécificité de l’ADN : répétitions approchées

• Sous-répétitions exactes (graines)

• Approche choisie

Page 5: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

5

Evolution des occurrences d’une répétition

s

1 2 31

23

d

1 345

14

35

i

Page 6: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

6

2. Les programmes existants

BLAST

ASSIRC

Page 7: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

7

BLAST

Nombreuses versions destinées à l’ADN et aux protéines

Recherche de similitudes significatives dans les bases de données.

Basé sur l’extension de graines de taille 11

Page 8: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

8

ASSIRC

Recherche de répétitions exactes de k lettres (couples de k-mots)

Extension des répétitions exactes (graines) à l’aide d’une fonction propre

Page 9: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

9

3. La méthode adoptée

Rassembler les graines (répétitions exactes)• Rechercher des répétitions exactes dont chacune des

occurrences est respectivement proche de l’autre

Utilisation de critères statistiques concernant:• La taille des répétitions exactes recherchées

• La distance entre ces répétitions exactes

• La variation de distance entre ces répétitions

Page 10: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

10

Modèles choisis

Modèle d’alignement binaire• Comparaison d’occurrences de répétitions approchées

Marche aléatoire• simuler les indels (insertions/suppressions) sur les

occurrences de répétitions approchées

Page 11: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

11

Modèle d’alignement binaire

Comparaison de deux répétitions approchées

Analogie avec le lancer de pièce:• un train (série successive) de k piles (valeur 1) équivaut à une

répétition exacte de taille k.

Etude de variables aléatoires issues du lancer de pièce:• le plus long train de piles espéré en n lancers.• la distance entre des trains de k piles.

ATGACCAGTACCGTCCGCTATGTGCAGGACCGTGAGCT

1110011101111100111

Page 12: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

12

Modèle d’alignement binaire

Plus long train de piles espéré en n lancers.

• Permet de déterminer la taille maximale espérée des répétitions exactes dans une répétition approchée de taille n.

• Formule approchée:• p = taux de ressemblance,

• n = taille de la répétition approchée,

• α = tolérance

• Simulation

p

np 1 log

1 loglog 1 log

ATGACCAGTACCGTCCGCTATGTGCAGGACCGTGAGCT

1110011101111100111

Page 13: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

13

Modèle d’alignement binaire

Distance entre trains de k piles

• Sert à étudier la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée.

• Formule récursive:

• Gk,p = « distance » entre les répétitions de taille k,• p = taux de ressemblance

• Bornes Statistiques

kxippkxp

kxx

kx

i pk

k

k

pk

GPGP

pour 1 1 pour

0pour 0

1

0 ,

,

ATGACCAGTACCGTCCGCTATGTGCAGGACCGTGAGCT

1110011101111100111

Page 14: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

14

Indels

Indels = insertion / suppression de lettres

d

ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT

1110011101101100111

1

ATGACCAGTCACGGTCCGCTATGTGCAGG-ACCGTGAGCT

111001110.1101100111

2

d+1

d

Page 15: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

15

Marche aléatoire

• Déplacement discret probabiliste dans l’espace. 3 possibilités

• « aller un pas vers la gauche » avec une probabilité p.

• « aller un pas vers la droite » avec une probabilité p.

• « rester sur place» avec une probabilité 1-2p.

On évalue la position finale au bout de n itérations.

• Marche aléatoire simule la variation de d. p représente la probabilité d’indels par nucléotide.

Le nombre de déplacements n est égal à la zone d’influence des indels sur d.

Page 16: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

16

Marche aléatoire

• Borner statistiquement la variation de d cela équivaut à borner statistiquement la marche aléatoire.

• 2 Méthodes Calcul d’intervalles [-L..L] sur une loi multinomiale:

Fonction génératrice

)21())! 2 ( ()! ( !

! )2(22)(

0

ppkjnkjj

n kjnkjL

Lk

kn

j

XpppXXP 21

11 XaXaXaXP n

nn

-nn

-nn

Page 17: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

17

Méthode adoptée

Finalement …• Rassembler les répétitions exactes qui sont proches:

borne statistique sur la distance entre répétitions de taille k

• Considérer les effets produits par les indels: bornes statistiques sur la variation de distance entre

répétitions de taille k.

ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT

d1 d2 d’1 d’2

Page 18: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

18

4. Algorithme

Algorithme de chaînage

Algorithme d’alignement

Chaînages de répétitions

exactes

Séquence(s) d’ADN

Répétitions approchées

Paramètres utilisateur

Page 19: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

19

Algorithme de chaînage

Utilise en entrée la liste chaînée des k-mots• k-mot : sous-mot du texte de taille k

• Cette liste donne l’ensemble des positions sur le texte d’un k-mot donné.

Création de couples de k-mots identiques c( i , j ).

Chaînage de ces couples selon les deux critères de distance vus précédemment.

Page 20: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

20

Critères appliqués aux couples

distance di inter-couples inférieure à un seuil

variation de distance inter-couples inférieure à un seuil

lien entre la distance intra-couple ai et la distance inter-couples di.

Reformuler ce critère sur la distance intra-couple ai

ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT..

d1 d2 d’1 d’2

a1

a2

Page 21: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

21

Première approche

1 pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire

2 pour chaque occurrence wj de wi ( j < i ) faire

3 si il existe un couple c’(i’, j’) satisfaisant les deux critères

4 alors chaîner c’(i’, j’) vers c(i ,j)

5 fsi

6 fpour

7 fpour

Page 22: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

22

Respect des critères

Afin de respecter ces critères, on utilise un tableau des distances :

• Son rôle : conserver à l’indice d, la position i du dernier couple dont la distance intra-couple était d .

• Utilisé pour la recherche de couples antécédents.

• Afin de prendre en compte les indels, les couples antécédents ayant une distance intra-couple voisine seront également pris en compte.

Page 23: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

23

Deuxième approche

01 pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire

02 pour chaque occurrence wj de wi ( j < i ) faire

03 d = i - j

04 pour dobs dans {d, d+1, d-1, … d+ δ, d- δ} faire

05 i’ = CD [dobs ]

06 si i – i’ < ρ alors

07 j’ = i – dobs

08 chaîner c(i’, j’) vers c(i,j )

09 break // sortir de la boucle dobs

10 fsi

11 fpour

12 CD [d ] = i

13 fpour

14 fpour

Page 24: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

24

5. Réalisation

Programme Résultats

• Donne les positions (début-fin) de chaque occurrence d’une répétition.

• Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition.

• Possibilité de visualiser l’alignement des deux occurrences de la répétition approchée.

TTCTTGTCTT-TCATGTACCT-CTTTCAGATACC--ACTGAGTAATATGACTTTA-AAAGCTCT

......d.s.i..sd......i.ss.d....s.sii...ss...s.s..d....si...ssd..

TTCTTG-CATATCC-GTACCTACCGT-AGATTCAATACTCCGTAGTTTG-CTTTCGAAATA-CT

Page 25: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

25

Expérimentation

ASSIRC• plus lent

BLASTN• approche moins sensible

Temps de calcul partagé entre chaînage/alignement• Le temps consommé par l’alignement augmente de

manière beaucoup plus importante que celui du chaînage lorsque l’on cherche des répétitions approchées moins ressemblantes.

• Ajout d’un filtre annexe (sous k-mots).

Page 26: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

26

Extensions envisagées

Traiter le brin d’ADN complémentaire inversé

tttgac

gtcaaa

(1) duplication

(2) complémentaritéa-tg-c

Brins d'ADNcomplémentaires

Page 27: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

27

6. Conclusion

Nouvelle méthode de recherche de répétitions

• propriétés statistiques des séquences approchées

• algorithme de regroupement Solution satisfaisante Extensions envisagées

Page 28: 1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

28agc

tgag?c

c??tat

gagcaa

?gacca

??actc

?gcggc

gcatct

aggag?

?acc??

?tcttc

ttcg

???? ??

Questions