1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant :...

Recherche de répétitions distantes dans Recherche de répétitions distantes dans les séquencesles séquences

Etudiant : Etudiant : Laurent NOELaurent NOE Encadrant : Encadrant : Gregory KUCHEROVGregory KUCHEROV

1. Introduction au problème

2. Les programmes existants

3. La méthode adoptée

4. L’algorithme

5. Résultats obtenus et extensions envisagées

6. Conclusion

1. Introduction

L’ADN• La molécule

• L’information contenue

Extraction de l’information (séquençage) Gènes et fonctions Aspects automatisables

Recherche de répétitions• Problème connu de l’algorithmique du texte

• Spécificité de l’ADN : répétitions approchées

• Sous-répétitions exactes (graines)

• Approche choisie

Evolution des occurrences d’une répétition

1 2 31

2. Les programmes existants

ASSIRC

Nombreuses versions destinées à l’ADN et aux protéines

Recherche de similitudes significatives dans les bases de données.

Basé sur l’extension de graines de taille 11

ASSIRC

Recherche de répétitions exactes de k lettres (couples de k-mots)

Extension des répétitions exactes (graines) à l’aide d’une fonction propre

3. La méthode adoptée

Rassembler les graines (répétitions exactes)• Rechercher des répétitions exactes dont chacune des

occurrences est respectivement proche de l’autre

Utilisation de critères statistiques concernant:• La taille des répétitions exactes recherchées

• La distance entre ces répétitions exactes

• La variation de distance entre ces répétitions

Modèles choisis

Modèle d’alignement binaire• Comparaison d’occurrences de répétitions approchées

Marche aléatoire• simuler les indels (insertions/suppressions) sur les

occurrences de répétitions approchées

Modèle d’alignement binaire

Comparaison de deux répétitions approchées

Analogie avec le lancer de pièce:• un train (série successive) de k piles (valeur 1) équivaut à une

répétition exacte de taille k.

Etude de variables aléatoires issues du lancer de pièce:• le plus long train de piles espéré en n lancers.• la distance entre des trains de k piles.

ATGACCAGTACCGTCCGCTATGTGCAGGACCGTGAGCT

1110011101111100111

Plus long train de piles espéré en n lancers.

• Permet de déterminer la taille maximale espérée des répétitions exactes dans une répétition approchée de taille n.

• Formule approchée:• p = taux de ressemblance,

• n = taille de la répétition approchée,

• α = tolérance

• Simulation

np 1 log

1 loglog 1 log

1110011101111100111

Distance entre trains de k piles

• Sert à étudier la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée.

• Formule récursive:

• Gk,p = « distance » entre les répétitions de taille k,• p = taux de ressemblance

• Bornes Statistiques

kxippkxp

pour 1 1 pour

0pour 0

1110011101111100111

Indels

Indels = insertion / suppression de lettres

ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT

1110011101101100111

ATGACCAGTCACGGTCCGCTATGTGCAGG-ACCGTGAGCT

111001110.1101100111

Marche aléatoire

• Déplacement discret probabiliste dans l’espace. 3 possibilités

• « aller un pas vers la gauche » avec une probabilité p.

• « aller un pas vers la droite » avec une probabilité p.

• « rester sur place» avec une probabilité 1-2p.

On évalue la position finale au bout de n itérations.

• Marche aléatoire simule la variation de d. p représente la probabilité d’indels par nucléotide.

Le nombre de déplacements n est égal à la zone d’influence des indels sur d.

Marche aléatoire

• Borner statistiquement la variation de d cela équivaut à borner statistiquement la marche aléatoire.

• 2 Méthodes Calcul d’intervalles [-L..L] sur une loi multinomiale:

Fonction génératrice

)21())! 2 ( ()! ( !

! )2(22)(

ppkjnkjj

n kjnkjL

XpppXXP 21

11 XaXaXaXP n

Méthode adoptée

Finalement …• Rassembler les répétitions exactes qui sont proches:

borne statistique sur la distance entre répétitions de taille k

• Considérer les effets produits par les indels: bornes statistiques sur la variation de distance entre

répétitions de taille k.

ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT

d1 d2 d’1 d’2

4. Algorithme

Algorithme de chaînage

Algorithme d’alignement

Chaînages de répétitions

exactes

Séquence(s) d’ADN

Répétitions approchées

Paramètres utilisateur

Algorithme de chaînage

Utilise en entrée la liste chaînée des k-mots• k-mot : sous-mot du texte de taille k

• Cette liste donne l’ensemble des positions sur le texte d’un k-mot donné.

Création de couples de k-mots identiques c( i , j ).

Chaînage de ces couples selon les deux critères de distance vus précédemment.

Critères appliqués aux couples

distance di inter-couples inférieure à un seuil

variation de distance inter-couples inférieure à un seuil

lien entre la distance intra-couple ai et la distance inter-couples di.

Reformuler ce critère sur la distance intra-couple ai

ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT..

d1 d2 d’1 d’2

Première approche

1 pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire

2 pour chaque occurrence wj de wi ( j < i ) faire

3 si il existe un couple c’(i’, j’) satisfaisant les deux critères

4 alors chaîner c’(i’, j’) vers c(i ,j)

6 fpour

7 fpour

Respect des critères

Afin de respecter ces critères, on utilise un tableau des distances :

• Son rôle : conserver à l’indice d, la position i du dernier couple dont la distance intra-couple était d .

• Utilisé pour la recherche de couples antécédents.

• Afin de prendre en compte les indels, les couples antécédents ayant une distance intra-couple voisine seront également pris en compte.

Deuxième approche

01 pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire

02 pour chaque occurrence wj de wi ( j < i ) faire

03 d = i - j

04 pour dobs dans {d, d+1, d-1, … d+ δ, d- δ} faire

05 i’ = CD [dobs ]

06 si i – i’ < ρ alors

07 j’ = i – dobs

08 chaîner c(i’, j’) vers c(i,j )

09 break // sortir de la boucle dobs

10 fsi

11 fpour

12 CD [d ] = i

13 fpour

14 fpour

5. Réalisation

Programme Résultats

• Donne les positions (début-fin) de chaque occurrence d’une répétition.

• Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition.

• Possibilité de visualiser l’alignement des deux occurrences de la répétition approchée.

TTCTTGTCTT-TCATGTACCT-CTTTCAGATACC--ACTGAGTAATATGACTTTA-AAAGCTCT

......d.s.i..sd......i.ss.d....s.sii...ss...s.s..d....si...ssd..

TTCTTG-CATATCC-GTACCTACCGT-AGATTCAATACTCCGTAGTTTG-CTTTCGAAATA-CT

Expérimentation

ASSIRC• plus lent

BLASTN• approche moins sensible

Temps de calcul partagé entre chaînage/alignement• Le temps consommé par l’alignement augmente de

manière beaucoup plus importante que celui du chaînage lorsque l’on cherche des répétitions approchées moins ressemblantes.

• Ajout d’un filtre annexe (sous k-mots).

Extensions envisagées

Traiter le brin d’ADN complémentaire inversé

tttgac

gtcaaa

(1) duplication

(2) complémentaritéa-tg-c

Brins d'ADNcomplémentaires

6. Conclusion

Nouvelle méthode de recherche de répétitions

• propriétés statistiques des séquences approchées

• algorithme de regroupement Solution satisfaisante Extensions envisagées

tgag?c

c??tat

gagcaa

?gacca

??actc

?gcggc

gcatct

aggag?

?acc??

?tcttc

???? ??

Questions

1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant :...

Documents

2 ARC 303 Choisir une technologie daccès aux données distantes Février 2011 David Rousset & Stéphanie Hertrich Relations Techniques Développeurs Microsoft

MAXIPLUS , NOE , CBI, CBP, PYROSTAR NOTICE D’UTILISATION … · CAISSON DE VENTILATION MAXIPLUS ®, NOE , CBI, CBP, PYROSTAR ® MS-MTG-001 Ind E maj 27/10/2016 Créé par JC Validé

Programme du 27 Février au 05 Mars - Accueil | NOE

Dell™Commutateurdeconsoles distantes Guided ......Notes REMARQUE:LesinformationssuivantlemotREMARQUEsont importantescarellesvouspermettentd'optimiserlesperformances devotreordinateur

MAIRIE DE NOE - Info-encheres · COMMUNE NOE PERMIS DE CONSTRUIRE DELIVRE PAR LE MAIRE AU NOM DE LA COMMUNE -DESCRIPTION DE LA DEMANDE D'AUTORISATION 1"1lféreoce dossier : Déposée

Exposition des street artistes Kongo - Fenx - Noe Two

La voix exercices corrigé · 2021. 2. 1. · le tuba des palettes (ou des pistons) 4. Répétitions – concerts a) Combien de répétitions faut-il en général avant un concert

19 et 20 mai 2014 Les répétitions de la Fête des écoles de la ville de Marseille se sont bien passées ! Les répétitions de la Fête des écoles de la ville

ARC 303 Choisir une technologie d’accès aux données distantes

Nouvelles vues - Répétitions et rêveries au centre du terroir ......Nouvelles vues - Répétitions et rêveries au centre du terroir. Trois variations sur l’imaginaire d’une

tiré du nom de Noé, le NOE Introduction

SPECTACLE 2017 Samedi 11 mars Répétitions · 2017-01-09 · 2017 Répétitions SPECTACLE 2 JUIN 2017 Samedi 11 mars 14h-16h (Salle Polyvalente) Mercredi 31 mai 13h30-18h (Sémaphore)

Étoiles distantes

Algorithmes iteratifs· asynchrones sur grappes distantes ...info.iut-bm.univ-fcomte.fr/staff/couturie/hdr.pdf · Ahmed Mostefaoui, Michel Salomon et les doctorants de l’equipe·

Campagne d’éducation à la forêt humide - Noe

MB Pro Multi MANUEL D’INSTALLATION ET D’UTILISATIONold.promibs.com/manuel/MBpro_multi.pdf · 2016-09-23 · Commandes distantes (Remote SMS Command) : Il s’agit de ommandes

enjeux et perspectives des activités mobiles, distantes et ...Gains de productivité: jusqu’à +27%, passage au management par objectifs, implication du télétravailleur, gain

« Noe Anabaptist » — La théonomie chez les premiers réformés baptistes

Comment les codecs IP transforment les radios distantes

Techniques de filtrage à laide de graines espacées Laurent Noé laurent.noe@loria.fr noe Travail commun avec Gregory Kucherov Séminaire