40
L’algorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. ences (L3) parcours Bioinformatique et Biostatistiques 2006-2 Alain Denise et Stéphane Vialette Université Paris-Sud 11

Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Embed Size (px)

Citation preview

Page 1: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

L’algorithme de Kandel et al. pour la génération de séquences génomiques

aléatoires.

Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Alain Denise et Stéphane Vialette

Université Paris-Sud 11

Page 2: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Introduction : motivations et généralités

Page 3: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

G G C 5’C 5’T T AAA A TTC C GGC C GGC C GGA A TTT T AAC C GGA A TT

MT

3’3’

Structure de l’ADN

Page 4: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Promoteur Origine de réplication

ARNtARNrIntrons...

Analyse d’un génome

5’ 3’

Gène protéique

ARNm

Protéine

transcription

traduction

• Faire l’inventaire du contenu génétique. • Puis comprendre son organisation, les relations entre structure et fonction de l’information, les processus qui permettent son expression.

Page 5: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTCTCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACTCGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAAACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCACGATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCTCATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATTTTTAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAGCCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTATTAGTGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAATCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACAATCGAATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCATGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGTACTTATTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCACGTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGTGGATGCACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTTGGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATACAGCTGCGTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGCTATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAGAACAGTCAAGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGTTTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAAGGAATGTCGCATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTGAGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGGATTGTTCAAGTTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATAATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGATAATGTTCTGGTAATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTGACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGGTTTTTTATCATATGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTTCGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTCCCATTATGTACTGTGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGGATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGGGGGATGCTGAGTTTGGAATGGGCTGCCATGTATGGTAAGGAATATGTGAAGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATATCGTGGTCTGAGGCTCAAAGACAATCGATTTACTCAGATCCCAACTACTTGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCTGCACGTATGTCTGCATTGTTGACGTACAGGACAAGAAACAGTTTCGAGAACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAAAGGGAGGAGACACGCAAACCATCTACTGTCAGCGAACACTCCCTACAAATCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATTTCTGGGCAAAAAGGTCAAAGCGTGGTGTCCACCGCATCTTCTTCGGATTCATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAAGTGAAGGACATAAAGCCTGCGCAGACGTATTTTTCTGCACAAAGTTACTTGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTACATTGCCATCACACGTAAACTGGATACGCACGATTTGGCAAGAGACAGAGTAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATCATCGGTATCCAATCTGATGGACTGTTCACATATTCAGAACAAGAATTTTTGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAAGCCACGATGCCTTCCTATTGGAGTTTAAGCTGATAAACAAACTGATAGTACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAGCTTGGGGAGGCGACGTTGGTAACGATGAAACGAAGACGTCTGTCTTTGGTGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTCAGGCATAACATAGATAAACCAGTACATGTATATCTATATCTATATTTATATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTAACGGTAGTTAATTTCTCTTTTTTGTCCTCGTTGTTGAAAAACGAAAGAAGAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTTTCCACATTCTGACCGCACTTGTAGACAGCCACTCTTTGCATTGCCACTCGACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTTTGAAAAAAGCAAATCGCCCTTTTATGTAGGGACAAGTAACTTTTAGATC...

Page 6: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Phase d’inventaire

1. Alignements. Aligner sur la séquence• des ARN messagers de l’organisme en question• des séquences codantes d’autres organismes.

2. Segmentation (approche « ab initio ») : modèles de Markov cachés, …

Page 7: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

A : 3/10C : 2/10G : 2/10T : 3/10

A : 1/10C : 4/10G : 4/10T : 1/10

2/10

1/10

8/10 9/10

Non codant Codant

Modèle de Markov caché : principes

Pr(ATTGAC) = 3/10 × 2/10 × 1/10 × 9/10 × 1/10 × …

Trouver la segmentation la plus probable d’une séquence :

Pr(ATTGAC) = 3/10 × 8/10 × 3/10 × 2/10 × 1/10 × …

Raffinements : fréquences d’oligonucléotides, phases du codant, caractères syntaxiques (Start, Stop, …)

Page 8: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

1. Alignements.• on ne détecte que des gènes déjà connus par ailleurs,

ou des ARN fortement exprimés.• problèmes d’ordre technique : contamination par des

ARN pré-messagers…• Imprécision des algorithmes d’alignement.

2. Segmentation. Dans A. thaliana, moins d’un gène sur deux est correctement reconnu ; deux gènes prédits sur trois sont faux. [Reese et al. 2000]

Phase d’inventaire : problèmes

On prédit mal, et on ne prédit que ce que l’on connaît déjà.

Page 9: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques.

Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.

Paradigme : comparaison biologie/aléatoire

Page 10: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Paradigm : biological vs. random sequences

TTCATTATCTCCATTCGCTGGTGGGCAAGGACTTGAGCTATCGCCCTTTC...GCATAAAGTTATTCATAAACTGTCAGGGGTTCGGTTGCCGCTGGTGGAAC...AGGCTGGTGGACGCCTACGTTATTTTGCTGGTGGACTGGAAATCATCTAG...TCCAACGAAATAGCTGGTGGTCTACACTCATATCGTTATTAACAAACGAA...AGAAACTAATGGGTGTCACAGCTGGTGGGCTCGTATTTTGTAGGAGGTCA...

Biological sequence :

ATATATATATTTATCTTGCAACTCGGAGAATTCTATTAATATATGAACGA...ACGTAGATGACAACAATTAGCATGTGGATTTGTAAGGTAAGTTTCTTGTG...CGTTGGTTGGTCATCGATGCAATGAATGAGTCGTTTAAAATAAGACTCGA...TTGTCTCTCAAGTTTTTTTTGCATTACCATTCTAAGCTGGTGGATATAGG...GTTTACAAGTTTTAACCTTTTGTCACTCGTCACCTTATGTGTGGCTTTAA...

Random sequence :

Chi motif in E. coli.

Searching for overrepresented motifs

Page 11: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

>MET1 MET1 upstream sequence, from -702 to -1, size 702TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA>MET2 MET2 upstream sequence, from -800 to -1, size 800GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA>MET3 MET3 upstream sequence, from -800 to -1, size 800AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC>MET6 MET6 upstream sequence, from -222 to -1, size 222GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT>MET14 MET14 upstream sequence, from -800 to -1, size 800TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC>ZWF1 MET19 upstream sequence, from -558 to -1, size 558GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA>MET17 MET25 upstream sequence, from -800 to -1, size 800TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA>MET30 MET30 upstream sequence, from -800 to -1, size 800CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC>MUP3 MUP3 upstream sequence, from -61 to -1, size 61TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA>SAM1 SAM1 upstream sequence, from -548 to -1, size 548AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT

Extraction de promoteurs

Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden]

La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9

Page 12: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Paradigm : biological vs. random sequences

Assessing significance of alignment scores

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRandomB1 QVGAKDLNALDGKVAHDMPAAVALGSAAHVDLSTNSKHHKLRandomB2 VAHSDLDAVKGDMPNGSAKKVAAQAAHGLSLTNHAHKLLVD…RandomBK HVDDMTNAGKKVPNAGSAQADAVADLHAHKLLVKGHLSALS

HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLRandomA1 HLSEKVLGTNLKGTGKFSDGCDKLLKAHNPKVLAGAFALHDRandomA2 KATEFATKVDGAFSDLSLLAHGKKVGGHLGNLPNLKHCDKL…RandomAK GTKKHGFSELPKVAHGNLDNDGHCGLAFSADKLVLATLKLK

Score130

Average score

25

Page 13: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Z-value and p-value

)(

)()()(

XV

AScoreXEAZ

))(Pr()( AScoreXAPval

X = random variable, score of an alignment with a random sequence.

Alignments

X = random variable, number of occurrences of M in a random sequence.

)(

)(#)()(

XV

MoccXEMZ

))(#Pr()( MoccXMPval

Motifs

Page 14: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Choix du modèle de séquences aléatoires

TTCGTTGTCTCCGTTCGCTGGTGGGCGGGGGCTTGGGCTGTCGCCCTTTC...GCGTGGGGTTGTTCGTGGGCTGTCGGGGGTTCGGTTGCCGCTGGTGGGGC...GGGCTGGTGGGCGCCTGCGTTGTTTTGCTGGTGGGCTGGGGGTCGTCTGG...TCCGGCGGGGTGGCTGGTGGTCTGCGCTCGTGTCGTTGTTGGCGGGCGGG...GGGGGCTGGTGGGTGTCGCGGCTGGTGGGCTCGTGTTTTGTGGGGGGTCG...

Séquence biologique :

TTAATTATATAAATTAGCTGGTGGCAAACCAATTCACATATACAAATTTA...CAATAAACTTATTAATAAAATCTAACCCCTTACCTTCAAGCTGGTGGAAA...ACGCTGGTGGAACAATAACTTATTTTGCTGGTGGAATCCAAATAATATAC...TAAAAACAAATAGCTGGTGGTCTACAATAATATACTTATTAAAAAAACAA...ACAAAATAATCCCTTTAAAAGCTGGTGGCATACTATTTTCTACCACCTAA...

Séquence biologique :

Etonnant !

Moins étonnant !

Page 15: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AACGACGTGCCGTGCGCTCGACGT

Modèles classiques de séquences aléatoires [Fitch 83]

AACG : 1

Séquence biologique :

Occurrences :

Page 16: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1

Séquence biologique :

Occurrences :

Page 17: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1CGAC : 1

Séquence biologique :

Occurrences :

Page 18: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1CGAC : 1GACG : 1

Séquence biologique :

Occurrences :

Page 19: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Séquence biologique :

Occurrences :

Page 20: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Modèle markovien

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Occurrences :

Séquences ayant en moyenne les mêmes nombres d’occurrences de nucléotides que la séquence de référence.

Pr(G|AAC) = 1 Pr(T|GCG) = 1/2

Page 21: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Modèle exact (shuffling)

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Occurrences :

Séquences ayant exactement les mêmes nombres d’occurrences de nucléotides que la séquence de référence.

Page 22: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Génération aléatoire de séquences génomiques selon le modèle exact (« shuffling »)

Page 23: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Génération en fréquences exactes

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Chemin eulérien dans le graphe suivant :

[Kandel, Matias, Unger, Winkler 96]

Page 24: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

Anti-arbrecouvrant

ordre des arcs adjacentsà un même sommet=

[Aardenne-Ehrenfest, de Bruijn 51]

Page 25: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

arbrecouvrant

ordre des arcs adjacentsà un même sommet=

1

2

1

1

2

AACGACGTGCGCTCGACGTGCGT

[Aardenne-Ehrenfest, de Bruijn 51]

Page 26: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

arbrecouvrant

ordre des arcs adjacentsà un même sommet=

1

2

1

1

2

AACGTGCGCTCGACGACGTGCGT

[Aardenne-Ehrenfest, de Bruijn 51]

Page 27: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder][Wilson]

Page 28: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

Page 29: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

Page 30: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

Page 31: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder 90][Wilson 97]

Engendrer un arbre couvrant aléatoire uniformément

Page 32: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 33: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 34: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 35: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 36: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 37: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 38: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 39: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 40: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007