Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Introduction
I Darwin (1859) dé�nissait l'Évolution comme un processus dedescendance avec modi�cation
I En terme génétique, les organismes transmettent les allèles deleurs gènes à leurs descendants.
I Génétique des populations: Discipline qui étudie la variationdes fréquences d'allèle dans les populations.
I Fondateurs: S. Wright, R. Fisher, J. Haldane, G. Malécot.
Lois de Mendel
Données de polymorphisme génétique
I Marqueurs alléliques (ex: microsatellites GATAGATAGATA)
I Séquences d'ADN, haplotypes
I Puces à SNPs (Single Nucleotide Polymorphisms)
I Génomes complets
Applications
I Recherche de gènes impliqués dans les maladies (ou tout autrephénotype) : GWAS Genome-Wide Association Studies
I Médecine P4 : personnalisée, prédictive, préventive etparticipative.
I Compréhension des mécanismes moléculaires de l'adaptation
I Interprétation de la diversité et de la variation génétique ausein des populations
Objectifs de l'exposé
I Un modèle mathématique de la génétique d'une population :le modèle de Wright-Fisher
I Une vision rétrospective de la transmission de l'hérédité : lemodèle de coalescence de Kingmann.
I Age de l'ancêtre commun le plus récent
I Des mutations dans les généalogies
I Estimation de la diversité génétique d'une population
La transmission des gènes
Arbres d'espèces
Arbres de populations
Histoire de l'espèce humaine
et des espèces s÷ures
Green et al Science (2010)
Quelles mathématiques pour les modèles en Biologie ?
I Outils analytiques traditionnels pour obtenir des formulesexplicites
Quelles mathématiques pour les modèles en Biologie ?
I Qu'apportent les mathématiques que l'on ne peut pas explorerpar la simulation informatique ?
I Plusieurs représentations des objets étudiés,
I qui permettent ensuite des algorithmes de simulation e�cacespour l'exploration et l'inférence numériques.
Intro aux modèles : la dynamique de Wright-Fisher
I La population est de taille constante, notée N,
I Les générations sont non-chevauchantes,
I Le nombre de descendants de chaque gène est aléatoire, de loide Poisson conditionnée à être plus petite que N.
I Dans le cas de reproduction sexuée nous supposons que lesmariages se font au hasard.
Modèle de Wright-Fisher
Un modèle d'urne
Théorème. Dans le modèle de Wright-Fisher, chaquedescendant choisit un parent par un tirage avec remise dans uneurne où sont placés les N parents.
Preuve. Soit νi le nombre d'enfants de i , i = 1, . . . ,N. Parhypothèse, νi suit la loi de Poisson de moyenne λ. Soit n1, . . . , nNdes entiers tels que
∑i ni = N. Nous avons
Pr(ν1 = n1, . . . , νN = nN |N∑i=1
νi = N) =N!
n1! · · · nN !
(1N
)N
.
Pourquoi c'est vrai
Suite de la preuve. Soit νi le nombre d'enfants de i ,i = 1, . . . ,N. Nous avons
Pr(νi = ni ) =λni
ni !e−λ
et
Pr(N∑i=1
νi = N) =(Nλ)N
N!e−Nλ.
Simulation : x = sample(x, replace = T)
Généalogies dans le modèle de Wright-Fisher
Temps de coalescence de 2 gènes
Dé�nition. On appelle temps de coalescence, τ2, de deux lignéesle nombre de générations qu'il est nécessaire de remonter pourtrouver le premier ancêtre commun des deux lignées.
Temps de coalescence
I Si l'unité de temps est une génération, alors la probabilité pourque τ2 = 1 est 1/N et plus généralement
Pr(τ2 > k) = (1− 1/N)k
I Si l'unité de temps est N générations, k = btNc et τ2 = bT2Nc
Pr(τ2 > k) = Pr(T2 > t)→ exp(−t), N →∞ .
Le processus ancestral
I {ANn (k) , k = 0, 1, . . . , } décrit le nombre d'ancêtres distincts
d'un échantillon de n gènes à la génération k en remontant letemps.
I ANn est une chaîne de Markov à valeurs dans {1, . . . , n} telle
que
Pr(ANn (k + 1) = j |AN
n (k) = i) = S ji
N(N − 1)(N − j + 1)N j
,
où j = 1, . . . , i et S ji est un nombre de Stirling de seconde
espèce (nombre de manière de partitionner un ensemble de i
éléments en j sous-ensemble non-vides).
L'approximation de Kingman : le coalescent(1981)
Théorème. Supposons que l'unité de temps est N générations(k = btNc), alors
ANn (bN.c)→ An(.) , N →∞
où {An(t) , t ≥ 0}, est un chaîne de Markov à temps continu telleque An(0) = n. Les taux de transition sont
L'approximation de Kingman : le coalescent(1981)
I Les durées séparant les coalescences successives des lignéessont indépendantes, de loi exponentielle de moyennesrespectives
E[Tj ] =2
j(j − 1)j = n, . . . , 2.
I Le processus est facile à simuler informatiquement (exemple desimulateur : le programme ms).
Variabilité des généalogies
Le temps écoulé depuis l'ancêtre commun le plus récent, TMRCA
I Dans la représentation limite de l'arbre de coalescence, lahauteur de l'arbre est égale à
TMRCA = T2 + · · ·+ Tn
où Tj est de loi exponentielle de moyenne 2/j(j − 1).
I La fonction de répartition de TMRCA se calcule de la manièresuivante
Pr(TMRCA ≤ t) = Pr(An(t) = 1).
Le temps écoulé depuis l'ancêtre commun le plus récent, TMRCA
I Pour une chaîne de Markov, les probabilités Pr(An(t) = j)sont solutions d'un système d'équations di�érentielles linéaires.
I Nous trouvons
Pr(An(t) = 1) =n∑
j=2
(−1)j−1(2j − 1)n[j]
n(j)e−j(j−1)t/2
n[j] = n(n− 1) · · · (n− j + 1) et n(j) = n(n+ 1) · · · (n+ j − 1).
Loi de TMRCA obtenue par simulation(n = 30)
Histogram of tmrca
tmrca
Den
sity
0 2 4 6 8 10 12 14
0.0
0.1
0.2
0.3
0.4
0.5
Quelques propriétés simples de TMRCA
I Espérance
E[TMRCA] =n∑
j=2
2j(j − 1)
= 2
(1− 1
n
)I Variance
Var[TMRCA] =n∑
j=2
4j2(j − 1)2
≈ 43π2 − 12
Quelles conclusions pour les espèces
I Le temps TMRCA est exprimé en unité de la taille e�cace de lapopulation N, aussi notée Ne
I Il faut donc estimer N ou Ne .
I Pour cela, les données génétiques entrent en jeu.
Partie 2
Des mutations dans les gènes
Un modèle à in�nité d'allèles
Mutations
I On suppose que les mutations n'ont pas d'e�et sélectif sur laséquence d'ADN étudiée (ADN neutre).
I On note µ la probabilité de mutation de la séquence étudiéepar génération.
I On mesure le temps en prenant pour unité N générations (Nest la taille de la population)
θ = 2µN
I Les mutations sont aléatoirement réparties dans la généalogiedes n séquences selon un processus de Poisson de paramètreθ/2.
Spectre de fréquences
I On appelle spectre de fréquences le vecteur
c = (c1, . . . , cn)
où ci est le nombres d'allèles présents en i copies dansl'échantillon de n gènes.
I Nous avonsc1 + 2c2 + · · ·+ ncn = n
I Le nombre d'allèles distincts présents dans l'échantillon est
Kn = c1 + c2 + · · ·+ cn.
Petit exemple
I On observe un échantillon de 10 allèles
A1,A1,A2,A1,A3,A2,A3,A4,A4,A4
I Le spectre est
c = (0, 2, 2, 0, 0, 0, 0, 0, 0, 0)
I Le nombre d'allèles distincts présents dans l'échantillon est
k = 4.
La formule d'Ewens (1972)
Théorème. Pour le modèle de mutation à in�nité d'allèles et unéchantillon de taille n
Pr(c) =n!
θ(n)
n∏j=1
(θ
j
)cj 1cj !
où θ(n) = θ(θ + 1) · · · (θ + n − 1).
Le processus du restaurant chinois
Le processus du restaurant chinois
I Imaginons un restaurant avec un nombre in�ni de tables.
I Les n clients arrivent un par un, et choisissent leur table de lamanière suivante.
I Le client j choisit une table inoccupée avec la probabilité
θ
j − 1+ θ
I et une table occupée avec la probabilité
njj − 1+ θ
où nj est le nombre de personnes assises à la table en question.
Le processus du restaurant chinois
Pr(c) =θ
θ
Le processus du restaurant chinois
Pr(c) =θ
θ
θ
1+ θ
Le processus du restaurant chinois
Pr(c) =θ
θ
θ
1+ θ
12+ θ
Le processus du restaurant chinois
Pr(c) =θ
θ
θ
1+ θ
12+ θ
θ
3+ θ
Le processus du restaurant chinois
Pr(c) =θ
θ
θ
1+ θ
12+ θ
θ
3+ θ
14+ θ
Le processus du restaurant chinois
Pr(c) =θ
θ
θ
1+ θ
12+ θ
θ
3+ θ
14+ θ
25+ θ
Ewens au restaurant
Théorème. La con�guration c obtenue à l'issue de n étapes duprocessus appelé restaurant chinois obéit à la formule d'Ewens.
Nombre d'allèles distincts
Théorème. Pour le modèle de mutation à in�nité d'allèles et unéchantillon de taille n
Pr(Kn = k) =θk
θ(n)|Sk
n |
où |Skn | est le coe�cient de θk dans le développement de
θ(θ + 1) · · · (θ + n − 1).
|Skn | est appelé nombre de Stirling de première espèce et dénombre
les permutations de n éléments ayant k cycles.
Nombre d'allèles distincts
Preuve. Pour le modèle de mutation à in�nité d'allèles et unéchantillon de taille n
Pr(Kn = k) =θk
θ(n)n!
∑cj :
∑cj=k
n∏j=1
(1j
)cj 1cj !
.Par normalisation, le coe�cient orange est nécessairement lecoe�cient de θk dans le développement de θ(n).
Remarque. |Skn | = (n − 1)|Sk
n−1|+ |Sk−1
n−1|
Nombre de tables occupées au restaurant chinois
Pr(c) =θ
θ
θ
1+ θ
12+ θ
θ
3+ θ
14+ θ
25+ θ
I La probabilité Pr(c) est invariante par permutation des indices(|Sk
n | possibilités)I Elle est proportionnelle à θk
Un autre représentation de la loi de Kn
Fonction génératrice. Pour le modèle de mutation à in�nitéd'allèles et un échantillon de taille n
GKn(z) =
n∑k=1
Pr(Kn = k)zk =(θz)(n)θ(n)
.
En explicitant cette relation, on obtient GKn(z) =
∏nj=1
GXj(z) où
Xj ∈ {0, 1} est une variable de Bernoulli
Pr(Xj = 1) =θ
θ + j − 1
(Initiation d'une table dans le restaurant chinois).
Quelques propriétés simples de Kn (1972)
I Espérance
E[Kn] =n∑
j=1
E[Xj ] =n∑
j=1
θ
θ + j − 1∼ θ log n ,
I Espérance
Var[Kn] =n∑
j=1
Var[Xj ] =n∑
j=1
θj
(θ + j − 1)2∼ θ log n
I Kn/ log n est un estimateur de θ parfois appelé diversitégénétique. Il converge en 1/ log n, avec une vitesseasymtotiquement optimale.
Une application à l'ADN mitochondrial
Une application à l'ADN mitochondrial
I Chez les mammifères, l'ADN mitochondrial est transmis par lamère.
I Pour les études généalogiques, on séquence la boucle decontrôle D (≈500bp). On considère que la probabilité demutation de cette séquence est µ ≈ 10−6 par génération parpaire de base.
I Pour la tribu amérindienne Nuu-Chah-Nulth, on observe 8allèles dans un échantillon de n = 55 séquences d'individus nonapparentés.
Taille e�cace de la population Nuu-Chah-Nulth
I Pour estimer la taille e�cace de la population
Ne ≈θ
2µL
I où θ ≈ 2.7 est solution de
8 =55∑j=2
θ
θ + j − 1
I La taille e�cace est Ne ≈ 2700 individus.
I TMRCA ≈ 100000 ans!
Messages à ramener à la maison
I L'étude de l'hérédité est une discipline ayant une longuetradition mathématique
I Les mathématiciens ont proposé de nouvelles représentationsdes modèles manipulés par la génétique des populations, enparticulier, rétrospectives.
I En retour, ces representations permettent de simulere�cacement le polymorphisme génétique au sein despopulations
Pour aller plus loin
I Tavaré S (2004) Ancestral inference in population genetics,Springer NY.
I Durrett R (2006) Probability models of DNA sequenceevolution, Springer NY.
Du temps pour une discussion
Merci de votre attention!