Les Mathématiques de l'Hérédité

Les Mathématiques de l'Hérédité

[email protected]

Mai 2011 � LIESSE

Introduction

I Darwin (1859) dé�nissait l'Évolution comme un processus dedescendance avec modi�cation

I En terme génétique, les organismes transmettent les allèles deleurs gènes à leurs descendants.

I Génétique des populations: Discipline qui étudie la variationdes fréquences d'allèle dans les populations.

I Fondateurs: S. Wright, R. Fisher, J. Haldane, G. Malécot.

Lois de Mendel

Données de polymorphisme génétique

I Marqueurs alléliques (ex: microsatellites GATAGATAGATA)

I Séquences d'ADN, haplotypes

I Puces à SNPs (Single Nucleotide Polymorphisms)

I Génomes complets

Applications

I Recherche de gènes impliqués dans les maladies (ou tout autrephénotype) : GWAS Genome-Wide Association Studies

I Médecine P4 : personnalisée, prédictive, préventive etparticipative.

I Compréhension des mécanismes moléculaires de l'adaptation

I Interprétation de la diversité et de la variation génétique ausein des populations

Objectifs de l'exposé

I Un modèle mathématique de la génétique d'une population :le modèle de Wright-Fisher

I Une vision rétrospective de la transmission de l'hérédité : lemodèle de coalescence de Kingmann.

I Age de l'ancêtre commun le plus récent

I Des mutations dans les généalogies

I Estimation de la diversité génétique d'une population

La transmission des gènes

Arbres d'espèces

Arbres de populations

Histoire de l'espèce humaine

et des espèces s÷ures

Green et al Science (2010)

Quelles mathématiques pour les modèles en Biologie ?

I Outils analytiques traditionnels pour obtenir des formulesexplicites

Quelles mathématiques pour les modèles en Biologie ?

I Qu'apportent les mathématiques que l'on ne peut pas explorerpar la simulation informatique ?

I Plusieurs représentations des objets étudiés,

I qui permettent ensuite des algorithmes de simulation e�cacespour l'exploration et l'inférence numériques.

Intro aux modèles : la dynamique de Wright-Fisher

I La population est de taille constante, notée N,

I Les générations sont non-chevauchantes,

I Le nombre de descendants de chaque gène est aléatoire, de loide Poisson conditionnée à être plus petite que N.

I Dans le cas de reproduction sexuée nous supposons que lesmariages se font au hasard.

Modèle de Wright-Fisher

Un modèle d'urne

Théorème. Dans le modèle de Wright-Fisher, chaquedescendant choisit un parent par un tirage avec remise dans uneurne où sont placés les N parents.

Preuve. Soit νi le nombre d'enfants de i , i = 1, . . . ,N. Parhypothèse, νi suit la loi de Poisson de moyenne λ. Soit n1, . . . , nNdes entiers tels que

∑i ni = N. Nous avons

Pr(ν1 = n1, . . . , νN = nN |N∑i=1

νi = N) =N!

n1! · · · nN !

(1N

)N

.

Pourquoi c'est vrai

Suite de la preuve. Soit νi le nombre d'enfants de i ,i = 1, . . . ,N. Nous avons

Pr(νi = ni ) =λni

ni !e−λ

et

Pr(N∑i=1

νi = N) =(Nλ)N

N!e−Nλ.

Simulation : x = sample(x, replace = T)

Généalogies dans le modèle de Wright-Fisher

Temps de coalescence de 2 gènes

Dé�nition. On appelle temps de coalescence, τ2, de deux lignéesle nombre de générations qu'il est nécessaire de remonter pourtrouver le premier ancêtre commun des deux lignées.

Temps de coalescence

I Si l'unité de temps est une génération, alors la probabilité pourque τ2 = 1 est 1/N et plus généralement

Pr(τ2 > k) = (1− 1/N)k

I Si l'unité de temps est N générations, k = btNc et τ2 = bT2Nc

Pr(τ2 > k) = Pr(T2 > t)→ exp(−t), N →∞ .

Le processus ancestral

I {ANn (k) , k = 0, 1, . . . , } décrit le nombre d'ancêtres distincts

d'un échantillon de n gènes à la génération k en remontant letemps.

I ANn est une chaîne de Markov à valeurs dans {1, . . . , n} telle

que

Pr(ANn (k + 1) = j |AN

n (k) = i) = S ji

N(N − 1)(N − j + 1)N j

,

où j = 1, . . . , i et S ji est un nombre de Stirling de seconde

espèce (nombre de manière de partitionner un ensemble de i

éléments en j sous-ensemble non-vides).

L'approximation de Kingman : le coalescent(1981)

Théorème. Supposons que l'unité de temps est N générations(k = btNc), alors

ANn (bN.c)→ An(.) , N →∞

où {An(t) , t ≥ 0}, est un chaîne de Markov à temps continu telleque An(0) = n. Les taux de transition sont

L'approximation de Kingman : le coalescent(1981)

I Les durées séparant les coalescences successives des lignéessont indépendantes, de loi exponentielle de moyennesrespectives

E[Tj ] =2

j(j − 1)j = n, . . . , 2.

I Le processus est facile à simuler informatiquement (exemple desimulateur : le programme ms).

Variabilité des généalogies

Le temps écoulé depuis l'ancêtre commun le plus récent, TMRCA

I Dans la représentation limite de l'arbre de coalescence, lahauteur de l'arbre est égale à

TMRCA = T2 + · · ·+ Tn

où Tj est de loi exponentielle de moyenne 2/j(j − 1).

I La fonction de répartition de TMRCA se calcule de la manièresuivante

Pr(TMRCA ≤ t) = Pr(An(t) = 1).

Le temps écoulé depuis l'ancêtre commun le plus récent, TMRCA

I Pour une chaîne de Markov, les probabilités Pr(An(t) = j)sont solutions d'un système d'équations di�érentielles linéaires.

I Nous trouvons

Pr(An(t) = 1) =n∑

j=2

(−1)j−1(2j − 1)n[j]

n(j)e−j(j−1)t/2

n[j] = n(n− 1) · · · (n− j + 1) et n(j) = n(n+ 1) · · · (n+ j − 1).

Loi de TMRCA obtenue par simulation(n = 30)

Histogram of tmrca

tmrca

Den

sity

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

0.5

Quelques propriétés simples de TMRCA

I Espérance

E[TMRCA] =n∑

j=2

2j(j − 1)

= 2

(1− 1

n

)I Variance

Var[TMRCA] =n∑

j=2

4j2(j − 1)2

≈ 43π2 − 12

Quelles conclusions pour les espèces

I Le temps TMRCA est exprimé en unité de la taille e�cace de lapopulation N, aussi notée Ne

I Il faut donc estimer N ou Ne .

I Pour cela, les données génétiques entrent en jeu.

Partie 2

Des mutations dans les gènes

Un modèle à in�nité d'allèles

Mutations

I On suppose que les mutations n'ont pas d'e�et sélectif sur laséquence d'ADN étudiée (ADN neutre).

I On note µ la probabilité de mutation de la séquence étudiéepar génération.

I On mesure le temps en prenant pour unité N générations (Nest la taille de la population)

θ = 2µN

I Les mutations sont aléatoirement réparties dans la généalogiedes n séquences selon un processus de Poisson de paramètreθ/2.

Spectre de fréquences

I On appelle spectre de fréquences le vecteur

c = (c1, . . . , cn)

où ci est le nombres d'allèles présents en i copies dansl'échantillon de n gènes.

I Nous avonsc1 + 2c2 + · · ·+ ncn = n

I Le nombre d'allèles distincts présents dans l'échantillon est

Kn = c1 + c2 + · · ·+ cn.

Petit exemple

I On observe un échantillon de 10 allèles

A1,A1,A2,A1,A3,A2,A3,A4,A4,A4

I Le spectre est

c = (0, 2, 2, 0, 0, 0, 0, 0, 0, 0)

I Le nombre d'allèles distincts présents dans l'échantillon est

k = 4.

La formule d'Ewens (1972)

Théorème. Pour le modèle de mutation à in�nité d'allèles et unéchantillon de taille n

Pr(c) =n!

θ(n)

n∏j=1

(θ

j

)cj 1cj !

où θ(n) = θ(θ + 1) · · · (θ + n − 1).

Le processus du restaurant chinois


I Imaginons un restaurant avec un nombre in�ni de tables.

I Les n clients arrivent un par un, et choisissent leur table de lamanière suivante.

I Le client j choisit une table inoccupée avec la probabilité

θ

j − 1+ θ

I et une table occupée avec la probabilité

njj − 1+ θ

où nj est le nombre de personnes assises à la table en question.


Pr(c) =θ

θ


Pr(c) =θ

θ

θ

1+ θ


Pr(c) =θ

θ

θ

1+ θ

12+ θ


Pr(c) =θ

θ

θ

1+ θ

12+ θ

θ

3+ θ


Pr(c) =θ

θ

θ

1+ θ

12+ θ

θ

3+ θ

14+ θ


Pr(c) =θ

θ

θ

1+ θ

12+ θ

θ

3+ θ

14+ θ

25+ θ

Ewens au restaurant

Théorème. La con�guration c obtenue à l'issue de n étapes duprocessus appelé restaurant chinois obéit à la formule d'Ewens.

Nombre d'allèles distincts

Théorème. Pour le modèle de mutation à in�nité d'allèles et unéchantillon de taille n

Pr(Kn = k) =θk

θ(n)|Sk

n |

où |Skn | est le coe�cient de θk dans le développement de

θ(θ + 1) · · · (θ + n − 1).

|Skn | est appelé nombre de Stirling de première espèce et dénombre

les permutations de n éléments ayant k cycles.

Nombre d'allèles distincts

Preuve. Pour le modèle de mutation à in�nité d'allèles et unéchantillon de taille n

Pr(Kn = k) =θk

θ(n)n!

∑cj :

∑cj=k

n∏j=1

(1j

)cj 1cj !

.Par normalisation, le coe�cient orange est nécessairement lecoe�cient de θk dans le développement de θ(n).

Remarque. |Skn | = (n − 1)|Sk

n−1|+ |Sk−1

n−1|

Nombre de tables occupées au restaurant chinois

Pr(c) =θ

θ

θ

1+ θ

12+ θ

θ

3+ θ

14+ θ

25+ θ

I La probabilité Pr(c) est invariante par permutation des indices(|Sk

n | possibilités)I Elle est proportionnelle à θk

Un autre représentation de la loi de Kn

Fonction génératrice. Pour le modèle de mutation à in�nitéd'allèles et un échantillon de taille n

GKn(z) =

n∑k=1

Pr(Kn = k)zk =(θz)(n)θ(n)

.

En explicitant cette relation, on obtient GKn(z) =

∏nj=1

GXj(z) où

Xj ∈ {0, 1} est une variable de Bernoulli

Pr(Xj = 1) =θ

θ + j − 1

(Initiation d'une table dans le restaurant chinois).

Quelques propriétés simples de Kn (1972)

I Espérance

E[Kn] =n∑

j=1

E[Xj ] =n∑

j=1

θ

θ + j − 1∼ θ log n ,

I Espérance

Var[Kn] =n∑

j=1

Var[Xj ] =n∑

j=1

θj

(θ + j − 1)2∼ θ log n

I Kn/ log n est un estimateur de θ parfois appelé diversitégénétique. Il converge en 1/ log n, avec une vitesseasymtotiquement optimale.

Une application à l'ADN mitochondrial

Une application à l'ADN mitochondrial

I Chez les mammifères, l'ADN mitochondrial est transmis par lamère.

I Pour les études généalogiques, on séquence la boucle decontrôle D (≈500bp). On considère que la probabilité demutation de cette séquence est µ ≈ 10−6 par génération parpaire de base.

I Pour la tribu amérindienne Nuu-Chah-Nulth, on observe 8allèles dans un échantillon de n = 55 séquences d'individus nonapparentés.

Taille e�cace de la population Nuu-Chah-Nulth

I Pour estimer la taille e�cace de la population

Ne ≈θ

2µL

I où θ ≈ 2.7 est solution de

8 =55∑j=2

θ

θ + j − 1

I La taille e�cace est Ne ≈ 2700 individus.

I TMRCA ≈ 100000 ans!

Messages à ramener à la maison

I L'étude de l'hérédité est une discipline ayant une longuetradition mathématique

I Les mathématiciens ont proposé de nouvelles représentationsdes modèles manipulés par la génétique des populations, enparticulier, rétrospectives.

I En retour, ces representations permettent de simulere�cacement le polymorphisme génétique au sein despopulations

Pour aller plus loin

I Tavaré S (2004) Ancestral inference in population genetics,Springer NY.

I Durrett R (2006) Probability models of DNA sequenceevolution, Springer NY.

Du temps pour une discussion

Merci de votre attention!

Documents

Les Mathématiques de l'Hérédité