View
2
Download
0
Category
Preview:
Citation preview
Rapport de stage
Critères de sélection des modèles à classes latentes
en génétique des populations
Stage effectué par Ali Hajj Hassan
Stage proposé et dirigé par Olivier François
Juin 2010 Page 1
Remerciements Tout travail réussi dans la vie nécessite en premier lieu la bénédiction de Dieu, et ensuite l´aide et le
support de plusieurs personnes. Je tiens donc à remercier et à adresser ma reconnaissance à toute
personne qui m´a aidé de loin ou de près afin de réaliser ce travail.
Tout d´abord, je tiens à remercier très vivement mon directeur de thèse, M. Olivier FRANCOIS,
pour ses qualités humaines et scientifiques. Je le remercie de m’avoir bien introduit le problème et
de m’avoir guidé tout au long du stage. Je ne pourrai jamais oublier sa gentillesse, sa générosité,
son esprit de recherche et ses commentaires efficaces.
Je remercie bien chaleureusement Flora JAY pour son aide, ses explications, ses encouragements
et sa sympathie.
Je tiens également à mentionner et à témoigner ma reconnaissance à tous les membres de l’équipe
TIMB du laboratoire TIMC, pour leurs encouragements et leur gentillesse envers moi. Je voudrais
exprimer ma sincère reconnaissance à mes collègues du bureau Laure SAMBOURG et Geremy
ROLAND, pour l´ambiance sympathique et familiale qui y règne, pour l´amour, la confiance et le
respect.
Je remercie les membres du jury pour l´intérêt qu´ils ont porté à ce travail. Tout particulièrement, je
remercie M. Eric BONNETIER, le responsable de mon master, pour son soutien et ses conseils au
cours de ce master.
Un grand merci à mes enseignants en Master à l’université Joseph Fourier qui m’ont assuré une
formation de base solide dans le domaine Probabilités et statistiques.
Mes vifs remerciements vont également à tous mes amis pour l´appui moral qu´ils m´ont témoigné,
et tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-
med KASSEM et Mohamed GHASSANY.
Pour terminer, j´adresse mon grand amour à mes parents. Mon plus grand souhait dans cette vie,
c´est de les voir toujours à côté de moi, en bonne santé, heureux et que la paix soit avec eux.
Juin 2010 Page 2
Sommaire
Résumé ........................................................................................................................................... 3
Avant propos ................................................................................................................................... 4
Introduction .................................................................................................................................... 5
I. Méthodes de classification bayésienne ..................................................................................... 6
II. Modèles du logiciel STRUCTURE .......................................................................................... 7
III. Modèles du logiciel TESS .................................................................................................. 10
IV. Critères de sélection des modèles ..................................................................................... 13
IV-I Deviance information criterion (DIC) ............................................................................... 13
IV-II Choix du nombre de clusters kmax ................................................................................... 14
IV-III Model checking ............................................................................................................ 14
V. Simulations et résultats ....................................................................................................... 16
V-I Modèle sans métissage : modèle en iles ............................................................................. 16
V-II Modèle avec métissage ...................................................................................................... 21
V-II-I cline longitudinal ......................................................................................................... 21
V-II-II Trois populations ........................................................................................................ 25
VI. Discussion et conclusion ................................................................................................... 28
Références .................................................................................................................................... 30
Annexe ......................................................................................................................................... 32
Juin 2010 Page 3
Résumé
En génétique des populations, nous utilisons des données génotypiques multilocus d’une population
pour inférer sa structure génétique. Cette inférence est effectuée en utilisant des méthodes de
classification bayésienne implémentées dans plusieurs logiciels dont STRUCTURE et TESS. Dans
cette mémoire, nous décrivons ces méthodes ainsi que les modèles de ces deux logiciels. Nous
évaluons des critères de sélection des modèles pour comparer des modèles alternatifs et choisir le
modèle qui donne le meilleur ajustement aux données. Cette évaluation s’appuie sur des simulations
effectuées avec des hypothèses classiques en génétique des populations, telles que les équilibre de
migration / dérive.
Pour le choix de modèle, nous utilisons le critère d’information DIC (Deviance information
criterion). Nous proposons ensuite une nouvelle méthode de vérification (model checking) de
modèle basée sur des simulations postérieures prédictives. Nous montrons en simulant plusieurs
scenarios que le DIC peut être utilisé pour choisir le nombre optimal de classes génétiques. La
méthode de model checking permet de comparer le modèle spatial de TESS avec le modèle non
spatial de STRUCTURE, les modèles de métissage avec les modèles sans métissage, et les modèles
avec différentes valeurs de nombre de classes génétiques kmax. Nous montrons que les modèles de
métissage sont robustes même en absence des individus métissés alors que les modèles sans
métissage ne sont pas robustes en présence des individus métissés. Dans le cas où les dépendances
spatiales entre les individus peuvent exister, nous montrons que les modèles spatiaux donnent un
meilleur ajustement aux données que les modèles non spatiaux.
Mots clé : Méthodes de classification bayésienne – Algorithme MCMC – Sélection des modèles –
DIC – Model checking – analyse en composantes principales.
Juin 2010 Page 4
Avant propos
Nous disposons des données contenant la composition allélique des gènes des individus sur
plusieurs locus. Les individus peuvent être haploïdes (un allèle pour chaque gène) ou diploïdes
(deux allèles pour chaque gène). Ensuite une inférence bayesiénne est effectuée dans TESS et
STRUCTURE pour modéliser les données. Les estimations des paramètres sont contenues dans des
fichiers de format différent d’un logiciel à un autre. Ces fichiers contiennent les probabilités
d’appartenance des individus (coefficients ancestraux) à chaque population ancestrale ainsi que les
fréquences alléliques à chaque locus dans chaque population. Pendant ce stage, nous avons fait des
scripts dans le logiciel R pour calculer le DIC des modèles de TESS et de STRUCTURE. Nous
avons également effectué des scripts pour la nouvelle méthode de model checking. Ces scripts
permettent de simuler des données à partir de la distribution postérieure prédictive et ceci en
utilisant les sorties des fichiers de deux logiciels. Les scripts de DIC et du model checking sont
disponibles pour les individus haploïdes et diploïdes, pour les modèles de métissage et sans
métissage des logiciels TESS et STRUCTURE (16 scripts). Cette tache n’a pas été du tout facile vu
la complexité des fichiers de sortie des logiciels (environ 3 semaines de programmation).
Les expressions en italique dans la mémoire sont expliquées dans la section Annexe.
Juin 2010 Page 5
Introduction
En génétique des populations, il est souvent utile de déterminer l’origine ancestrale des gènes
des individus d’un échantillon donné. Nous considérons une méthode de classification utilisant les
données génotypiques multilocus pour inférer la structure génétique de la population. Nous étudions
un modèle dans lequel il y a kmax classes ou clusters (où kmax est inconnu), chacun étant caractérisé
par un ensemble de fréquences alléliques propres à chaque locus. Les méthodes étudiées dans notre
mémoire tentent de classer les gènes (avec une probabilité à déterminer) dans les clusters et
d’estimer les fréquences alléliques de chaque cluster. Si les génotypes proviennent de plusieurs
origines, nous disons que les individus portant ces génotypes sont métissés. Dans ce cas, les gènes
sont classés conjointement dans plusieurs clusters.
Nous supposons que les observations provenant de chaque cluster sont des réalisations
aléatoires d’un certain modèle paramétrique. Nous avons besoin d'incorporer l'incertitude associée
aux paramètres de ce modèle afin de parvenir à une meilleure évaluation globale de l'incertitude.
Pour estimer ces paramètres, nous avons choisi de travailler dans le cadre bayésien. L’approche
bayésienne tient compte des hypothèses biologiques concernant les données. Elle facilite
l’incorporation de différentes sortes d’information a priori qui pourront être disponibles pour
l'inférence. Un type d’information particulier utile est par exemple l’information géographique. Les
paramètres sont estimés par des simulations a posteriori obtenues par l’algorithme Markov chain
Monte Carlo (MCMC). Les algorithmes de classification bayésienne en génétique des populations
sont implémentés dans plusieurs logiciels dont STRUCTURE (Pritchard et al 2000), TESS (Chen et
al 2007). Ces logiciels ont tous le même but : détecter la structure génétique des populations. Ils
reposent sur des modèles qui diffèrent par leurs hypothèses de base.
Un problème essentiel dans l’application des algorithmes ci-dessus est l’estimation du
nombre de clusters kmax. Nous avons besoin de choisir le nombre kmax le plus approprié pour
interpréter nos données. Le but de ce projet est d’évaluer des critères de sélection des modèles pour
faire le choix entre des modèles alternatifs.
Un critère fréquemment proposé est le critère Deviance information criterion (DIC;
Spiegelhalter et al 2002) qui est une généralisation du Akaike information criterion (AIC ; Akaike
1974) et du Bayesian information criterion (BIC ; Schwartz 1978) pour les modèles hiérarchiques.
DIC est une mesure statistique du pouvoir prédictif du modèle. DIC mesure la qualité d’ajustement
d’un modèle pénalisée par sa complexité. La complexité est représentée par un estimateur du
nombre de paramètres effectifs. Le principe est de préférer les modèles ayant des petites valeurs de
DIC à ceux qui ont des valeurs de DIC plus grandes. Ce critère peut être utilisé pour comparer
différents modèles avec métissage (ou modèles sans métissage). En pratique il est calculé par TESS
(Durand et al 2009) mais pas par STRUCTURE.
L’estimation de kmax dans STRUCTURE repose sur le calcul du logarithme de la probabilité
des données sachant kmax : lnP(D/ kmax) (François et Durand 2010,"Spatially Explicit Bayesian
Clustering Models in Population Genetics", Molecular Ecology Resources, in press). En pratique ce
Juin 2010 Page 6
critère est similaire au DIC puisque lnP(D/ kmax), à un facteur ½ près, est proposé comme une
alternative au calcul de DIC (Gelman et al 2004).
Dans la section suivante, nous présentons les méthodes de classification en général et nous
décrivons les méthodes de classification bayésienne et ses avantages. Les modèles et les
algorithmes de STRUCTURE et TESS sont présentés respectivement dans les sections II et III.
Nous décrivons dans la section IV les critères de sélection des modèles et nous les appliquons sur
plusieurs jeux de données dans la section Simulations et résultats. Des notions de statistique et de
biologie sont définies dans Annexe.
I. Méthodes de classification bayésienne
Considérons une situation où nous essayons de regrouper dans des clusters les individus
génétiquement similaires en s’appuyant sur des données génétiques. Il y a deux types de méthodes
de classification que nous pourrions utiliser :
1. Méthodes basées sur la distance (hierarchical clustering tree based). Elle consiste à
calculer la matrice de la distance (convenablement définie) entre chaque paire
d’individus. Cette matrice est représentée graphiquement et permet d’identifier les
clusters.
2. Méthodes basées sur des modèles. Nous supposons que les observations dans chaque
classe proviennent d’un certain modèle paramétrique. Par suite l'inférence des
paramètres des modèles se fait en utilisant des méthodes statistiques, comme le
maximum de vraisemblance ou les méthodes bayésiennes.
Les méthodes basées sur la distance sont faciles à appliquer et elles sont souvent
visuellement attrayantes. Cependant, les classes identifiées par ces méthodes peuvent dépendre
fortement de la distance et la représentation graphique choisies. Il est difficile d'évaluer à quel
niveau les classes obtenues sont significatives. Il est aussi difficile d'incorporer des informations
complémentaires comme les coordonnées géographiques des individus. Ces méthodes sont alors
plus adaptées pour l’analyse exploratoire des données que pour faire l'inférence statistique.
Les méthodes basées sur les modèles nécessitent de spécifier un modèle adapté aux
observations. Dans ce qui suit, nous introduisons le modèle étudié et quelques notations. Supposons
que chaque cluster est modélisé par un ensemble de fréquences alléliques à chaque locus. Dénotons
par X les génotypes observés des individus, Z leurs populations d’origine et P l’ensemble des
fréquences alléliques dans les clusters. Notons que X, Z et P sont des vecteurs multidimensionnels.
Z et P sont dites des variables cachées car elles sont non observées. Les hypothèses de base de notre
modèle sont la loi de Hardy-Weinberg et l'équilibre de liaison entre les loci dans les clusters
(Pritchard et al 2000). Sous ces hypothèses, chaque allèle à chaque locus dans chaque génotype est
une réalisation indépendante de la distribution de fréquence appropriée, et ceci spécifie la
Juin 2010 Page 7
vraisemblance de nos données Pr(X|Z,P) .
Après avoir spécifié notre modèle, nous devons choisir la façon d’effectuer l'inférence sur
les paramètres Z et P. L’approche bayésienne nous parait la plus adaptée. Cette approche offre
plusieurs avantages :
1. Elle permet l’inclusion de connaissances a priori ; elle facilite l’incorporation de
différentes sortes d’informations a priori permettant d’avoir une inférence plus fine comme
les informations géographiques.
2. Elle permet de gérer les données manquantes.
3. Elle associe des probabilités aux prédictions, ce qui est utile dans notre domaine
puisque nos connaissances sont incertaines.
Dans l’approche bayésienne, nous spécifions les distributions a priori Pr(Z) et Pr(P)
respectivement pour Z et P. Ayant observé les génotypes, X, nos connaissances sur Z et P sont
données par la distribution a posteriori
Pr(Z,P|X) α Pr(Z) Pr(P) Pr(X|Z,P). (1)
Les lois a priori Pr(Z) et Pr(P) ainsi que la vraisemblance des données Pr(X|Z,P) seront définies
plus loin. En général, il n’est pas possible de calculer exactement la distribution a posteriori
Pr(Z,P|X) mais il est possible d’obtenir un échantillon approché (Z(1)
, P(1)
), (Z(2)
, P(2)
), . . . , (Z(M)
,
P(M)
) en utilisant l'échantillonnage de Gibbs issu des méthodes de MCMC.
II. Modèles du logiciel STRUCTURE
Le logiciel STRUCTURE implémente des algorithmes de classification bayésienne afin d’inférer
la structure génétique d’une population. Il utilise des données génotypiques constituées par des
marqueurs non liés.
Dans cette section nous fournissons une description détaillée des hypothèses du modèle du
logiciel STRUCTURE et des algorithmes utilisés pour effectuer l'inférence. Nous commençons par
le cas où chaque individu est supposé d'être issu d’un seul cluster (sans métissage).
Modèle sans métissage (without admixture) : Supposons que nous avons recueilli les
génotypes de N individus diploïdes en L loci. Dans le cas sans métissage, notre échantillon est un
mélange de kmax populations divergentes et chaque individu possède une seule population d’origine.
Soient X , Z et P les vecteurs définis ci-dessous,
(x(i,1)
, x(i,2)
) = le génotype du ième
individu au locus , où i = 1, 2,. . . , N et = 1, 2,. . . , L ;
Z(i)
= population d’origine du ième
individu ;
Juin 2010 Page 8
Pjk = fréquence de l'allèle j au locus dans la sous-population k, où k = 1,2,. . . ,kmax et j = 1, 2,. . . ,
J ,
où J est le nombre de différents allèles observés au locus , et ces allèles sont numérotés 1, 2, . . . ,
J.
Sachant que la population d’origine de chaque individu est connue, les génotypes sont
supposés d'être générés en tirant les allèles indépendamment des distributions de fréquence de cette
population,
Pr(xl(i,a)
= j|Z, P) = pz(i)j (2)
indépendamment pour chaque x(i,a)
. Notons que pz(i)j est la fréquence de l'allèle j au locus l dans la
population d’origine de l’individu i.
Supposons qu’avant d’observer les génotypes nous n’avons pas d’information sur la
population d’origine de chaque individu. Nous choisissons un prior uniforme sur les kmax
populations. La probabilité qu’un individu i provient de la population k est la même pour tous les k,
Pr(z(i)
= k) = 1/ kmax (3)
indépendamment pour tous les individus.
D’après BALDING and NICHOLS (1995), la distribution de Dirichlet est utilisée pour
modéliser les fréquences alléliques à chaque locus dans chaque cluster. La distribution de Dirichlet
Ɗ(λ1, λ2 , . . . , λJ ) est une distribution des fréquences alléliques p= ( p1, p2 , . . . , pJ ) telle que la
somme de ces fréquences est égale à 1. Nous utilisons cette distribution pour spécifier la probabilité
d’un ensemble particulier des fréquences alléliques pk de la population k au locus ,
pkl ~ Ɗ(λ1, λ2 , . . . , λJ ), (4)
indépendamment pour chaque k, l. Généralement nous choisissons λ1 = λ2 = . . . = λJ = 1, ceci
donne une distribution uniforme aux fréquences alléliques.
Algorithme MCMC (sans métissage): Les équations 2, 3 et 4 définissent respectivement
les quantités Pr(X|Z,P), Pr(Z) et Pr(P). L'échantillonnage de Gibbs nous permet de construire une
chaine de Markov ayant pour distribution stationnaire, la loi a posteriori de nos paramètres à
estimer Pr(Z,P|X).
Algorithme 1 : Nous donnons à Z et P des valeurs initiales Z(0)
et P(0)
(en utilisant (3) et (4)
par exemple), et nous répétons les étapes suivantes pour m = 1, 2, . . .
Etape 1 : Simuler P(m)
à partir de Pr(P|X, Z(m-1)
).
Etape 2 : Simuler Z(m)
à partir de Pr(Z|X, P(m)
).
Juin 2010 Page 9
L'étape 1 correspond à l’estimation des fréquences alléliques de chaque cluster sachant que
la population d’origine de chaque individu est connue ; l'étape 2 correspond à l'estimation de la
population d’origine de chaque individu sachant que les fréquences alléliques des populations sont
connues. Pour des valeurs suffisamment larges de m (burn-in period) et c (nombre d'itérations après
burn-in period), (Z(m)
, P(m)
), (Z(m+1)
, P(m+1)
), . . . , (Z(m+c)
, P(m+c)
) sont des échantillons de la
distribution a posteriori Pr(Z,P|X) .
Modèle avec métissage (with admixture): Le modèle présenté ci-dessus est développé
pour étudier le cas où nous pouvons avoir des individus qui ont plusieurs populations d’origine. Nos
paramètres d'intérêt dans ces modèles sont les proportions de mélange, calculées pour chaque
individu dans l'échantillon. Ainsi, nous introduisons le vecteur Q dénotant les proportions de
mélange pour chaque individu. Les éléments de Q sont
qk(i)
= proportion du génome de l’individu i provenant de la population k.
Il est aussi nécessaire de modifier le vecteur Z pour remplacer l'hypothèse que chaque individu
provient d’une population d’origine inconnue z(i)
par l'hypothèse que chaque copie d'allèle observée
x(i,a)
est issue d’une population d’origine inconnue z(i,a)
:
z(i,a)
= population d’origine de la copie d’allèle x(i,a)
.
Le terme “copie d’allèle” réfère à un allèle porte par un individu particulier à un locus particulier.
Notre but maintenant est d’estimer Q. Nous procédons de la même manière que dans le cas
sans métissage, en commençant par spécifier des modèles pour le vecteur (X, Z, P, Q). D’une façon
analogue à (2) et (3) nous avons
Pr(x(i,a)
= j|Z, P, Q)= Pz(i,a)
j (5)
Et
Pr(z(i,a)
= k|P, Q) = qk(i)
. (6)
L’équation (4) est utilisée pour modéliser P comme dans le premier cas. Pour compléter notre
modèle, nous avons besoin de spécifier une distribution pour Q qui dépend généralement de notre
information a priori et notre prévision concernant le type et la proportion de métissage. Nous
modélisons les proportions de mélange q(i)
= (q1(i)
, . . . ,
(i)) de l’individu i en utilisant la
distribution de Dirichlet
q(i)
~ Ɗ(α, α, . . . , α) (7)
indépendamment pour chaque individu. Notons que pour des valeurs très petites de α (<<1) notre
modèle devient comme le modèle sans métissage.
Juin 2010 Page 10
Algorithme MCMC (avec métissage) : L’algorithme suivant simule des échantillons de la
distribution a posteriori Pr (Z, P, Q|X).
Algorithme 2: Nous donnons à Z, P et Q des valeurs initiales Z(0)
, P(0)
et Q(0)
(en utilisant (3),
(4) et (7) par exemple), et nous répétons les étapes suivantes pour m = 1,2, . . .
Etape 1 : Simuler P(m)
, Q(m)
à partir de Pr(P, Q|X, Z(m-1)
).
Etape 2 : Simuler Z(m)
à partir de Pr(Z|X, P(m)
, Q(m
).
Etape 3 : Mettre à jour α en utilisant l'étape de Metropolis-Hasting.
L'étape 1 correspond à estimer les fréquences alléliques de chaque population et les proportions
de mélange pour chaque individu sachant que la population d’origine de chaque copie d'allèle pour
chaque individu est connue ; l'étape 2 correspond à estimer la population d’origine de chaque copie
d'allèle sachant que les fréquences alléliques des populations et les proportions de mélange sont
connues. Comme ce qui précède, pour des valeurs suffisamment larges de m et c, (Z(m)
, P(m)
, Q(m)
),
(Z(m+1)
, P(m+1)
, Q(m+1)
), . . . , (Z(m+c)
, P(m+c)
, Q(m+c)
) sont des échantillons de la distribution a posteriori
Pr(Z,P, Q|X).
Inférence : Inférence pour Z, P et Q : Nous expliquons dans ce paragraphe comment
effectuer l’inférence sur Q en utilisant les sorties de l’algorithme MCMC. Les inférences de Z et P
sont similaires à celle de Q. Pour des valeurs suffisamment larges de m et c, nous obtenons un
échantillon Q(1)
, . . . , Q(c)
de la distribution a posteriori de Q = (q1, . . . , qN). Nous résumons
l’information contenue dans cet échantillon par un estimateur de Q. L’estimateur utilise est la
moyenne a posteriori
E(qi| X)
(m+j)
.
III. Modèles du logiciel TESS
TESS est un logiciel qui implémente un algorithme de classification bayésienne pour étudier la
génétique des populations spatiales (Chen et al 2007 pour TESS 1.1, François et al 2006). TESS
cherche à détecter la structure génétique des populations. Il s’appuie sur des données génotypiques
des individus échantillonnés à différents emplacements géographiques sans supposer des
populations prédéfinies. Il traite les fichiers des données ayant un format compatible avec les
algorithmes de classification non-spatiaux existants comme STRUCTURE (Pritchard et al 2000).
Description de la méthode
Dans cette section, nous donnons une courte description des méthodes utilisées dans le
logiciel. Dénotons par (si), i= 1, . . . , N, l'ensemble des sites observés. Chaque si est entouré par des
Juin 2010 Page 11
points qui sont plus proches de lui que de tout autre site. Cet ensemble des points est appelé cellule
de Dirichlet. Nous disons que deux sites sont voisins si leurs cellules correspondantes ont un bord
commun. TESS est basé sur un modèle hiérarchique dont le système de voisinage est obtenu à partir
du diagramme de Voronoi (François et al 2006 ; Chen et al 2007). Le programme offre la possibilité
de modifier le système de voisinage en reliant des sites supplémentaires ou par la rupture des liens
entre les sites. Cette option peut être utile pour faire inclure des barrières géographiques connues.
Elle permet en général aux utilisateurs de spécifier leur réseau particulier des individus. Les poids
par défaut sur le réseau sont fixés à 1. Pour des échantillonnages irréguliers, il est possible et utile
d'incorporer des poids qui dépendent de la distance géographique entre les sites. Dans le cas où les
distances géographiques sont disponibles, l'influence relative du site j sur le site i est représenté par
le poids wij = exp(-dij/Θ) où dij est la distance du grand cercle (distance orthodromique) entre les
sites i et j et Θ est un paramètre lié à l'intensité de la variété génétique (une valeur par défaut est la
distance moyenne entre les individus).
Le jeu de données, dénoté par le vecteur X, consiste en N génotypes multilocus
correspondant à des individus situés sur les sites échantillonnés. Nous supposons que les
coordonnées géographiques de tous les individus sont disponibles. Un génotype d'un individu
diploïde enregistre les paires d'allèles en L loci, où le nombre possible des allèles au locus l est égal
à Jl.
Modèle sans métissage : Nous dénotons par zi la population d'origine de l'individu i, et
nous supposons l'existence d'au plus kmax populations (zi є {1, . . . , kmax }). Comme dans
STRUCTURE, TESS effectue une inférence statistique du vecteur multidimensionnel des
paramètres (Z, P) avec Z = {zi} i=1, . . . , N ; P = (pjk) la fréquence allélique de l’allèle j au locus
dans le cluster k où j = 1, . . .,J, k = 1, . . . , kmax et = 1, . . . ,L. La distribution de Dirichlet Ɗ (λ, .
. . , λ) est utilisée comme prior pour les fréquences alléliques. La distribution a priori des classes des
populations est définie comme une distribution de Gibbs
π(z)=exp[ψ U(z)]/Z, z є {1, . . ., kmax }N,
où ψ est un paramètre non négatif appelé paramètre d'interaction, U(z) est le nombre des paires
voisines qui partagent le même cluster z, et Z est une constante de normalisation appelée la fonction
de partition. Avec Ψ égal à 0, ce modèle suppose un prior spatial non informatif. Il correspond au
modèle de classification de Pritchard et al. (2000) (sans métissage, fréquences alléliques
décorrélées) qui peut être considéré un cas particulier de ce modèle. Des valeurs typiques du
paramètre d'interaction pourraient être prises dans la gamme Ψ є (0.5,1) pour kmax = 2-10. Les
inférences sur (Z, P) sont effectuées en simulant la distribution a posteriori P(Z,P\X) par
l'algorithme MCMC .
Modèle avec métissage (TESS > 2.0) : Dans le modèle avec métissage (Durand et al 2009),
nous supposons, comme dans l'algorithme implémenté dans STRUCTURE (Pritchard et al 2000),
que les génomes d'un individu proviennent d'un mélange d'au plus kmax populations ancestrales.
Nous estimons la fraction du génome de l'individu i, qik, provenant du cluster k. Le modèle avec
Juin 2010 Page 12
métissage suppose que les qik sont spatialement autocorrélées. Par suite les individus voisins sont
plus similaires que les individus éloignés. Nous effectuons une inférence de la structure de
population dans un cadre bayésien. Nous incorporons les covariables géographiques des individus
dans les distributions a priori des coefficients de mélange qik. Le but étant d'améliorer l'inférence de
ces coefficients lorsque les proportions de mélange sont variables à travers l'espace. Plus
précisément nous supposons une distribution de Dirichlet des qik pour chaque individu i,
qi. ~ Ɗ (αi1, . . . , ), (1)
et nous considérons un modèle de régression log-normal pour les αik, considérées comme des
variables de réponse inobservées
log(αi.)=f(xi)T β. + yi., (2)
où xi représente un vecteur bidimensionnel des covariables spatiales (latitude et longitude) de
l'individu i, et β. est un vecteur de coefficients de la régression estimés par l'algorithme. Des
régressions log-linéaires des αi en fonction des covariables spatiales sont effectuées dans chacun des
kmax clusters. Le modèle de régression décrit dans l'équation (2) est similaire au krigeage universel
dans lequel une variable réponse - ici les proportions de mélange – peut être modélisée comme la
somme de deux composantes. La première composante, μ.k = f(x)T β.k, représente la réponse
moyenne et elle est modélisée par une surface linéaire, quadratique ou cubique. La seconde
composante, yi, représente une variable aléatoire centrée autocorrélée spatialement. Ce terme est
gaussien conditionnel autorégressif (CAR, Besag 1975). Le modèle CAR est un processus gaussien
aléatoire. Nous définissons les voisinages à partir du diagramme de Dirichlet (François et al 2006).
Nous avons
log(α.k) ~ N (μ.k , σ2(Id- ψW)
-1) , (3)
où μ.k est l'effet moyen de la tendance, W est une matrice N*N des poids définie sur le diagramme
de Voronoi avec des zéro sur la diagonale et des poids d'interaction (wij) pour les éléments non
diagonaux, Id est la matrice identité, ψ est un paramètre d'interaction spatial et σ2 est la variance du
modèle CAR. Pour tout individu i є {1, . . . , N}, et tout cluster k є {1, . . . , kmax}, nous dénotons
yik = log(αik) et nous avons
yik|yjk, j≠i ~ N (μik + ψ wij (yjk – μjk) , σ
2 ) , (4)
où μik est la ième coordonnée de la moyenne μ.k telle que μik = f(xi) βk . Dans ce nouveau modèle, le
paramètre d'interaction spatial représente l’intensité de l'autocorrélation spatiale et ce paramètre est
aussi estimé par l'algorithme MCMC. Nous référons au modèle défini dans l'équation (2) comme un
modèle de régression complet. Un modèle sans la composante CAR est appelé modèle de tendance.
Détails de l'implémentation. Le modèle bayésien est implémenté comme un algorithme de
MCMC, suivant Gelman et al (2004) pour les priors sur les modèles de régression et les régles de
Juin 2010 Page 13
Metropolis-Hasting pour le modèle CAR. Un prior non informatif sur l'intervalle (0,1/λmax) est
utilisé pour le paramètre ψ, où λmax est la plus grande valeur propre de W. Utiliser cette régression
cachée nous offre la possibilité de visualiser une carte posteriore prédictive des coefficients de
mélange. Cette carte montre les prédictions des proportions de mélange pour un individu situé à une
position géographique arbitraire. Le modèle spécifié dans l'équation (2) n'est pas la façon unique de
définir un prior explicite spatial pour le métissage. Pour cela nous trouvons plusieurs variantes de
l'approche bayésienne décrite au-dessus implémentées dans TESS. Une alternative est d'utiliser un
prior gaussien de convolution avec les deux paramètres de variance, τ2 et σ
2, comme défini par
Besag et al (1991) (modèle BYM ). Les modèles CAR et BYM sont très proches l'un de l'autre. Ils
sont implémentés dans TESS, et ils conduisent généralement à des résultats similaires (Durand et al
2009). Pour le modèle BYM, des priors non informatifs des paramètres de variance sont utilisés, et
la mise à jour de ces paramètres est effectuée selon l'algorithme d'échantillonnage de Gibbs.
En bref, nous avons présenté un algorithme bayésien pour estimer les proportions de
métissage des individus en incorporant des tendances spatiales et des processus spatiaux
autorégressifs dans la distribution a priori de ces coefficients. Les priors sont définis comme des
modèles de régression cachée avec des résidus autocorrélés incluant les effets spatiaux.
IV. Critères de sélection des modèles
IV-I Deviance information criterion (DIC)
Nous considérons un problème de comparaison de modèles hiérarchiques dans lesquels le
nombre de paramètres libres n’est pas défini clairement, et où les distributions a posteriori sont
simulées par MCMC. Nous introduisons le critère DIC adapté pour ce genre de problème. Il s’agit
d’une mesure de la qualité d’ajustement d’un modèle pénalisée par un estimateur de la complexité
de ce modèle.
Notons θ le vecteur contenant tous les paramètres du modèle, D(θ) la déviance de ce modèle
pour ces paramètres calculée comme -2 fois la log-vraissemblance ( lnP(X/ θ) ) et pD le nombre des
paramètres effectifs dans ce modèle. Nous avons
DIC= +pD ,
où est la moyenne a posteriori de la déviance, cette statistique mesure la qualité de l’ajustement
des données par un modèle. Plus elle est petite meilleur est l’ajustement. Il y a plusieurs méthodes
pour calculer pD, nous utilisons celle de (Spiegelhalter et al 2002) en posant
pD= – D( ) ,
i.e., la différence entre la moyenne a posteriori de la déviance et la déviance calculée pour une
moyenne a posteriori (espérance) des paramètres, . Cette statistique mesure la complexité du
Juin 2010 Page 14
modèle.
L'idée est que les modèles ayant des petits DIC doivent être préférés aux modèles ayant des
DIC plus grands. Les modèles sont évalués par et pD. Comme va diminuer lorsque le nombre
de paramètres dans le modèle augmente, le terme pD compense cet effet en favorisant les modèles
ayant un petit nombre de paramètres.
DIC peut être utilisé pour choisir le nombre optimal de clusters kmax et plus généralement
décider quels sont les meilleurs modèles appropriés à nos données. Dans notre contexte Il permet de
comparer différents modèles avec métissage (ou modèles sans métissage).
IV-II Choix du nombre de clusters kmax
Le choix du nombre kmax est important et fait partie du problème de sélection de
modèles. Dans cette section, nous expliquons le choix de kmax dans STRUCTURE et TESS.
STRUCTURE estime kmax en calculant lnP(X/kmax), une statistique considérée comme une
mesure pénalisée de la qualité d’ajustement du modèle basée sur une approximation gaussienne de
la déviance du modèle. STRUCTURE est exécuté pour différentes valeurs de kmax, lnP(X/kmax) est
évaluée pour chaque valeur et est tracée en fonction de kmax. La valeur de kmax choisie correspond
au point pour lequel la courbe s’aplatit (Evanno et al 2005).
TESS calcule le DIC alors que STRUCTURE ne le calcule pas. Nous avons programmé des
scripts dans le logiciel R pour calculer le DIC des modèles de STRUCTURE. Pour choisir kmax nous
faisons plusieurs exécutions avec différentes valeurs de kmax et nous traçons le DIC en fonction de
kmax. Nous choisissons la valeur de kmax correspondant à l’aplatissement de la courbe (Durand et al
2009).
IV-III Model checking
En raison de la variété des modèles que nous pouvons utiliser pour modéliser notre
échantillon, la question est de choisir le modèle qui décrit le mieux nos données. Dans cette section,
nous présentons quelques techniques pour le Model checking et la sélection des modèles.
Une fois nous avons accompli les deux premières étapes d'une analyse bayésienne –
construire un modèle et simuler la distribution a posteriori de tous les estimateurs – nous ne devons
pas ignorer l'étape consistant à évaluer la qualité d'ajustement du modèle aux données et à notre
connaissance. Il est difficile de faire inclure dans le modèle toutes nos connaissances à propos du
problème que nous étudions. Mais il est important de préciser les aspects non détectés par notre
modèle.
Juin 2010 Page 15
Une façon de contrôler une inférence effectuée est l’application d’une méthode d’inférence
indépendante, comme l’analyse en composantes principales (ACP). L’ACP est une méthode
d'inférence facile et performante en analyse des larges tableaux de données génomiques. Elle peut
être utilisée pour vérifier que notre modèle ne produit pas des estimations aberrantes. Cette méthode
peut être modifiée pour tenir compte de l’autocorrélation spatiale (Jombart et al 2008). Les résultats
de l’ACP valident celles obtenues par la classification bayésienne, en particulier si les modèles avec
métissage ont été utilisés (Patterson et al 2006 ; Mc Vean 2009). Le Model checking peut être aussi
effectué en simulant des nouvelles données génotypiques pour les mêmes individus à partir de la
distribution postérieure prédictive (Gelman et al 2004). Nous testons si le modèle ajusté peut
reproduire les données observées ou non. Plus précisément, des simulations a posteriori des
génotypes multilocus peuvent être facilement générées en utilisant les probabilités d’appartenance
des individus et les fréquences alléliques dans chaque cluster. Hoggart et al (2004) proposent
d’effectuer le modèle checking en calculant le pourcentage de variance expliquée par les premières
composantes principales des données simulées et de comparer leurs distributions à celles des
données observées. Le nombre de composantes principales dépend du nombre de clusters choisi. Si
nous retenons k clusters, nous devons comparer les distributions du pourcentage de variance
expliquée par les K-1 premières composantes principales pour les données observées et simulées.
Notons λobs la variance expliquée par la ième
composante principale des données observées,
λsim celle des données simulées. Nous définissons notre statistique S de model checking comme le
pourcentage de la variation relative de la variance expliquée par la première composante principale
des données observées et celle des données simulées. Nous avons
S= ( λobs – λsim ) / λobs
Nous générons des données répliquées a partir des simulations a posteriori. Nous calculons
la statistique S pour chaque simulation, puis nous traçons l’histogramme de cette statistique. Plus
l’histogramme est proche de zéro, meilleur est notre modèle.
Juin 2010 Page 16
V. Simulations et résultats
Dans cette section, nous appliquons le critère d’information DIC et la méthode de model
checking sur trois scénarios simulés pour choisir le modèle qui donne le meilleur ajustement des
données. Ensuite nous avons rapporté les résultats typiques.
Tout d’abord, nous introduisons la notion du modèle en iles (Island model). Dans ce modèle,
une large population est divisée en plusieurs sous populations dispersées géographiquement comme
les iles d’un archipel (Principles of Population genetics, Third Edition). Les sous-populations
échangent des migrants avec le même taux de migration m. m est égal à la probabilité qu’un allèle
choisi aléatoirement dans n’importe quelle sous-population provient d’un migrant. La mutation est
une modification de l’information génétique contenue dans un génome. Par suite le taux de
mutation μ mesure la variabilité entre les gènes.
Nous simulons les échantillons selon le modèle en iles en utilisant ms. ms est un logiciel qui
peut produire des échantillons selon le modèle en iles avec des taux de migration et de mutation
arbitraires et différentes tailles des sous-populations.
Le premier échantillon est simulé selon le modèle en iles, il correspond à un modèle sans
métissage. Les deux autres sont simulés selon un cline longitudinal que nous le définissons plus
loin, et ils correspondent à un modèle de métissage. Pour chaque run de différents modèles nous
effectuons 2000 itérations de MCMC, dont 1000 itérations correspondant au burn-in period. Ce
nombre d’itérations est suffisant pour la convergence de l’algorithme.
V-I Modèle sans métissage : modèle en iles
Nous avons simulé un échantillon selon le modèle avec 2 iles. Chaque ile contient N
individus (N grand), et nous disposons des données génotypiques pour 100 locus pour n=100
individus. Le paramètre de migration M = 4Nm entre les 2 iles est égal à 30. Le paramètre de
mutation Θ = 4Nμ est égal à 1. Des coordonnées spatiales sont associées aux individus de chaque
population suivant des lois gaussiennes pour la longitude et une loi uniforme pour la latitude.
Nous avons lancé dans TESS 10 runs indépendants en utilisant le modèle sans métissage
pour chacune des valeurs de kmax allant de 2 jusqu'à 6. Notons kinf le nombre de clusters visibles
dans les résultats de TESS. Nous remarquons que pour chacune des valeurs de kmax comprises entre
2 et 6, TESS détecte un seul (kinf = 1) ou deux clusters (kinf = 2) (tableau 1). Pour kmax = 2, 30% des
runs trouvent un seul cluster et 70% des runs en trouvent deux. Pour kmax 3, le nombre de runs
qui ne converge pas vers la structure correcte augmente. Les valeurs minimales de DIC de chaque
valeur de kinf varient de quatre unités seulement (tableau 2). Nous avons alors la même qualité
d’ajustement de notre échantillon par les différents modèles utilisés pour chacune des valeurs de
kinf.
Juin 2010 Page 17
Les figures 1 et 2 montrent que la probabilité d’appartenance des individus aux clusters pour kmax =
2 et kmax = 3 sont les mêmes. Le problème sera donc de décider lequel des deux modèles qui
correspondent à kinf = 1 ou kinf = 2 décrit mieux notre échantillon.
Nous avons effectué 100 simulations du modèle génératif de TESS (Sampling distribution) à
partir de la distribution postérieure prédictive de chacun de deux modèles. Et nous avons tracé les
histogrammes de la statistique S pour ces deux modèles (Figures 3). Pour le premier modèle (kinf =
1) l’histogramme est centré autour de 5 avec une médiane de S égale à 5.1. Par contre pour le
deuxième modèle (kinf = 2) l’histogramme est plus proche de zéro avec une médiane de S égale à
-1.3. En plus, le plus petit DIC du premier modèle vaut 58642, celui du deuxième modèle vaut
57993. Ces résultats suggèrent qu’un modèle avec deux clusters est meilleur qu’un modèle avec un
unique cluster.
Nous utilisons maintenant le modèle de métissage de TESS (BYM). Rappelons que les
modèles de métissage BYM et CAR conduisent à des résultats similaires (Durand et al 2009). Nous
avons lancé 10 runs indépendants de ce modèle pour chacune des valeurs de kmax allant de 2 jusqu’
à 6. La figure 4 représente la variation du DIC en fonction des valeurs de kmax. Les barres d’erreur
représentent la variation du DIC dans les 10 runs de chacune des valeurs de kmax. La courbe en ligne
pleine représente la variation du DIC moyen de 10 runs en fonction des valeurs de kmax. La valeur
minimale de kmax dans les modèles de TESS vaut 2. Le DIC correspondant à kmax = 1 est calculé
alors en utilisant le modèle de STRUCTURE. Cette courbe montre que le DIC decroit brusquement
entre kmax = 1 et kmax = 2 puis il varie faiblement pour kmax entre 2 et 6. Nous pouvons dire que
l’aplatissement de la courbe de DIC correspond à kmax = 2. En plus, pour kmax = 5 TESS détecte
effectivement 2 clusters comme nous le montre la figure 5. Le nombre de clusters choisi est donc
égal à 2.
Ensuite, nous testons la qualité d’ajustement du modèle avec métissage de TESS
correspondant à kmax = 2 en utilisant des simulations postérieures prédictives. Nous observons dans
la figure 6 un histogramme proche de zéro avec une médiane de la statistique S égale à 1.75.
Avec le modèle sans métissage de STRUCTURE, nous avons effectué 10 runs indépendants
pour chacune des valeurs de kmax allant de 1 jusqu’à 5. Nous remarquons dans la figure 7 que le
DIC moyen décroît rapidement de 58676 pour kmax = 1 jusqu’à 57714 pour kmax = 2, puis il varie
régulièrement entre kmax = 2 et kmax = 5. L’aplatissement de la courbe de DIC correspond à kmax =
2. Nous comparons les deux modèles M1et M2 correspondant respectivement à kmax = 2 et kmax = 4
avec la méthode de model checking (figure 9). La médiane de la statistique S du modèle M1 vaut
4.15 alors que celle du modèle M2 vaut 5.7. Au vu de ces résultats, nous choisissons le modèle M1.
La valeur minimale de DIC du modèle sans métissage de STRUCTURE pour kmax = 2 est
égal à 57700 alors que celle de TESS vaut 57993. Pourtant, les médianes de leur statistique S valent
respectivement 4.15 et -1.3. Par suite les critères d’information utilisés ne sont pas suffisants pour
décider du choix de l’un des deux modèles.
Juin 2010 Page 18
Le modèle avec métissage de STRUCTURE donne des résultats similaires pour kmax = 2 que ceux
du modèle sans métissage (figure 10).
Kinf
Kmax 1 2
Kinf
Kmax 1 2
2 30 70 2 58646 57993
3 70 30 3 58642 57997
4 60 40 4 58645 57996
5 60 40 5 58644 57994
6 60 40 6 58644 57997
Tableau 1 : Pourcentage des runs qui donnent chacune des valeurs de kinf pour kmax allant de 2 jusqu'à 6 en utilisant le modèle sans
métissage de TESS pour l’échantillon simulé selon le modèle en iles.
Tableau 2 : Valeur de DIC minimale correspondant aux deux valeurs de kinf pour les différentes valeurs de kmax en utilisant le modèle
sans métissage de TESS pour l’échantillon simulé selon le modèle en iles.
Juin 2010 Page 19
Juin 2010 Page 20
Juin 2010 Page 21
V-II Modèle avec métissage
V-II-I cline longitudinal
Dans cette partie, nous simulons un échantillon où le génome des individus provient de deux
populations. Nous avons simulé un échantillon selon le modèle avec 2 iles. Chaque ile contient N
individus (N grand), et nous disposons des données génotypiques pour 100 locus pour n=100
individus. Le paramètre de migration M entre les 2 iles est égal à 2. Le paramètre de mutation Θ est
égal à 1. Pour travailler dans un cadre spatial, nous associons à chaque individu de chaque ile des
coordonnées spatiales le long d’un axe longitudinal. Nous utilisons la fonction sigmoïde pour
simuler le métissage. Plus précisément, la fraction du génome d’un individu provenant d’une
population est proportionnelle à la distance de cet individu à cette population (Durand et al 2009).
Par conséquent, les coefficients ancestraux des individus varient continûment le long d’un gradient
longitudinal (figure 11). De cette façon, nous simulons c’est ce qu’on appelle un "cline
longitudinal". Notons que pour une valeur de M un peu élevée (M = 7 par exemple) aucun des
modèles de TESS et de STRUCTURE ne détecte le cline. Pour cela nous avons choisi M = 2.
Juin 2010 Page 22
En utilisant le modèle BYM, nous avons lancé 10 runs indépendants pour chacune des
valeurs de kmax allant de 2 jusqu'à 6. Nous retenons dans le tableau 3 la plus petite valeur de DIC
pour kmax entre 1 et 6. Nous remarquons que le DIC décroit brusquement de 60557 pour kmax = 1 à
57927 pour kmax = 2, puis il diminue faiblement pour kmax entre 2 et 5 puis il décroit rapidement de
57702 pour kmax = 5 jusqu'à 57477 pour kmax = 6. Pourtant la figure 12-B montre que pour kmax = 6,
TESS a trouvé effectivement 2 populations ancestrales. Le nombre de clusters choisi est 2. D’autre
part le modèle spatial de TESS a détecté le cline comme nous le montre la figure 12-A.
Avec le logiciel STRUCTURE, nous avons lancé 10 runs indépendants du modèle avec
métissage pour des valeurs de kmax comprises entre 1 et 6. Le DIC décroit brusquement de 60557
pour kmax = 1 jusqu'à 59136 pour kmax = 2, il vaut 58857 pour kmax = 3 puis il décroit jusqu'à 58370
pour kmax = 4 et diminue faiblement pour kmax entre 4 et 6. La variation de DIC suggère 2 ou 4
populations ancestrales. Pour kmax = 2 le modèle de STRUCTURE a détecté le cline (figure 13-A).
Pour kmax = 4 le modèle de STRUCTURE trouve le cline mais il partage une de deux populations en
trois sous-populations (figure 13-B).
Nous procédons à un model checking pour comparer les modèles de métissage de
STRUCTURE qui correspondent à kmax = 2 et kmax = 4 et le modèle de métissage de TESS
correspondant à kmax = 2. Nous effectuons 100 simulations postérieures prédictives à partir de
chacun de ces trois modèles. Nous traçons les histogrammes de la statistique S correspondant à
chacun de trois modèles (figure 14). Il est clair que le modèle avec métissage de STRUCTURE
correspondant à kmax = 2 est meilleur que celui qui correspond à kmax = 4. La médiane de la
statistique S du premier modèle vaut 23.95 alors que celle du deuxième modèle vaut 28.82. Par
conséquent le nombre de clusters inféré par STRUCTURE est 2. Par contre la médiane de la
statistique S du modèle de TESS avec kmax = 2 vaut 14.24. Le DIC de ce modèle vaut 57927, alors
que celui de STRUCTURE vaut 59136. Le modèle de TESS est meilleur que celui de
STRUCTURE. Le modèle spatial de TESS fournit un meilleur ajustement de nos données.
Pour tester la robustesse des modèles sans métissage à détecter la structure génétique de la
population dans le cas où les individus métissés sont présents, nous avons lancé 10 runs dans
chacun des logiciels TESS et STRUCTURE avec kmax = 2. Ces modèles infèrent toujours deux
clusters où le génome de la plupart des individus provient d’une seule population (figures 15 et 16).
Juin 2010 Page 23
Juin 2010 Page 24
Juin 2010 Page 25
V-II-II Trois populations
Nous avons simulé un échantillon de trois populations selon le modèle avec 3 iles. Chacune
de trois iles contient N individus (N grand), et nous disposons des données génotypiques pour 100
locus pour n=100 individus. Le paramètre de migration M entre les 3 iles est égal à 2. Le paramètre
de mutation est égal à 1. Des coordonnées spatiales sont associées aux individus de chaque
population (figure 17). Nous simulons le métissage entre les populations 1 et 3 selon un cline
longitudinal. Notons par "3pop" le nouveau échantillon obtenu après ce métissage.
Nous avons lancé 10 runs indépendants du modèle de métissage de TESS et de
STRUCTURE pour des valeurs de kmax comprises entre 2 et 6. La figure 18 représente la variation
du DIC de chacun des modèles de TESS et de STRUCTURE en fonction de kmax. Nous remarquons
que l’aplatissement de deux courbes correspond à kmax = 3. Le nombre de clusters choisi est 3.
Les modèles de métissage de TESS et de STRUCTURE correspondant à kmax = 3 ont réussi
à détecter la structure génétique de la population qui constitue notre échantillon simulé. Chacun de
deux modèles infère deux populations dans lesquelles les coefficients ancestraux des individus
varient selon un gradient longitudinal, et une troisième population dans laquelle le génome des
individus provient d’une seule origine (figure 19).
Nous procédons à un model checking pour comparer et décider lequel de deux modèles
fournit une meilleur description de nos données. Nous comparons les distributions de la statistique
S de deux modèles suivant les deux premières composantes principales PC1 et PC2 (figures 20 et
21). Nous remarquons qu’aucun de deux modèles n’a réussi à reproduire les données. Les médianes
de la statistique S du modèle de STRUCTURE suivant PC1 et PC2 sont respectivement égales à
6.22 et 7.1, celles du modèle de TESS valent respectivement 20.4 et 10.77. Ces résultats suggèrent
que le meilleur ajustement de notre échantillon est donné par le modèle de STRUCTURE qui
correspond à kmax = 3.
Juin 2010 Page 26
Juin 2010 Page 27
Juin 2010 Page 28
VI. Discussion et conclusion
Au cours de ce stage, nous avons étudié les méthodes de classification bayésienne utilisées
pour détecter la structure génétique des populations. Nous avons utilisé des critères d’information
pour comparer les différents modèles. En particulier le DIC peut être utilisé pour choisir le nombre
optimal de clusters génétiques. La nouvelle méthode de model checking permet de tester si un
modèle peut reproduire les données. Par conséquent elle permet de faire le choix entre plusieurs
modèles alternatifs et de garder le modèle qui décrit le mieux les données.
Toutefois, l’utilisateur (biologiste) de ces logiciels doit être averti que le nombre de clusters
trouvé par les algorithmes de classification bayésienne ne correspond pas nécessairement au vrai
nombre de populations au sens biologique dans notre échantillon (Walpes and Gaggiotti 2006). Par
exemple l'inférence sur la structure de population peut être biasée par le choix d’une stratégie
particulière d'échantillonnage (Schwartz and McKelvey 2009). Détecter la structure de population
dans STRUCTURE dépend de la taille de l'échantillon et du nombre des marqueurs (Patterson et al
2006 ). En particulier, une structure plus fine peut être détectée avec une taille d'échantillon plus
grande.
Nous avons évalué les critères d’information étudiés dans cette mémoire sur trois scénarios
simulés. Dans le modèle en iles, les modèles de métissage et sans métissage de TESS et de
STRUCTURE ont détecté la structure génétique de la population qui constitue l’échantillon. Les
critères d’information n’étaient pas suffisants pour décider du choix de TESS ou de STRUCTURE.
Nous proposons dans ce cas de faire un compromis entre les deux modèles. Nous retenons des
estimations basées sur la moyenne des résultats de ces deux modèles. Dans le scénario cline
longitudinal, nous avons simulé le métissage dans les deux sous-populations avec la fonction
sigmoïde en utilisant les coordonnées spatiales des individus. Il y avait alors une dépendance
spatiale du coefficient de métissage. Pour cette raison, le modèle spatial de TESS a donné un
meilleur ajustement de l’échantillon simulé. Les modèles sans métissage de deux logiciels n’ont pas
détecté le cline. Dans le scénario 3pop, nous avons créé un cline longitudinal entre deux sous-
populations, mais interrompu spatialement par une troisième sous-population. Les coordonnées
géographiques n’ont pas apporté d’information supplémentaire au modèle de TESS. Par contre ils
ont augmenté sa complexité. Ceci explique le fait que le modèle de STRUCTURE a donné une
meilleure description de l’échantillon.
En conclusion de l’étude de simulations, nous avons trouvé que les modèles sans métissage
ne sont pas robustes en présence des individus métissés et aboutissent à des évaluations incorrectes
de la structure génétique de la population étudiée (V-II- I cline longitudinal). En revanche les
modèles de métissage sont robustes même en absence des individus métissés (V-I modèle en iles).
Dans nos simulations, ils peuvent détecter les clines et infèrent correctement le nombre de classes K
(V-II-I cline longitudinal et V-II-II 3pop). Dans le cas où les dépendances spatiales entre les
individus peuvent exister, il nous semble indispensable d’utiliser les informations géographiques de
ces individus. Les modèles spatiaux peuvent fournir une meilleure description de l'échantillon que
les modèles non spatiaux (V-II-I cline longitudinal).
Juin 2010 Page 29
En général, la nouvelle méthode de model checking est utile quand on n’a pas d’information
a priori sur l’existence de tendance spatiale. Elle permet de comparer le modèle spatial de TESS
avec le modèle non spatial de STRUCTURE, les modèles de métissage avec les modèles sans
métissage, et les modèles ayant différentes valeurs de kmax.
Juin 2010 Page 30
Références
Akaike H (1974) A new look at the statistical model identification. IEEE Transaction on Automatic
Control, 19, 716–723.
Balding DJ, Nichols RA (1995) A method for quantifying differentiation between populations at-
multi-allelic loci and its implications for investigating identity and paternity. Genetica, 96, 3–12.
Besag J (1975) Statistical analysis of non-lattice data. Statistician 24, 179-195.
Besag J, Newell J (1991) The detection of clusters in rare diseases. Journal of the Royal Statistical
Society, Series A, 154, 143-55.
Carlin BP, Clark JS, Gelfand AE, Elements of hierarchical Bayesian inference.
Chen C, Durand E, Forbes F, Francois O (2007) Bayesian clustering algorithms ascertaining spatial
population structure: A new computer program and a comparison study. Mol. Ecol. Notes 7:747-
756.
Durand E, Jay F, Gaggiotti OE, Francois O (2009) Spatial inference of admixture proportions and
secondary contact zones. Molecular Biology and Evolution.
Evanno G, Regnaut S, Goudet J (2005) Detecting the number of clusters of individuals using the
software STRUCTURE: a simulation study. Molecular Ecology, 14, 2611–2620.
Francois O, Ancelet S, Guillot G (2006) Bayesian clustering using hidden Markov random fields in
spatial population genetics. Genetics 174:805-816.
Francois O, Durand E (2010) Spatially explicit Bayesian clustering models in population genetics.
Molecular Ecology Resources, in press.
Gelman A, Carlin JB, Stern HS, Rubin DB (2004) Bayesian data analysis. Chapman and Hall/CRC
Press, Boca Raton, Florida.
Hartl DL, Clark AG , Principles of population genetics, Third edition.
Hoggart CJ, Shriver MD, Kittles RA, Clayton DG, McKeigue PM (2004) Design and analysis of
admixture mapping studies. Am. J. Hum. Genet. 74:965-978.
Jombart T, Devillard S, Dufour A-B, Pontier D (2008) Revealing cryptic spatial patterns in genetic
variability by a new multivariate method. Heredity 101:92-103.
Patterson N, Price AL, Reich D (2006) Population structure and eigenanalysis. PLoS Genet. 2:e190.
Pritchard JK, Stephens M, Donnely P (2000) Inference of population structure using multilocus
genotype data. Genetics 155: 945-959.
Schwartz MK, McKelvey KS (2009) Why sampling scheme matters: the effect of sampling scheme
on landscape genetic results. Conservation Genetics, 10, 441–452.
Juin 2010 Page 31
Schwarz GE (1978) Estimating the dimension of a model. Annals of Statistics 6 (2): 461–464.
Spiegelthalter DJ, Best NG, Carlin BP, van der Linde A (2002) Bayesian measures of model
complexity and fit (with discussion). J. Roy. Stat. Soc. B 64:583-639.
Walsh B (2004) Markov chain Monte Carlo and Gibbs sampling. Lecture notes for EEB 581.
Waples RS, Gaggiotti OE (2006) What is a population? An empirical evaluation of some genetic
methods for identifying the number of gene pools and their degree of connectivity Molecular
Ecology, 15, 1419–1439.
Juin 2010 Page 32
Annexe Données génotypiques multilocus : données contenant la composition allélique des gènes d’une
population, situés sur plusieurs locus.
Equilibre de liaison : Les gènes de locus différents sont associés au hasard dans la population.
Individus diploïdes : individus possédant deux allèles pour chaque gène.
Loi de Hardy-Weinberg : dans une population isolée d’effectif illimité, non soumise à la sélection
et dans laquelle il n’y a pas de mutation, les fréquences alléliques restent constantes. Les fréquences
génotypiques se déduisent des fréquences alléliques : elles restent donc aussi constantes.
MCMC : Les méthodes MCMC sont une classe de méthodes d'échantillonnage à partir de
distributions de probabilité. Ces méthodes se basent sur le parcours de chaînes de Markov qui ont
pour lois stationnaires les distributions à échantillonner.
Algorithme Metropolis-Hasting : c’est une méthode MCMC dont le but est de simuler des
échantillons suivant une certaine distribution p(Θ) où p(Θ) = f(Θ)/K, K est une constante de
normalisation inconnue et très difficile à calculer. L’algorithme est le suivant :
1. Initialiser Θ
0.
2. Proposer Θ* selon un noyau de transition Q(Θ
0, Θ
*).
3. Calculer r = f(Θ*) Q(Θ
*, Θ
0) / f(Θ
0) Q(Θ
0, Θ
*)
4. Si r 1, Θ1 Θ
*. Sinon avec la probabilité r, Θ
1 Θ
*
avec la probabilité 1-r, Θ1 Θ
0
5. Θ0 Θ
1 et aller en 2.
Échantillonnage de Gibbs : c’est une méthode MCMC pour simuler des échantillons suivant une
distribution multivariée à partir des distributions conditionnelles. Soit Θ = (Θ1, Θ2, …, Θk) un vecteur
multidimensionnel des paramètres et y les données. Nous procédons de la façon suivante :
1. Initialiser Θ1
0, …, Θk
0.
2. Repeter pour (t є 1 : T) :
Etape 1 : simuler Θ1t selon P(Θ1/ Θ2
t-1, Θ3
t-1, …, Θk
t-1, y).
Etape 2 : simuler Θ2t selon P(Θ1/ Θ1
t, Θ3
t-1, …, Θk
t-1, y).
.
.
.
Etape k : simuler Θkt selon P(Θk/ Θ1
t, Θ2
t, …, Θk-1
t, y).
Recommended