33
Rapport de stage Critères de sélection des modèles à classes latentes en génétique des populations Stage effectué par Ali Hajj Hassan Stage proposé et dirigé par Olivier François

Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Rapport de stage

Critères de sélection des modèles à classes latentes

en génétique des populations

Stage effectué par Ali Hajj Hassan

Stage proposé et dirigé par Olivier François

Page 2: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 1

Remerciements Tout travail réussi dans la vie nécessite en premier lieu la bénédiction de Dieu, et ensuite l´aide et le

support de plusieurs personnes. Je tiens donc à remercier et à adresser ma reconnaissance à toute

personne qui m´a aidé de loin ou de près afin de réaliser ce travail.

Tout d´abord, je tiens à remercier très vivement mon directeur de thèse, M. Olivier FRANCOIS,

pour ses qualités humaines et scientifiques. Je le remercie de m’avoir bien introduit le problème et

de m’avoir guidé tout au long du stage. Je ne pourrai jamais oublier sa gentillesse, sa générosité,

son esprit de recherche et ses commentaires efficaces.

Je remercie bien chaleureusement Flora JAY pour son aide, ses explications, ses encouragements

et sa sympathie.

Je tiens également à mentionner et à témoigner ma reconnaissance à tous les membres de l’équipe

TIMB du laboratoire TIMC, pour leurs encouragements et leur gentillesse envers moi. Je voudrais

exprimer ma sincère reconnaissance à mes collègues du bureau Laure SAMBOURG et Geremy

ROLAND, pour l´ambiance sympathique et familiale qui y règne, pour l´amour, la confiance et le

respect.

Je remercie les membres du jury pour l´intérêt qu´ils ont porté à ce travail. Tout particulièrement, je

remercie M. Eric BONNETIER, le responsable de mon master, pour son soutien et ses conseils au

cours de ce master.

Un grand merci à mes enseignants en Master à l’université Joseph Fourier qui m’ont assuré une

formation de base solide dans le domaine Probabilités et statistiques.

Mes vifs remerciements vont également à tous mes amis pour l´appui moral qu´ils m´ont témoigné,

et tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-

med KASSEM et Mohamed GHASSANY.

Pour terminer, j´adresse mon grand amour à mes parents. Mon plus grand souhait dans cette vie,

c´est de les voir toujours à côté de moi, en bonne santé, heureux et que la paix soit avec eux.

Page 3: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 2

Sommaire

Résumé ........................................................................................................................................... 3

Avant propos ................................................................................................................................... 4

Introduction .................................................................................................................................... 5

I. Méthodes de classification bayésienne ..................................................................................... 6

II. Modèles du logiciel STRUCTURE .......................................................................................... 7

III. Modèles du logiciel TESS .................................................................................................. 10

IV. Critères de sélection des modèles ..................................................................................... 13

IV-I Deviance information criterion (DIC) ............................................................................... 13

IV-II Choix du nombre de clusters kmax ................................................................................... 14

IV-III Model checking ............................................................................................................ 14

V. Simulations et résultats ....................................................................................................... 16

V-I Modèle sans métissage : modèle en iles ............................................................................. 16

V-II Modèle avec métissage ...................................................................................................... 21

V-II-I cline longitudinal ......................................................................................................... 21

V-II-II Trois populations ........................................................................................................ 25

VI. Discussion et conclusion ................................................................................................... 28

Références .................................................................................................................................... 30

Annexe ......................................................................................................................................... 32

Page 4: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 3

Résumé

En génétique des populations, nous utilisons des données génotypiques multilocus d’une population

pour inférer sa structure génétique. Cette inférence est effectuée en utilisant des méthodes de

classification bayésienne implémentées dans plusieurs logiciels dont STRUCTURE et TESS. Dans

cette mémoire, nous décrivons ces méthodes ainsi que les modèles de ces deux logiciels. Nous

évaluons des critères de sélection des modèles pour comparer des modèles alternatifs et choisir le

modèle qui donne le meilleur ajustement aux données. Cette évaluation s’appuie sur des simulations

effectuées avec des hypothèses classiques en génétique des populations, telles que les équilibre de

migration / dérive.

Pour le choix de modèle, nous utilisons le critère d’information DIC (Deviance information

criterion). Nous proposons ensuite une nouvelle méthode de vérification (model checking) de

modèle basée sur des simulations postérieures prédictives. Nous montrons en simulant plusieurs

scenarios que le DIC peut être utilisé pour choisir le nombre optimal de classes génétiques. La

méthode de model checking permet de comparer le modèle spatial de TESS avec le modèle non

spatial de STRUCTURE, les modèles de métissage avec les modèles sans métissage, et les modèles

avec différentes valeurs de nombre de classes génétiques kmax. Nous montrons que les modèles de

métissage sont robustes même en absence des individus métissés alors que les modèles sans

métissage ne sont pas robustes en présence des individus métissés. Dans le cas où les dépendances

spatiales entre les individus peuvent exister, nous montrons que les modèles spatiaux donnent un

meilleur ajustement aux données que les modèles non spatiaux.

Mots clé : Méthodes de classification bayésienne – Algorithme MCMC – Sélection des modèles –

DIC – Model checking – analyse en composantes principales.

Page 5: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 4

Avant propos

Nous disposons des données contenant la composition allélique des gènes des individus sur

plusieurs locus. Les individus peuvent être haploïdes (un allèle pour chaque gène) ou diploïdes

(deux allèles pour chaque gène). Ensuite une inférence bayesiénne est effectuée dans TESS et

STRUCTURE pour modéliser les données. Les estimations des paramètres sont contenues dans des

fichiers de format différent d’un logiciel à un autre. Ces fichiers contiennent les probabilités

d’appartenance des individus (coefficients ancestraux) à chaque population ancestrale ainsi que les

fréquences alléliques à chaque locus dans chaque population. Pendant ce stage, nous avons fait des

scripts dans le logiciel R pour calculer le DIC des modèles de TESS et de STRUCTURE. Nous

avons également effectué des scripts pour la nouvelle méthode de model checking. Ces scripts

permettent de simuler des données à partir de la distribution postérieure prédictive et ceci en

utilisant les sorties des fichiers de deux logiciels. Les scripts de DIC et du model checking sont

disponibles pour les individus haploïdes et diploïdes, pour les modèles de métissage et sans

métissage des logiciels TESS et STRUCTURE (16 scripts). Cette tache n’a pas été du tout facile vu

la complexité des fichiers de sortie des logiciels (environ 3 semaines de programmation).

Les expressions en italique dans la mémoire sont expliquées dans la section Annexe.

Page 6: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 5

Introduction

En génétique des populations, il est souvent utile de déterminer l’origine ancestrale des gènes

des individus d’un échantillon donné. Nous considérons une méthode de classification utilisant les

données génotypiques multilocus pour inférer la structure génétique de la population. Nous étudions

un modèle dans lequel il y a kmax classes ou clusters (où kmax est inconnu), chacun étant caractérisé

par un ensemble de fréquences alléliques propres à chaque locus. Les méthodes étudiées dans notre

mémoire tentent de classer les gènes (avec une probabilité à déterminer) dans les clusters et

d’estimer les fréquences alléliques de chaque cluster. Si les génotypes proviennent de plusieurs

origines, nous disons que les individus portant ces génotypes sont métissés. Dans ce cas, les gènes

sont classés conjointement dans plusieurs clusters.

Nous supposons que les observations provenant de chaque cluster sont des réalisations

aléatoires d’un certain modèle paramétrique. Nous avons besoin d'incorporer l'incertitude associée

aux paramètres de ce modèle afin de parvenir à une meilleure évaluation globale de l'incertitude.

Pour estimer ces paramètres, nous avons choisi de travailler dans le cadre bayésien. L’approche

bayésienne tient compte des hypothèses biologiques concernant les données. Elle facilite

l’incorporation de différentes sortes d’information a priori qui pourront être disponibles pour

l'inférence. Un type d’information particulier utile est par exemple l’information géographique. Les

paramètres sont estimés par des simulations a posteriori obtenues par l’algorithme Markov chain

Monte Carlo (MCMC). Les algorithmes de classification bayésienne en génétique des populations

sont implémentés dans plusieurs logiciels dont STRUCTURE (Pritchard et al 2000), TESS (Chen et

al 2007). Ces logiciels ont tous le même but : détecter la structure génétique des populations. Ils

reposent sur des modèles qui diffèrent par leurs hypothèses de base.

Un problème essentiel dans l’application des algorithmes ci-dessus est l’estimation du

nombre de clusters kmax. Nous avons besoin de choisir le nombre kmax le plus approprié pour

interpréter nos données. Le but de ce projet est d’évaluer des critères de sélection des modèles pour

faire le choix entre des modèles alternatifs.

Un critère fréquemment proposé est le critère Deviance information criterion (DIC;

Spiegelhalter et al 2002) qui est une généralisation du Akaike information criterion (AIC ; Akaike

1974) et du Bayesian information criterion (BIC ; Schwartz 1978) pour les modèles hiérarchiques.

DIC est une mesure statistique du pouvoir prédictif du modèle. DIC mesure la qualité d’ajustement

d’un modèle pénalisée par sa complexité. La complexité est représentée par un estimateur du

nombre de paramètres effectifs. Le principe est de préférer les modèles ayant des petites valeurs de

DIC à ceux qui ont des valeurs de DIC plus grandes. Ce critère peut être utilisé pour comparer

différents modèles avec métissage (ou modèles sans métissage). En pratique il est calculé par TESS

(Durand et al 2009) mais pas par STRUCTURE.

L’estimation de kmax dans STRUCTURE repose sur le calcul du logarithme de la probabilité

des données sachant kmax : lnP(D/ kmax) (François et Durand 2010,"Spatially Explicit Bayesian

Clustering Models in Population Genetics", Molecular Ecology Resources, in press). En pratique ce

Page 7: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 6

critère est similaire au DIC puisque lnP(D/ kmax), à un facteur ½ près, est proposé comme une

alternative au calcul de DIC (Gelman et al 2004).

Dans la section suivante, nous présentons les méthodes de classification en général et nous

décrivons les méthodes de classification bayésienne et ses avantages. Les modèles et les

algorithmes de STRUCTURE et TESS sont présentés respectivement dans les sections II et III.

Nous décrivons dans la section IV les critères de sélection des modèles et nous les appliquons sur

plusieurs jeux de données dans la section Simulations et résultats. Des notions de statistique et de

biologie sont définies dans Annexe.

I. Méthodes de classification bayésienne

Considérons une situation où nous essayons de regrouper dans des clusters les individus

génétiquement similaires en s’appuyant sur des données génétiques. Il y a deux types de méthodes

de classification que nous pourrions utiliser :

1. Méthodes basées sur la distance (hierarchical clustering tree based). Elle consiste à

calculer la matrice de la distance (convenablement définie) entre chaque paire

d’individus. Cette matrice est représentée graphiquement et permet d’identifier les

clusters.

2. Méthodes basées sur des modèles. Nous supposons que les observations dans chaque

classe proviennent d’un certain modèle paramétrique. Par suite l'inférence des

paramètres des modèles se fait en utilisant des méthodes statistiques, comme le

maximum de vraisemblance ou les méthodes bayésiennes.

Les méthodes basées sur la distance sont faciles à appliquer et elles sont souvent

visuellement attrayantes. Cependant, les classes identifiées par ces méthodes peuvent dépendre

fortement de la distance et la représentation graphique choisies. Il est difficile d'évaluer à quel

niveau les classes obtenues sont significatives. Il est aussi difficile d'incorporer des informations

complémentaires comme les coordonnées géographiques des individus. Ces méthodes sont alors

plus adaptées pour l’analyse exploratoire des données que pour faire l'inférence statistique.

Les méthodes basées sur les modèles nécessitent de spécifier un modèle adapté aux

observations. Dans ce qui suit, nous introduisons le modèle étudié et quelques notations. Supposons

que chaque cluster est modélisé par un ensemble de fréquences alléliques à chaque locus. Dénotons

par X les génotypes observés des individus, Z leurs populations d’origine et P l’ensemble des

fréquences alléliques dans les clusters. Notons que X, Z et P sont des vecteurs multidimensionnels.

Z et P sont dites des variables cachées car elles sont non observées. Les hypothèses de base de notre

modèle sont la loi de Hardy-Weinberg et l'équilibre de liaison entre les loci dans les clusters

(Pritchard et al 2000). Sous ces hypothèses, chaque allèle à chaque locus dans chaque génotype est

une réalisation indépendante de la distribution de fréquence appropriée, et ceci spécifie la

Page 8: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 7

vraisemblance de nos données Pr(X|Z,P) .

Après avoir spécifié notre modèle, nous devons choisir la façon d’effectuer l'inférence sur

les paramètres Z et P. L’approche bayésienne nous parait la plus adaptée. Cette approche offre

plusieurs avantages :

1. Elle permet l’inclusion de connaissances a priori ; elle facilite l’incorporation de

différentes sortes d’informations a priori permettant d’avoir une inférence plus fine comme

les informations géographiques.

2. Elle permet de gérer les données manquantes.

3. Elle associe des probabilités aux prédictions, ce qui est utile dans notre domaine

puisque nos connaissances sont incertaines.

Dans l’approche bayésienne, nous spécifions les distributions a priori Pr(Z) et Pr(P)

respectivement pour Z et P. Ayant observé les génotypes, X, nos connaissances sur Z et P sont

données par la distribution a posteriori

Pr(Z,P|X) α Pr(Z) Pr(P) Pr(X|Z,P). (1)

Les lois a priori Pr(Z) et Pr(P) ainsi que la vraisemblance des données Pr(X|Z,P) seront définies

plus loin. En général, il n’est pas possible de calculer exactement la distribution a posteriori

Pr(Z,P|X) mais il est possible d’obtenir un échantillon approché (Z(1)

, P(1)

), (Z(2)

, P(2)

), . . . , (Z(M)

,

P(M)

) en utilisant l'échantillonnage de Gibbs issu des méthodes de MCMC.

II. Modèles du logiciel STRUCTURE

Le logiciel STRUCTURE implémente des algorithmes de classification bayésienne afin d’inférer

la structure génétique d’une population. Il utilise des données génotypiques constituées par des

marqueurs non liés.

Dans cette section nous fournissons une description détaillée des hypothèses du modèle du

logiciel STRUCTURE et des algorithmes utilisés pour effectuer l'inférence. Nous commençons par

le cas où chaque individu est supposé d'être issu d’un seul cluster (sans métissage).

Modèle sans métissage (without admixture) : Supposons que nous avons recueilli les

génotypes de N individus diploïdes en L loci. Dans le cas sans métissage, notre échantillon est un

mélange de kmax populations divergentes et chaque individu possède une seule population d’origine.

Soient X , Z et P les vecteurs définis ci-dessous,

(x(i,1)

, x(i,2)

) = le génotype du ième

individu au locus , où i = 1, 2,. . . , N et = 1, 2,. . . , L ;

Z(i)

= population d’origine du ième

individu ;

Page 9: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 8

Pjk = fréquence de l'allèle j au locus dans la sous-population k, où k = 1,2,. . . ,kmax et j = 1, 2,. . . ,

J ,

où J est le nombre de différents allèles observés au locus , et ces allèles sont numérotés 1, 2, . . . ,

J.

Sachant que la population d’origine de chaque individu est connue, les génotypes sont

supposés d'être générés en tirant les allèles indépendamment des distributions de fréquence de cette

population,

Pr(xl(i,a)

= j|Z, P) = pz(i)j (2)

indépendamment pour chaque x(i,a)

. Notons que pz(i)j est la fréquence de l'allèle j au locus l dans la

population d’origine de l’individu i.

Supposons qu’avant d’observer les génotypes nous n’avons pas d’information sur la

population d’origine de chaque individu. Nous choisissons un prior uniforme sur les kmax

populations. La probabilité qu’un individu i provient de la population k est la même pour tous les k,

Pr(z(i)

= k) = 1/ kmax (3)

indépendamment pour tous les individus.

D’après BALDING and NICHOLS (1995), la distribution de Dirichlet est utilisée pour

modéliser les fréquences alléliques à chaque locus dans chaque cluster. La distribution de Dirichlet

Ɗ(λ1, λ2 , . . . , λJ ) est une distribution des fréquences alléliques p= ( p1, p2 , . . . , pJ ) telle que la

somme de ces fréquences est égale à 1. Nous utilisons cette distribution pour spécifier la probabilité

d’un ensemble particulier des fréquences alléliques pk de la population k au locus ,

pkl ~ Ɗ(λ1, λ2 , . . . , λJ ), (4)

indépendamment pour chaque k, l. Généralement nous choisissons λ1 = λ2 = . . . = λJ = 1, ceci

donne une distribution uniforme aux fréquences alléliques.

Algorithme MCMC (sans métissage): Les équations 2, 3 et 4 définissent respectivement

les quantités Pr(X|Z,P), Pr(Z) et Pr(P). L'échantillonnage de Gibbs nous permet de construire une

chaine de Markov ayant pour distribution stationnaire, la loi a posteriori de nos paramètres à

estimer Pr(Z,P|X).

Algorithme 1 : Nous donnons à Z et P des valeurs initiales Z(0)

et P(0)

(en utilisant (3) et (4)

par exemple), et nous répétons les étapes suivantes pour m = 1, 2, . . .

Etape 1 : Simuler P(m)

à partir de Pr(P|X, Z(m-1)

).

Etape 2 : Simuler Z(m)

à partir de Pr(Z|X, P(m)

).

Page 10: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 9

L'étape 1 correspond à l’estimation des fréquences alléliques de chaque cluster sachant que

la population d’origine de chaque individu est connue ; l'étape 2 correspond à l'estimation de la

population d’origine de chaque individu sachant que les fréquences alléliques des populations sont

connues. Pour des valeurs suffisamment larges de m (burn-in period) et c (nombre d'itérations après

burn-in period), (Z(m)

, P(m)

), (Z(m+1)

, P(m+1)

), . . . , (Z(m+c)

, P(m+c)

) sont des échantillons de la

distribution a posteriori Pr(Z,P|X) .

Modèle avec métissage (with admixture): Le modèle présenté ci-dessus est développé

pour étudier le cas où nous pouvons avoir des individus qui ont plusieurs populations d’origine. Nos

paramètres d'intérêt dans ces modèles sont les proportions de mélange, calculées pour chaque

individu dans l'échantillon. Ainsi, nous introduisons le vecteur Q dénotant les proportions de

mélange pour chaque individu. Les éléments de Q sont

qk(i)

= proportion du génome de l’individu i provenant de la population k.

Il est aussi nécessaire de modifier le vecteur Z pour remplacer l'hypothèse que chaque individu

provient d’une population d’origine inconnue z(i)

par l'hypothèse que chaque copie d'allèle observée

x(i,a)

est issue d’une population d’origine inconnue z(i,a)

:

z(i,a)

= population d’origine de la copie d’allèle x(i,a)

.

Le terme “copie d’allèle” réfère à un allèle porte par un individu particulier à un locus particulier.

Notre but maintenant est d’estimer Q. Nous procédons de la même manière que dans le cas

sans métissage, en commençant par spécifier des modèles pour le vecteur (X, Z, P, Q). D’une façon

analogue à (2) et (3) nous avons

Pr(x(i,a)

= j|Z, P, Q)= Pz(i,a)

j (5)

Et

Pr(z(i,a)

= k|P, Q) = qk(i)

. (6)

L’équation (4) est utilisée pour modéliser P comme dans le premier cas. Pour compléter notre

modèle, nous avons besoin de spécifier une distribution pour Q qui dépend généralement de notre

information a priori et notre prévision concernant le type et la proportion de métissage. Nous

modélisons les proportions de mélange q(i)

= (q1(i)

, . . . ,

(i)) de l’individu i en utilisant la

distribution de Dirichlet

q(i)

~ Ɗ(α, α, . . . , α) (7)

indépendamment pour chaque individu. Notons que pour des valeurs très petites de α (<<1) notre

modèle devient comme le modèle sans métissage.

Page 11: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 10

Algorithme MCMC (avec métissage) : L’algorithme suivant simule des échantillons de la

distribution a posteriori Pr (Z, P, Q|X).

Algorithme 2: Nous donnons à Z, P et Q des valeurs initiales Z(0)

, P(0)

et Q(0)

(en utilisant (3),

(4) et (7) par exemple), et nous répétons les étapes suivantes pour m = 1,2, . . .

Etape 1 : Simuler P(m)

, Q(m)

à partir de Pr(P, Q|X, Z(m-1)

).

Etape 2 : Simuler Z(m)

à partir de Pr(Z|X, P(m)

, Q(m

).

Etape 3 : Mettre à jour α en utilisant l'étape de Metropolis-Hasting.

L'étape 1 correspond à estimer les fréquences alléliques de chaque population et les proportions

de mélange pour chaque individu sachant que la population d’origine de chaque copie d'allèle pour

chaque individu est connue ; l'étape 2 correspond à estimer la population d’origine de chaque copie

d'allèle sachant que les fréquences alléliques des populations et les proportions de mélange sont

connues. Comme ce qui précède, pour des valeurs suffisamment larges de m et c, (Z(m)

, P(m)

, Q(m)

),

(Z(m+1)

, P(m+1)

, Q(m+1)

), . . . , (Z(m+c)

, P(m+c)

, Q(m+c)

) sont des échantillons de la distribution a posteriori

Pr(Z,P, Q|X).

Inférence : Inférence pour Z, P et Q : Nous expliquons dans ce paragraphe comment

effectuer l’inférence sur Q en utilisant les sorties de l’algorithme MCMC. Les inférences de Z et P

sont similaires à celle de Q. Pour des valeurs suffisamment larges de m et c, nous obtenons un

échantillon Q(1)

, . . . , Q(c)

de la distribution a posteriori de Q = (q1, . . . , qN). Nous résumons

l’information contenue dans cet échantillon par un estimateur de Q. L’estimateur utilise est la

moyenne a posteriori

E(qi| X)

(m+j)

.

III. Modèles du logiciel TESS

TESS est un logiciel qui implémente un algorithme de classification bayésienne pour étudier la

génétique des populations spatiales (Chen et al 2007 pour TESS 1.1, François et al 2006). TESS

cherche à détecter la structure génétique des populations. Il s’appuie sur des données génotypiques

des individus échantillonnés à différents emplacements géographiques sans supposer des

populations prédéfinies. Il traite les fichiers des données ayant un format compatible avec les

algorithmes de classification non-spatiaux existants comme STRUCTURE (Pritchard et al 2000).

Description de la méthode

Dans cette section, nous donnons une courte description des méthodes utilisées dans le

logiciel. Dénotons par (si), i= 1, . . . , N, l'ensemble des sites observés. Chaque si est entouré par des

Page 12: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 11

points qui sont plus proches de lui que de tout autre site. Cet ensemble des points est appelé cellule

de Dirichlet. Nous disons que deux sites sont voisins si leurs cellules correspondantes ont un bord

commun. TESS est basé sur un modèle hiérarchique dont le système de voisinage est obtenu à partir

du diagramme de Voronoi (François et al 2006 ; Chen et al 2007). Le programme offre la possibilité

de modifier le système de voisinage en reliant des sites supplémentaires ou par la rupture des liens

entre les sites. Cette option peut être utile pour faire inclure des barrières géographiques connues.

Elle permet en général aux utilisateurs de spécifier leur réseau particulier des individus. Les poids

par défaut sur le réseau sont fixés à 1. Pour des échantillonnages irréguliers, il est possible et utile

d'incorporer des poids qui dépendent de la distance géographique entre les sites. Dans le cas où les

distances géographiques sont disponibles, l'influence relative du site j sur le site i est représenté par

le poids wij = exp(-dij/Θ) où dij est la distance du grand cercle (distance orthodromique) entre les

sites i et j et Θ est un paramètre lié à l'intensité de la variété génétique (une valeur par défaut est la

distance moyenne entre les individus).

Le jeu de données, dénoté par le vecteur X, consiste en N génotypes multilocus

correspondant à des individus situés sur les sites échantillonnés. Nous supposons que les

coordonnées géographiques de tous les individus sont disponibles. Un génotype d'un individu

diploïde enregistre les paires d'allèles en L loci, où le nombre possible des allèles au locus l est égal

à Jl.

Modèle sans métissage : Nous dénotons par zi la population d'origine de l'individu i, et

nous supposons l'existence d'au plus kmax populations (zi є {1, . . . , kmax }). Comme dans

STRUCTURE, TESS effectue une inférence statistique du vecteur multidimensionnel des

paramètres (Z, P) avec Z = {zi} i=1, . . . , N ; P = (pjk) la fréquence allélique de l’allèle j au locus

dans le cluster k où j = 1, . . .,J, k = 1, . . . , kmax et = 1, . . . ,L. La distribution de Dirichlet Ɗ (λ, .

. . , λ) est utilisée comme prior pour les fréquences alléliques. La distribution a priori des classes des

populations est définie comme une distribution de Gibbs

π(z)=exp[ψ U(z)]/Z, z є {1, . . ., kmax }N,

où ψ est un paramètre non négatif appelé paramètre d'interaction, U(z) est le nombre des paires

voisines qui partagent le même cluster z, et Z est une constante de normalisation appelée la fonction

de partition. Avec Ψ égal à 0, ce modèle suppose un prior spatial non informatif. Il correspond au

modèle de classification de Pritchard et al. (2000) (sans métissage, fréquences alléliques

décorrélées) qui peut être considéré un cas particulier de ce modèle. Des valeurs typiques du

paramètre d'interaction pourraient être prises dans la gamme Ψ є (0.5,1) pour kmax = 2-10. Les

inférences sur (Z, P) sont effectuées en simulant la distribution a posteriori P(Z,P\X) par

l'algorithme MCMC .

Modèle avec métissage (TESS > 2.0) : Dans le modèle avec métissage (Durand et al 2009),

nous supposons, comme dans l'algorithme implémenté dans STRUCTURE (Pritchard et al 2000),

que les génomes d'un individu proviennent d'un mélange d'au plus kmax populations ancestrales.

Nous estimons la fraction du génome de l'individu i, qik, provenant du cluster k. Le modèle avec

Page 13: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 12

métissage suppose que les qik sont spatialement autocorrélées. Par suite les individus voisins sont

plus similaires que les individus éloignés. Nous effectuons une inférence de la structure de

population dans un cadre bayésien. Nous incorporons les covariables géographiques des individus

dans les distributions a priori des coefficients de mélange qik. Le but étant d'améliorer l'inférence de

ces coefficients lorsque les proportions de mélange sont variables à travers l'espace. Plus

précisément nous supposons une distribution de Dirichlet des qik pour chaque individu i,

qi. ~ Ɗ (αi1, . . . , ), (1)

et nous considérons un modèle de régression log-normal pour les αik, considérées comme des

variables de réponse inobservées

log(αi.)=f(xi)T β. + yi., (2)

où xi représente un vecteur bidimensionnel des covariables spatiales (latitude et longitude) de

l'individu i, et β. est un vecteur de coefficients de la régression estimés par l'algorithme. Des

régressions log-linéaires des αi en fonction des covariables spatiales sont effectuées dans chacun des

kmax clusters. Le modèle de régression décrit dans l'équation (2) est similaire au krigeage universel

dans lequel une variable réponse - ici les proportions de mélange – peut être modélisée comme la

somme de deux composantes. La première composante, μ.k = f(x)T β.k, représente la réponse

moyenne et elle est modélisée par une surface linéaire, quadratique ou cubique. La seconde

composante, yi, représente une variable aléatoire centrée autocorrélée spatialement. Ce terme est

gaussien conditionnel autorégressif (CAR, Besag 1975). Le modèle CAR est un processus gaussien

aléatoire. Nous définissons les voisinages à partir du diagramme de Dirichlet (François et al 2006).

Nous avons

log(α.k) ~ N (μ.k , σ2(Id- ψW)

-1) , (3)

où μ.k est l'effet moyen de la tendance, W est une matrice N*N des poids définie sur le diagramme

de Voronoi avec des zéro sur la diagonale et des poids d'interaction (wij) pour les éléments non

diagonaux, Id est la matrice identité, ψ est un paramètre d'interaction spatial et σ2 est la variance du

modèle CAR. Pour tout individu i є {1, . . . , N}, et tout cluster k є {1, . . . , kmax}, nous dénotons

yik = log(αik) et nous avons

yik|yjk, j≠i ~ N (μik + ψ wij (yjk – μjk) , σ

2 ) , (4)

où μik est la ième coordonnée de la moyenne μ.k telle que μik = f(xi) βk . Dans ce nouveau modèle, le

paramètre d'interaction spatial représente l’intensité de l'autocorrélation spatiale et ce paramètre est

aussi estimé par l'algorithme MCMC. Nous référons au modèle défini dans l'équation (2) comme un

modèle de régression complet. Un modèle sans la composante CAR est appelé modèle de tendance.

Détails de l'implémentation. Le modèle bayésien est implémenté comme un algorithme de

MCMC, suivant Gelman et al (2004) pour les priors sur les modèles de régression et les régles de

Page 14: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 13

Metropolis-Hasting pour le modèle CAR. Un prior non informatif sur l'intervalle (0,1/λmax) est

utilisé pour le paramètre ψ, où λmax est la plus grande valeur propre de W. Utiliser cette régression

cachée nous offre la possibilité de visualiser une carte posteriore prédictive des coefficients de

mélange. Cette carte montre les prédictions des proportions de mélange pour un individu situé à une

position géographique arbitraire. Le modèle spécifié dans l'équation (2) n'est pas la façon unique de

définir un prior explicite spatial pour le métissage. Pour cela nous trouvons plusieurs variantes de

l'approche bayésienne décrite au-dessus implémentées dans TESS. Une alternative est d'utiliser un

prior gaussien de convolution avec les deux paramètres de variance, τ2 et σ

2, comme défini par

Besag et al (1991) (modèle BYM ). Les modèles CAR et BYM sont très proches l'un de l'autre. Ils

sont implémentés dans TESS, et ils conduisent généralement à des résultats similaires (Durand et al

2009). Pour le modèle BYM, des priors non informatifs des paramètres de variance sont utilisés, et

la mise à jour de ces paramètres est effectuée selon l'algorithme d'échantillonnage de Gibbs.

En bref, nous avons présenté un algorithme bayésien pour estimer les proportions de

métissage des individus en incorporant des tendances spatiales et des processus spatiaux

autorégressifs dans la distribution a priori de ces coefficients. Les priors sont définis comme des

modèles de régression cachée avec des résidus autocorrélés incluant les effets spatiaux.

IV. Critères de sélection des modèles

IV-I Deviance information criterion (DIC)

Nous considérons un problème de comparaison de modèles hiérarchiques dans lesquels le

nombre de paramètres libres n’est pas défini clairement, et où les distributions a posteriori sont

simulées par MCMC. Nous introduisons le critère DIC adapté pour ce genre de problème. Il s’agit

d’une mesure de la qualité d’ajustement d’un modèle pénalisée par un estimateur de la complexité

de ce modèle.

Notons θ le vecteur contenant tous les paramètres du modèle, D(θ) la déviance de ce modèle

pour ces paramètres calculée comme -2 fois la log-vraissemblance ( lnP(X/ θ) ) et pD le nombre des

paramètres effectifs dans ce modèle. Nous avons

DIC= +pD ,

où est la moyenne a posteriori de la déviance, cette statistique mesure la qualité de l’ajustement

des données par un modèle. Plus elle est petite meilleur est l’ajustement. Il y a plusieurs méthodes

pour calculer pD, nous utilisons celle de (Spiegelhalter et al 2002) en posant

pD= – D( ) ,

i.e., la différence entre la moyenne a posteriori de la déviance et la déviance calculée pour une

moyenne a posteriori (espérance) des paramètres, . Cette statistique mesure la complexité du

Page 15: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 14

modèle.

L'idée est que les modèles ayant des petits DIC doivent être préférés aux modèles ayant des

DIC plus grands. Les modèles sont évalués par et pD. Comme va diminuer lorsque le nombre

de paramètres dans le modèle augmente, le terme pD compense cet effet en favorisant les modèles

ayant un petit nombre de paramètres.

DIC peut être utilisé pour choisir le nombre optimal de clusters kmax et plus généralement

décider quels sont les meilleurs modèles appropriés à nos données. Dans notre contexte Il permet de

comparer différents modèles avec métissage (ou modèles sans métissage).

IV-II Choix du nombre de clusters kmax

Le choix du nombre kmax est important et fait partie du problème de sélection de

modèles. Dans cette section, nous expliquons le choix de kmax dans STRUCTURE et TESS.

STRUCTURE estime kmax en calculant lnP(X/kmax), une statistique considérée comme une

mesure pénalisée de la qualité d’ajustement du modèle basée sur une approximation gaussienne de

la déviance du modèle. STRUCTURE est exécuté pour différentes valeurs de kmax, lnP(X/kmax) est

évaluée pour chaque valeur et est tracée en fonction de kmax. La valeur de kmax choisie correspond

au point pour lequel la courbe s’aplatit (Evanno et al 2005).

TESS calcule le DIC alors que STRUCTURE ne le calcule pas. Nous avons programmé des

scripts dans le logiciel R pour calculer le DIC des modèles de STRUCTURE. Pour choisir kmax nous

faisons plusieurs exécutions avec différentes valeurs de kmax et nous traçons le DIC en fonction de

kmax. Nous choisissons la valeur de kmax correspondant à l’aplatissement de la courbe (Durand et al

2009).

IV-III Model checking

En raison de la variété des modèles que nous pouvons utiliser pour modéliser notre

échantillon, la question est de choisir le modèle qui décrit le mieux nos données. Dans cette section,

nous présentons quelques techniques pour le Model checking et la sélection des modèles.

Une fois nous avons accompli les deux premières étapes d'une analyse bayésienne –

construire un modèle et simuler la distribution a posteriori de tous les estimateurs – nous ne devons

pas ignorer l'étape consistant à évaluer la qualité d'ajustement du modèle aux données et à notre

connaissance. Il est difficile de faire inclure dans le modèle toutes nos connaissances à propos du

problème que nous étudions. Mais il est important de préciser les aspects non détectés par notre

modèle.

Page 16: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 15

Une façon de contrôler une inférence effectuée est l’application d’une méthode d’inférence

indépendante, comme l’analyse en composantes principales (ACP). L’ACP est une méthode

d'inférence facile et performante en analyse des larges tableaux de données génomiques. Elle peut

être utilisée pour vérifier que notre modèle ne produit pas des estimations aberrantes. Cette méthode

peut être modifiée pour tenir compte de l’autocorrélation spatiale (Jombart et al 2008). Les résultats

de l’ACP valident celles obtenues par la classification bayésienne, en particulier si les modèles avec

métissage ont été utilisés (Patterson et al 2006 ; Mc Vean 2009). Le Model checking peut être aussi

effectué en simulant des nouvelles données génotypiques pour les mêmes individus à partir de la

distribution postérieure prédictive (Gelman et al 2004). Nous testons si le modèle ajusté peut

reproduire les données observées ou non. Plus précisément, des simulations a posteriori des

génotypes multilocus peuvent être facilement générées en utilisant les probabilités d’appartenance

des individus et les fréquences alléliques dans chaque cluster. Hoggart et al (2004) proposent

d’effectuer le modèle checking en calculant le pourcentage de variance expliquée par les premières

composantes principales des données simulées et de comparer leurs distributions à celles des

données observées. Le nombre de composantes principales dépend du nombre de clusters choisi. Si

nous retenons k clusters, nous devons comparer les distributions du pourcentage de variance

expliquée par les K-1 premières composantes principales pour les données observées et simulées.

Notons λobs la variance expliquée par la ième

composante principale des données observées,

λsim celle des données simulées. Nous définissons notre statistique S de model checking comme le

pourcentage de la variation relative de la variance expliquée par la première composante principale

des données observées et celle des données simulées. Nous avons

S= ( λobs – λsim ) / λobs

Nous générons des données répliquées a partir des simulations a posteriori. Nous calculons

la statistique S pour chaque simulation, puis nous traçons l’histogramme de cette statistique. Plus

l’histogramme est proche de zéro, meilleur est notre modèle.

Page 17: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 16

V. Simulations et résultats

Dans cette section, nous appliquons le critère d’information DIC et la méthode de model

checking sur trois scénarios simulés pour choisir le modèle qui donne le meilleur ajustement des

données. Ensuite nous avons rapporté les résultats typiques.

Tout d’abord, nous introduisons la notion du modèle en iles (Island model). Dans ce modèle,

une large population est divisée en plusieurs sous populations dispersées géographiquement comme

les iles d’un archipel (Principles of Population genetics, Third Edition). Les sous-populations

échangent des migrants avec le même taux de migration m. m est égal à la probabilité qu’un allèle

choisi aléatoirement dans n’importe quelle sous-population provient d’un migrant. La mutation est

une modification de l’information génétique contenue dans un génome. Par suite le taux de

mutation μ mesure la variabilité entre les gènes.

Nous simulons les échantillons selon le modèle en iles en utilisant ms. ms est un logiciel qui

peut produire des échantillons selon le modèle en iles avec des taux de migration et de mutation

arbitraires et différentes tailles des sous-populations.

Le premier échantillon est simulé selon le modèle en iles, il correspond à un modèle sans

métissage. Les deux autres sont simulés selon un cline longitudinal que nous le définissons plus

loin, et ils correspondent à un modèle de métissage. Pour chaque run de différents modèles nous

effectuons 2000 itérations de MCMC, dont 1000 itérations correspondant au burn-in period. Ce

nombre d’itérations est suffisant pour la convergence de l’algorithme.

V-I Modèle sans métissage : modèle en iles

Nous avons simulé un échantillon selon le modèle avec 2 iles. Chaque ile contient N

individus (N grand), et nous disposons des données génotypiques pour 100 locus pour n=100

individus. Le paramètre de migration M = 4Nm entre les 2 iles est égal à 30. Le paramètre de

mutation Θ = 4Nμ est égal à 1. Des coordonnées spatiales sont associées aux individus de chaque

population suivant des lois gaussiennes pour la longitude et une loi uniforme pour la latitude.

Nous avons lancé dans TESS 10 runs indépendants en utilisant le modèle sans métissage

pour chacune des valeurs de kmax allant de 2 jusqu'à 6. Notons kinf le nombre de clusters visibles

dans les résultats de TESS. Nous remarquons que pour chacune des valeurs de kmax comprises entre

2 et 6, TESS détecte un seul (kinf = 1) ou deux clusters (kinf = 2) (tableau 1). Pour kmax = 2, 30% des

runs trouvent un seul cluster et 70% des runs en trouvent deux. Pour kmax 3, le nombre de runs

qui ne converge pas vers la structure correcte augmente. Les valeurs minimales de DIC de chaque

valeur de kinf varient de quatre unités seulement (tableau 2). Nous avons alors la même qualité

d’ajustement de notre échantillon par les différents modèles utilisés pour chacune des valeurs de

kinf.

Page 18: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 17

Les figures 1 et 2 montrent que la probabilité d’appartenance des individus aux clusters pour kmax =

2 et kmax = 3 sont les mêmes. Le problème sera donc de décider lequel des deux modèles qui

correspondent à kinf = 1 ou kinf = 2 décrit mieux notre échantillon.

Nous avons effectué 100 simulations du modèle génératif de TESS (Sampling distribution) à

partir de la distribution postérieure prédictive de chacun de deux modèles. Et nous avons tracé les

histogrammes de la statistique S pour ces deux modèles (Figures 3). Pour le premier modèle (kinf =

1) l’histogramme est centré autour de 5 avec une médiane de S égale à 5.1. Par contre pour le

deuxième modèle (kinf = 2) l’histogramme est plus proche de zéro avec une médiane de S égale à

-1.3. En plus, le plus petit DIC du premier modèle vaut 58642, celui du deuxième modèle vaut

57993. Ces résultats suggèrent qu’un modèle avec deux clusters est meilleur qu’un modèle avec un

unique cluster.

Nous utilisons maintenant le modèle de métissage de TESS (BYM). Rappelons que les

modèles de métissage BYM et CAR conduisent à des résultats similaires (Durand et al 2009). Nous

avons lancé 10 runs indépendants de ce modèle pour chacune des valeurs de kmax allant de 2 jusqu’

à 6. La figure 4 représente la variation du DIC en fonction des valeurs de kmax. Les barres d’erreur

représentent la variation du DIC dans les 10 runs de chacune des valeurs de kmax. La courbe en ligne

pleine représente la variation du DIC moyen de 10 runs en fonction des valeurs de kmax. La valeur

minimale de kmax dans les modèles de TESS vaut 2. Le DIC correspondant à kmax = 1 est calculé

alors en utilisant le modèle de STRUCTURE. Cette courbe montre que le DIC decroit brusquement

entre kmax = 1 et kmax = 2 puis il varie faiblement pour kmax entre 2 et 6. Nous pouvons dire que

l’aplatissement de la courbe de DIC correspond à kmax = 2. En plus, pour kmax = 5 TESS détecte

effectivement 2 clusters comme nous le montre la figure 5. Le nombre de clusters choisi est donc

égal à 2.

Ensuite, nous testons la qualité d’ajustement du modèle avec métissage de TESS

correspondant à kmax = 2 en utilisant des simulations postérieures prédictives. Nous observons dans

la figure 6 un histogramme proche de zéro avec une médiane de la statistique S égale à 1.75.

Avec le modèle sans métissage de STRUCTURE, nous avons effectué 10 runs indépendants

pour chacune des valeurs de kmax allant de 1 jusqu’à 5. Nous remarquons dans la figure 7 que le

DIC moyen décroît rapidement de 58676 pour kmax = 1 jusqu’à 57714 pour kmax = 2, puis il varie

régulièrement entre kmax = 2 et kmax = 5. L’aplatissement de la courbe de DIC correspond à kmax =

2. Nous comparons les deux modèles M1et M2 correspondant respectivement à kmax = 2 et kmax = 4

avec la méthode de model checking (figure 9). La médiane de la statistique S du modèle M1 vaut

4.15 alors que celle du modèle M2 vaut 5.7. Au vu de ces résultats, nous choisissons le modèle M1.

La valeur minimale de DIC du modèle sans métissage de STRUCTURE pour kmax = 2 est

égal à 57700 alors que celle de TESS vaut 57993. Pourtant, les médianes de leur statistique S valent

respectivement 4.15 et -1.3. Par suite les critères d’information utilisés ne sont pas suffisants pour

décider du choix de l’un des deux modèles.

Page 19: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 18

Le modèle avec métissage de STRUCTURE donne des résultats similaires pour kmax = 2 que ceux

du modèle sans métissage (figure 10).

Kinf

Kmax 1 2

Kinf

Kmax 1 2

2 30 70 2 58646 57993

3 70 30 3 58642 57997

4 60 40 4 58645 57996

5 60 40 5 58644 57994

6 60 40 6 58644 57997

Tableau 1 : Pourcentage des runs qui donnent chacune des valeurs de kinf pour kmax allant de 2 jusqu'à 6 en utilisant le modèle sans

métissage de TESS pour l’échantillon simulé selon le modèle en iles.

Tableau 2 : Valeur de DIC minimale correspondant aux deux valeurs de kinf pour les différentes valeurs de kmax en utilisant le modèle

sans métissage de TESS pour l’échantillon simulé selon le modèle en iles.

Page 20: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 19

Page 21: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 20

Page 22: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 21

V-II Modèle avec métissage

V-II-I cline longitudinal

Dans cette partie, nous simulons un échantillon où le génome des individus provient de deux

populations. Nous avons simulé un échantillon selon le modèle avec 2 iles. Chaque ile contient N

individus (N grand), et nous disposons des données génotypiques pour 100 locus pour n=100

individus. Le paramètre de migration M entre les 2 iles est égal à 2. Le paramètre de mutation Θ est

égal à 1. Pour travailler dans un cadre spatial, nous associons à chaque individu de chaque ile des

coordonnées spatiales le long d’un axe longitudinal. Nous utilisons la fonction sigmoïde pour

simuler le métissage. Plus précisément, la fraction du génome d’un individu provenant d’une

population est proportionnelle à la distance de cet individu à cette population (Durand et al 2009).

Par conséquent, les coefficients ancestraux des individus varient continûment le long d’un gradient

longitudinal (figure 11). De cette façon, nous simulons c’est ce qu’on appelle un "cline

longitudinal". Notons que pour une valeur de M un peu élevée (M = 7 par exemple) aucun des

modèles de TESS et de STRUCTURE ne détecte le cline. Pour cela nous avons choisi M = 2.

Page 23: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 22

En utilisant le modèle BYM, nous avons lancé 10 runs indépendants pour chacune des

valeurs de kmax allant de 2 jusqu'à 6. Nous retenons dans le tableau 3 la plus petite valeur de DIC

pour kmax entre 1 et 6. Nous remarquons que le DIC décroit brusquement de 60557 pour kmax = 1 à

57927 pour kmax = 2, puis il diminue faiblement pour kmax entre 2 et 5 puis il décroit rapidement de

57702 pour kmax = 5 jusqu'à 57477 pour kmax = 6. Pourtant la figure 12-B montre que pour kmax = 6,

TESS a trouvé effectivement 2 populations ancestrales. Le nombre de clusters choisi est 2. D’autre

part le modèle spatial de TESS a détecté le cline comme nous le montre la figure 12-A.

Avec le logiciel STRUCTURE, nous avons lancé 10 runs indépendants du modèle avec

métissage pour des valeurs de kmax comprises entre 1 et 6. Le DIC décroit brusquement de 60557

pour kmax = 1 jusqu'à 59136 pour kmax = 2, il vaut 58857 pour kmax = 3 puis il décroit jusqu'à 58370

pour kmax = 4 et diminue faiblement pour kmax entre 4 et 6. La variation de DIC suggère 2 ou 4

populations ancestrales. Pour kmax = 2 le modèle de STRUCTURE a détecté le cline (figure 13-A).

Pour kmax = 4 le modèle de STRUCTURE trouve le cline mais il partage une de deux populations en

trois sous-populations (figure 13-B).

Nous procédons à un model checking pour comparer les modèles de métissage de

STRUCTURE qui correspondent à kmax = 2 et kmax = 4 et le modèle de métissage de TESS

correspondant à kmax = 2. Nous effectuons 100 simulations postérieures prédictives à partir de

chacun de ces trois modèles. Nous traçons les histogrammes de la statistique S correspondant à

chacun de trois modèles (figure 14). Il est clair que le modèle avec métissage de STRUCTURE

correspondant à kmax = 2 est meilleur que celui qui correspond à kmax = 4. La médiane de la

statistique S du premier modèle vaut 23.95 alors que celle du deuxième modèle vaut 28.82. Par

conséquent le nombre de clusters inféré par STRUCTURE est 2. Par contre la médiane de la

statistique S du modèle de TESS avec kmax = 2 vaut 14.24. Le DIC de ce modèle vaut 57927, alors

que celui de STRUCTURE vaut 59136. Le modèle de TESS est meilleur que celui de

STRUCTURE. Le modèle spatial de TESS fournit un meilleur ajustement de nos données.

Pour tester la robustesse des modèles sans métissage à détecter la structure génétique de la

population dans le cas où les individus métissés sont présents, nous avons lancé 10 runs dans

chacun des logiciels TESS et STRUCTURE avec kmax = 2. Ces modèles infèrent toujours deux

clusters où le génome de la plupart des individus provient d’une seule population (figures 15 et 16).

Page 24: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 23

Page 25: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 24

Page 26: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 25

V-II-II Trois populations

Nous avons simulé un échantillon de trois populations selon le modèle avec 3 iles. Chacune

de trois iles contient N individus (N grand), et nous disposons des données génotypiques pour 100

locus pour n=100 individus. Le paramètre de migration M entre les 3 iles est égal à 2. Le paramètre

de mutation est égal à 1. Des coordonnées spatiales sont associées aux individus de chaque

population (figure 17). Nous simulons le métissage entre les populations 1 et 3 selon un cline

longitudinal. Notons par "3pop" le nouveau échantillon obtenu après ce métissage.

Nous avons lancé 10 runs indépendants du modèle de métissage de TESS et de

STRUCTURE pour des valeurs de kmax comprises entre 2 et 6. La figure 18 représente la variation

du DIC de chacun des modèles de TESS et de STRUCTURE en fonction de kmax. Nous remarquons

que l’aplatissement de deux courbes correspond à kmax = 3. Le nombre de clusters choisi est 3.

Les modèles de métissage de TESS et de STRUCTURE correspondant à kmax = 3 ont réussi

à détecter la structure génétique de la population qui constitue notre échantillon simulé. Chacun de

deux modèles infère deux populations dans lesquelles les coefficients ancestraux des individus

varient selon un gradient longitudinal, et une troisième population dans laquelle le génome des

individus provient d’une seule origine (figure 19).

Nous procédons à un model checking pour comparer et décider lequel de deux modèles

fournit une meilleur description de nos données. Nous comparons les distributions de la statistique

S de deux modèles suivant les deux premières composantes principales PC1 et PC2 (figures 20 et

21). Nous remarquons qu’aucun de deux modèles n’a réussi à reproduire les données. Les médianes

de la statistique S du modèle de STRUCTURE suivant PC1 et PC2 sont respectivement égales à

6.22 et 7.1, celles du modèle de TESS valent respectivement 20.4 et 10.77. Ces résultats suggèrent

que le meilleur ajustement de notre échantillon est donné par le modèle de STRUCTURE qui

correspond à kmax = 3.

Page 27: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 26

Page 28: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 27

Page 29: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 28

VI. Discussion et conclusion

Au cours de ce stage, nous avons étudié les méthodes de classification bayésienne utilisées

pour détecter la structure génétique des populations. Nous avons utilisé des critères d’information

pour comparer les différents modèles. En particulier le DIC peut être utilisé pour choisir le nombre

optimal de clusters génétiques. La nouvelle méthode de model checking permet de tester si un

modèle peut reproduire les données. Par conséquent elle permet de faire le choix entre plusieurs

modèles alternatifs et de garder le modèle qui décrit le mieux les données.

Toutefois, l’utilisateur (biologiste) de ces logiciels doit être averti que le nombre de clusters

trouvé par les algorithmes de classification bayésienne ne correspond pas nécessairement au vrai

nombre de populations au sens biologique dans notre échantillon (Walpes and Gaggiotti 2006). Par

exemple l'inférence sur la structure de population peut être biasée par le choix d’une stratégie

particulière d'échantillonnage (Schwartz and McKelvey 2009). Détecter la structure de population

dans STRUCTURE dépend de la taille de l'échantillon et du nombre des marqueurs (Patterson et al

2006 ). En particulier, une structure plus fine peut être détectée avec une taille d'échantillon plus

grande.

Nous avons évalué les critères d’information étudiés dans cette mémoire sur trois scénarios

simulés. Dans le modèle en iles, les modèles de métissage et sans métissage de TESS et de

STRUCTURE ont détecté la structure génétique de la population qui constitue l’échantillon. Les

critères d’information n’étaient pas suffisants pour décider du choix de TESS ou de STRUCTURE.

Nous proposons dans ce cas de faire un compromis entre les deux modèles. Nous retenons des

estimations basées sur la moyenne des résultats de ces deux modèles. Dans le scénario cline

longitudinal, nous avons simulé le métissage dans les deux sous-populations avec la fonction

sigmoïde en utilisant les coordonnées spatiales des individus. Il y avait alors une dépendance

spatiale du coefficient de métissage. Pour cette raison, le modèle spatial de TESS a donné un

meilleur ajustement de l’échantillon simulé. Les modèles sans métissage de deux logiciels n’ont pas

détecté le cline. Dans le scénario 3pop, nous avons créé un cline longitudinal entre deux sous-

populations, mais interrompu spatialement par une troisième sous-population. Les coordonnées

géographiques n’ont pas apporté d’information supplémentaire au modèle de TESS. Par contre ils

ont augmenté sa complexité. Ceci explique le fait que le modèle de STRUCTURE a donné une

meilleure description de l’échantillon.

En conclusion de l’étude de simulations, nous avons trouvé que les modèles sans métissage

ne sont pas robustes en présence des individus métissés et aboutissent à des évaluations incorrectes

de la structure génétique de la population étudiée (V-II- I cline longitudinal). En revanche les

modèles de métissage sont robustes même en absence des individus métissés (V-I modèle en iles).

Dans nos simulations, ils peuvent détecter les clines et infèrent correctement le nombre de classes K

(V-II-I cline longitudinal et V-II-II 3pop). Dans le cas où les dépendances spatiales entre les

individus peuvent exister, il nous semble indispensable d’utiliser les informations géographiques de

ces individus. Les modèles spatiaux peuvent fournir une meilleure description de l'échantillon que

les modèles non spatiaux (V-II-I cline longitudinal).

Page 30: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 29

En général, la nouvelle méthode de model checking est utile quand on n’a pas d’information

a priori sur l’existence de tendance spatiale. Elle permet de comparer le modèle spatial de TESS

avec le modèle non spatial de STRUCTURE, les modèles de métissage avec les modèles sans

métissage, et les modèles ayant différentes valeurs de kmax.

Page 31: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 30

Références

Akaike H (1974) A new look at the statistical model identification. IEEE Transaction on Automatic

Control, 19, 716–723.

Balding DJ, Nichols RA (1995) A method for quantifying differentiation between populations at-

multi-allelic loci and its implications for investigating identity and paternity. Genetica, 96, 3–12.

Besag J (1975) Statistical analysis of non-lattice data. Statistician 24, 179-195.

Besag J, Newell J (1991) The detection of clusters in rare diseases. Journal of the Royal Statistical

Society, Series A, 154, 143-55.

Carlin BP, Clark JS, Gelfand AE, Elements of hierarchical Bayesian inference.

Chen C, Durand E, Forbes F, Francois O (2007) Bayesian clustering algorithms ascertaining spatial

population structure: A new computer program and a comparison study. Mol. Ecol. Notes 7:747-

756.

Durand E, Jay F, Gaggiotti OE, Francois O (2009) Spatial inference of admixture proportions and

secondary contact zones. Molecular Biology and Evolution.

Evanno G, Regnaut S, Goudet J (2005) Detecting the number of clusters of individuals using the

software STRUCTURE: a simulation study. Molecular Ecology, 14, 2611–2620.

Francois O, Ancelet S, Guillot G (2006) Bayesian clustering using hidden Markov random fields in

spatial population genetics. Genetics 174:805-816.

Francois O, Durand E (2010) Spatially explicit Bayesian clustering models in population genetics.

Molecular Ecology Resources, in press.

Gelman A, Carlin JB, Stern HS, Rubin DB (2004) Bayesian data analysis. Chapman and Hall/CRC

Press, Boca Raton, Florida.

Hartl DL, Clark AG , Principles of population genetics, Third edition.

Hoggart CJ, Shriver MD, Kittles RA, Clayton DG, McKeigue PM (2004) Design and analysis of

admixture mapping studies. Am. J. Hum. Genet. 74:965-978.

Jombart T, Devillard S, Dufour A-B, Pontier D (2008) Revealing cryptic spatial patterns in genetic

variability by a new multivariate method. Heredity 101:92-103.

Patterson N, Price AL, Reich D (2006) Population structure and eigenanalysis. PLoS Genet. 2:e190.

Pritchard JK, Stephens M, Donnely P (2000) Inference of population structure using multilocus

genotype data. Genetics 155: 945-959.

Schwartz MK, McKelvey KS (2009) Why sampling scheme matters: the effect of sampling scheme

on landscape genetic results. Conservation Genetics, 10, 441–452.

Page 32: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 31

Schwarz GE (1978) Estimating the dimension of a model. Annals of Statistics 6 (2): 461–464.

Spiegelthalter DJ, Best NG, Carlin BP, van der Linde A (2002) Bayesian measures of model

complexity and fit (with discussion). J. Roy. Stat. Soc. B 64:583-639.

Walsh B (2004) Markov chain Monte Carlo and Gibbs sampling. Lecture notes for EEB 581.

Waples RS, Gaggiotti OE (2006) What is a population? An empirical evaluation of some genetic

methods for identifying the number of gene pools and their degree of connectivity Molecular

Ecology, 15, 1419–1439.

Page 33: Rapport de stage - Ali Hajj Hassanali.hajjhassan.free.fr/pdf/rapportstageM2.pdfet tout particulièrement à mes amis intimes qui sont comme des frères : Achraf WEHBE, Moha-med KASSEM

Juin 2010 Page 32

Annexe Données génotypiques multilocus : données contenant la composition allélique des gènes d’une

population, situés sur plusieurs locus.

Equilibre de liaison : Les gènes de locus différents sont associés au hasard dans la population.

Individus diploïdes : individus possédant deux allèles pour chaque gène.

Loi de Hardy-Weinberg : dans une population isolée d’effectif illimité, non soumise à la sélection

et dans laquelle il n’y a pas de mutation, les fréquences alléliques restent constantes. Les fréquences

génotypiques se déduisent des fréquences alléliques : elles restent donc aussi constantes.

MCMC : Les méthodes MCMC sont une classe de méthodes d'échantillonnage à partir de

distributions de probabilité. Ces méthodes se basent sur le parcours de chaînes de Markov qui ont

pour lois stationnaires les distributions à échantillonner.

Algorithme Metropolis-Hasting : c’est une méthode MCMC dont le but est de simuler des

échantillons suivant une certaine distribution p(Θ) où p(Θ) = f(Θ)/K, K est une constante de

normalisation inconnue et très difficile à calculer. L’algorithme est le suivant :

1. Initialiser Θ

0.

2. Proposer Θ* selon un noyau de transition Q(Θ

0, Θ

*).

3. Calculer r = f(Θ*) Q(Θ

*, Θ

0) / f(Θ

0) Q(Θ

0, Θ

*)

4. Si r 1, Θ1 Θ

*. Sinon avec la probabilité r, Θ

1 Θ

*

avec la probabilité 1-r, Θ1 Θ

0

5. Θ0 Θ

1 et aller en 2.

Échantillonnage de Gibbs : c’est une méthode MCMC pour simuler des échantillons suivant une

distribution multivariée à partir des distributions conditionnelles. Soit Θ = (Θ1, Θ2, …, Θk) un vecteur

multidimensionnel des paramètres et y les données. Nous procédons de la façon suivante :

1. Initialiser Θ1

0, …, Θk

0.

2. Repeter pour (t є 1 : T) :

Etape 1 : simuler Θ1t selon P(Θ1/ Θ2

t-1, Θ3

t-1, …, Θk

t-1, y).

Etape 2 : simuler Θ2t selon P(Θ1/ Θ1

t, Θ3

t-1, …, Θk

t-1, y).

.

.

.

Etape k : simuler Θkt selon P(Θk/ Θ1

t, Θ2

t, …, Θk-1

t, y).