1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

1

La détection de gènes impliqués dans

les maladies multifactorielles

Marie-Pierre EtienneENGREF Laboratoire GRESE

Statistique et Génome

2

Maladies Multifactorielles

plusieurs facteurs plusieurs gènes

Psoriasis, sclérose en plaques, polyarthrite rhumatoïde

Réduire le nombre de gènes à tester

L ’étude familiale

Un échantillon de couples de germains maladesUn individu est un couple de germains

Détecter les zones de fort partage génétique entre deux germains

Une approche exploratoire

3

Trois notions clé

Les recombinaisons : la méïose

Les marqueurs génétiques : allèles

La valeur IBD (Identical By Descent)

4

1 2 3 4

1 3 1 4 2 3 2 4

Trois notions clé

Les lois de Mendel

1/4 1/4 1/41/4


5

Trois notions clé

Les recombinaisons


6

7

Trois notions clé

Les recombinaisons


8

Trois notions clé

Deux gènes occupant le même locus sur une paire de chromosomes mais qui présentent de légères différences sont appelés allèles

Un marqueur est une séquence d'ADN repérable spécifiquement. En cartographie génétique, le marqueur est utilisé pour baliser le génome. On sait facilement les séquencer et les positionner physiquement sur le génome

(ex : micro-satellites, SNP)


9

Trois notions clé

La distance séparant deux marqueurs peut s ’exprimer

- en nombre de bases

- en Morgan (M)

Une distance de 1cM = la probabilité qu ’il y ait recombinaison entre les deux marqueurs est 0.01

Dans notre étude les marqueurs sont régulièrement espacées de p Morgans (sur les données p=0.04)


10

Trois notions clé

La valeur IBD (Identical By Descent)

11

Le modèle mathématique

Selon les lois de Mendel

et si l ’on suppose que les recombinaisons sont indépendantes

On peut modéliser la succession des valeurs IBD le long d ’un chromosome par une chaîne de Markov homogène

Pour un individu :

X1 X2 X3 …… Xn

est une chaîne de Markov homogène de matrice de transition et de mesure stationnaire

12


Selon les lois de Mendel

42243322

33422433

22334224

2444

22622

4442

pqpqqppqqp

qppqpqpqqppq

qpqppqpqpq

A

)4

1,

2

1,

4

1(

Avec p = distance entre 2 marqueurs, q=1-p

13

Transition de 2 vers …. A(2,.)

14


Selon les lois de Mendel, sur un chromosome

Pour nos N individus

)()(1

)(1

)(1

)1()1(2

)1(1

)2()2(2

)2(1

)1()1(1

)1(2

)1(1

Nn

Nn

NN

Nn

NN

n

nn

XXXX

XXX

XXX

XXXX

15

But de l’approche exploratoire

Détecter de zones fortement IBD2

Pourquoi ?

Les deux germains sont malades:les gènes impliqués se situent probablement dans une zone fortement IBD2, en tout cas pas dans une zone IBD0.

16


1 0 0 1 0 0 0 1 1 0 1 2 2 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

17


1 0 0 1 0 0 0 1 1 0 1 2 2 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

18

Le score local, c’est quoi ?

jiij

nj

jinji

n

k

jjk

SS

ZZHH

ZSS

11

10

10

minmax

max,0

.,0

L ’approche score local

En clair, on cherche parmi tous les sous segments, celui qui a le score maximal

Si Zi est le score élémentaire à la position i, on définit

H0 : « l ’échantillon suit les lois de Mendel »H1 : « le reste du monde »

On va tester :

19


nn

Nn

Nn

NN

Nn

NN

n

nn

ZZZZ

YYYY

YYY

YYY

YYYY

121

)()(1

)(1

)(1

)1()1(2

)1(1

)2()2(2

)2(1

)1()1(1

)1(2

)1(1

Y(j)i=f(X (j) i)

ExempleIBD0=-3IBD1=-1IBD2=4

Zi est appelé le score élémentaire

20


-3 -1 -3 -3 -3 -1 -1 -3 -1 4 4 -1 4 4 4 4 -1 -1 -3 -1 -1

-3 -1 -1 -1 -3 -3 -3 -3 -1 4 4 4 4 -1 4 4 -1 -3 -3 -1 -1

-1 -1 -3 -1 -1 -1 -1 -3 -1 4 4 -1 4 4 4 4 4 -1 -3 -3 -1

4 -1 -3 -3 -3 -1 -1 -3 -1 -1 4 4 4 4 4 4 -1 -1 -3 -1 -1

4 -1 -3 -3 -1 -1 -1 -3 -1 4 4 -1 4 4 4 4 4 -1 -1 -1 -1

1 -5 -13 -11 -11 -7 -7 -15 -5 15 20 5 20 15 20 20 5 -7 -13 -7 -5

21

Le processus Sn

Marche aléatoire

-80

-60

-40

-20

0

20

40

60

1 3 5 7 9 11 13 15 17 19 21 score

22

Sj-min{i<j}Si

0

20

40

60

80

100

120

140

1 3 5 7 9 11 13 15 17 19 21

23

Une approche exacte (Mercier 2003)

Si Xi est une chaîne de Markov sur un espace E, on peut déterminer P(Hn>a) à partir d’une seconde chaîne de Markov définie sur l’espace E x {0, …, a}.

Ici : pour avoir une chaîne de Markov, on doit considérer

(Zi, Y(1)i, … , Y(N)

i) d’espace d’états

E={f(0)N … f(2)N} x {f(0), f(1), f(2)}N

#E=C N 3N

La significativité pour Mendel

24

Une approche asymptotique, si la mesure stationnaire des Yi est centrée

aBPan

HP

nn

*1


2

12

12 2

nnZZEZE

Avec

25


Et alors, qu ’est-ce qu ’on fait maintenant ?

On simule !!!

26


H0 : « l ’échantillon suit les lois de Mendel »H1 : « le reste du monde »

Chr Localisation P-Value Chr Localisation P-Value 1 6-11 0.488 12 1-11 0.046 2 19-34 0.008 13 13-29 0.038 3 31-39 0.136 14 29-30 0.67 4 1-8 0.48 15 1 0.512 5 39-43 0.195 16 11-23 0.076 6 8-19 0.015 17 1-3 0.44 7 35-36 0.461 18 14-26 0.047 8 8-9 0.695 19 13-17 0.483 9 39-40 0.749 20 1-2 0.259

10 27-29 0.69 21 10-11 0.47 11 - 1 22 1-4 0.074

27

L ’approche score localLes limites

On a fixé des scores arbitraires pour les valeurs IBDde façon à mettre en évidence la région HLA du chromosome 6

On ne peut trouver que des régions dont lastructure est similaire à celle de HLA

28

L ’approche bayésienne

Deux modèles M0 et M1

1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

M0 le modèle de Mendel

29



1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

30



1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

31



1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

32

L ’approche bayésienneconstruction du modèle

33


34


35

Xi

(j)


j

36


[ a priori [ a priori B(a priori U({1,...,n

37


Principe de l’algorithme de Gibbs : on veut simuler la loi de[12X

1. On tire dans [1]etselon 2. On tire selon [1 | 2

(0) , X]3. On tire selon [ | 1

(1) , X]4. On recommence en 2.

Quand on a atteint la convergence pour la chaîne de Markov ainsi définie, on obtient un échantillon de la loi voulue

38

L ’approche bayésienne Les résultats

Région HLA K6

39


K14 Rien à voir

40


K4 à exploiter

Documents

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome