40
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

Embed Size (px)

Citation preview

Page 1: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

1

La détection de gènes impliqués dans

les maladies multifactorielles

Marie-Pierre EtienneENGREF Laboratoire GRESE

Statistique et Génome

Page 2: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

2

Maladies Multifactorielles

plusieurs facteurs plusieurs gènes

Psoriasis, sclérose en plaques, polyarthrite rhumatoïde

Réduire le nombre de gènes à tester

L ’étude familiale

Un échantillon de couples de germains maladesUn individu est un couple de germains

Détecter les zones de fort partage génétique entre deux germains

Une approche exploratoire

Page 3: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

3

Trois notions clé

Les recombinaisons : la méïose

Les marqueurs génétiques : allèles

La valeur IBD (Identical By Descent)

Page 4: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

4

1 2 3 4

1 3 1 4 2 3 2 4

Trois notions clé

Les lois de Mendel

1/4 1/4 1/41/4

Les recombinaisons : la méïose

Page 5: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

5

Trois notions clé

Les recombinaisons

Les recombinaisons : la méïose

Page 6: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

6

Page 7: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

7

Trois notions clé

Les recombinaisons

Les recombinaisons : la méïose

Page 8: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

8

Trois notions clé

Deux gènes occupant le même locus sur une paire de chromosomes mais qui présentent de légères différences sont appelés allèles

Un marqueur est une séquence d'ADN repérable spécifiquement. En cartographie génétique, le marqueur est utilisé pour baliser le génome. On sait facilement les séquencer et les positionner physiquement sur le génome

(ex : micro-satellites, SNP)

Les marqueurs génétiques : allèles

Page 9: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

9

Trois notions clé

La distance séparant deux marqueurs peut s ’exprimer

- en nombre de bases

- en Morgan (M)

Une distance de 1cM = la probabilité qu ’il y ait recombinaison entre les deux marqueurs est 0.01

Dans notre étude les marqueurs sont régulièrement espacées de p Morgans (sur les données p=0.04)

Les marqueurs génétiques : allèles

Page 10: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

10

Trois notions clé

La valeur IBD (Identical By Descent)

Page 11: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

11

Le modèle mathématique

Selon les lois de Mendel

et si l ’on suppose que les recombinaisons sont indépendantes

On peut modéliser la succession des valeurs IBD le long d ’un chromosome par une chaîne de Markov homogène

Pour un individu :

X1 X2 X3 …… Xn

est une chaîne de Markov homogène de matrice de transition et de mesure stationnaire

Page 12: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

12

Le modèle mathématique

Selon les lois de Mendel

42243322

33422433

22334224

2444

22622

4442

pqpqqppqqp

qppqpqpqqppq

qpqppqpqpq

A

)4

1,

2

1,

4

1(

Avec p = distance entre 2 marqueurs, q=1-p

Page 13: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

13

Transition de 2 vers …. A(2,.)

Page 14: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

14

Le modèle mathématique

Selon les lois de Mendel, sur un chromosome

Pour nos N individus

)()(1

)(1

)(1

)1()1(2

)1(1

)2()2(2

)2(1

)1()1(1

)1(2

)1(1

Nn

Nn

NN

Nn

NN

n

nn

XXXX

XXX

XXX

XXXX

Page 15: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

15

But de l’approche exploratoire

Détecter de zones fortement IBD2

Pourquoi ?

Les deux germains sont malades:les gènes impliqués se situent probablement dans une zone fortement IBD2, en tout cas pas dans une zone IBD0.

Page 16: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

16

Détecter de zones fortement IBD2

1 0 0 1 0 0 0 1 1 0 1 2 2 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

Page 17: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

17

Détecter de zones fortement IBD2

1 0 0 1 0 0 0 1 1 0 1 2 2 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

Page 18: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

18

Le score local, c’est quoi ?

jiij

nj

jinji

n

k

jjk

SS

ZZHH

ZSS

11

10

10

minmax

max,0

.,0

L ’approche score local

En clair, on cherche parmi tous les sous segments, celui qui a le score maximal

Si Zi est le score élémentaire à la position i, on définit

H0 : « l ’échantillon suit les lois de Mendel »H1 : « le reste du monde »

On va tester :

Page 19: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

19

L ’approche score local

nn

Nn

Nn

NN

Nn

NN

n

nn

ZZZZ

YYYY

YYY

YYY

YYYY

121

)()(1

)(1

)(1

)1()1(2

)1(1

)2()2(2

)2(1

)1()1(1

)1(2

)1(1

Y(j)i=f(X (j) i)

ExempleIBD0=-3IBD1=-1IBD2=4

Zi est appelé le score élémentaire

Page 20: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

20

Détecter de zones fortement IBD2

-3 -1 -3 -3 -3 -1 -1 -3 -1 4 4 -1 4 4 4 4 -1 -1 -3 -1 -1

-3 -1 -1 -1 -3 -3 -3 -3 -1 4 4 4 4 -1 4 4 -1 -3 -3 -1 -1

-1 -1 -3 -1 -1 -1 -1 -3 -1 4 4 -1 4 4 4 4 4 -1 -3 -3 -1

4 -1 -3 -3 -3 -1 -1 -3 -1 -1 4 4 4 4 4 4 -1 -1 -3 -1 -1

4 -1 -3 -3 -1 -1 -1 -3 -1 4 4 -1 4 4 4 4 4 -1 -1 -1 -1

1 -5 -13 -11 -11 -7 -7 -15 -5 15 20 5 20 15 20 20 5 -7 -13 -7 -5

Page 21: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

21

Le processus Sn

Marche aléatoire

-80

-60

-40

-20

0

20

40

60

1 3 5 7 9 11 13 15 17 19 21 score

Page 22: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

22

Sj-min{i<j}Si

0

20

40

60

80

100

120

140

1 3 5 7 9 11 13 15 17 19 21

Page 23: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

23

Une approche exacte (Mercier 2003)

Si Xi est une chaîne de Markov sur un espace E, on peut déterminer P(Hn>a) à partir d’une seconde chaîne de Markov définie sur l’espace E x {0, …, a}.

Ici : pour avoir une chaîne de Markov, on doit considérer

(Zi, Y(1)i, … , Y(N)

i) d’espace d’états

E={f(0)N … f(2)N} x {f(0), f(1), f(2)}N

#E=C N 3N

La significativité pour Mendel

Page 24: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

24

Une approche asymptotique, si la mesure stationnaire des Yi est centrée

aBPan

HP

nn

*1

La significativité pour Mendel

2

12

12 2

nnZZEZE

Avec

Page 25: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

25

La significativité pour Mendel

Et alors, qu ’est-ce qu ’on fait maintenant ?

On simule !!!

Page 26: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

26

L ’approche score local

H0 : « l ’échantillon suit les lois de Mendel »H1 : « le reste du monde »

Chr Localisation P-Value Chr Localisation P-Value 1 6-11 0.488 12 1-11 0.046 2 19-34 0.008 13 13-29 0.038 3 31-39 0.136 14 29-30 0.67 4 1-8 0.48 15 1 0.512 5 39-43 0.195 16 11-23 0.076 6 8-19 0.015 17 1-3 0.44 7 35-36 0.461 18 14-26 0.047 8 8-9 0.695 19 13-17 0.483 9 39-40 0.749 20 1-2 0.259

10 27-29 0.69 21 10-11 0.47 11 - 1 22 1-4 0.074

Page 27: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

27

L ’approche score localLes limites

On a fixé des scores arbitraires pour les valeurs IBDde façon à mettre en évidence la région HLA du chromosome 6

On ne peut trouver que des régions dont lastructure est similaire à celle de HLA

Page 28: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

28

L ’approche bayésienne

Deux modèles M0 et M1

1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

M0 le modèle de Mendel

Page 29: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

29

L ’approche bayésienne

Deux modèles M0 et M1

1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

Page 30: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

30

L ’approche bayésienne

Deux modèles M0 et M1

1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

Page 31: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

31

L ’approche bayésienne

Deux modèles M0 et M1

1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1

0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1

1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1

2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1

0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0

Page 32: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

32

L ’approche bayésienneconstruction du modèle

Page 33: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

33

L ’approche bayésienneconstruction du modèle

Page 34: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

34

L ’approche bayésienneconstruction du modèle

Page 35: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

35

Xi

(j)

L ’approche bayésienneconstruction du modèle

j

Page 36: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

36

L ’approche bayésienne

[ a priori [ a priori B(a priori U({1,...,n

Page 37: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

37

L ’approche bayésienne

Principe de l’algorithme de Gibbs : on veut simuler la loi de[12X

1. On tire dans [1]etselon 2. On tire selon [1 | 2

(0) , X]3. On tire selon [ | 1

(1) , X]4. On recommence en 2.

Quand on a atteint la convergence pour la chaîne de Markov ainsi définie, on obtient un échantillon de la loi voulue

Page 38: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

38

L ’approche bayésienne Les résultats

Région HLA K6

Page 39: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

39

L ’approche bayésienne Les résultats

K14 Rien à voir

Page 40: 1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome

40

L ’approche bayésienne Les résultats

K4 à exploiter