Upload
yasmina-legros
View
103
Download
0
Embed Size (px)
Citation preview
1
La détection de gènes impliqués dans
les maladies multifactorielles
Marie-Pierre EtienneENGREF Laboratoire GRESE
Statistique et Génome
2
Maladies Multifactorielles
plusieurs facteurs plusieurs gènes
Psoriasis, sclérose en plaques, polyarthrite rhumatoïde
Réduire le nombre de gènes à tester
L ’étude familiale
Un échantillon de couples de germains maladesUn individu est un couple de germains
Détecter les zones de fort partage génétique entre deux germains
Une approche exploratoire
3
Trois notions clé
Les recombinaisons : la méïose
Les marqueurs génétiques : allèles
La valeur IBD (Identical By Descent)
4
1 2 3 4
1 3 1 4 2 3 2 4
Trois notions clé
Les lois de Mendel
1/4 1/4 1/41/4
Les recombinaisons : la méïose
5
Trois notions clé
Les recombinaisons
Les recombinaisons : la méïose
6
7
Trois notions clé
Les recombinaisons
Les recombinaisons : la méïose
8
Trois notions clé
Deux gènes occupant le même locus sur une paire de chromosomes mais qui présentent de légères différences sont appelés allèles
Un marqueur est une séquence d'ADN repérable spécifiquement. En cartographie génétique, le marqueur est utilisé pour baliser le génome. On sait facilement les séquencer et les positionner physiquement sur le génome
(ex : micro-satellites, SNP)
Les marqueurs génétiques : allèles
9
Trois notions clé
La distance séparant deux marqueurs peut s ’exprimer
- en nombre de bases
- en Morgan (M)
Une distance de 1cM = la probabilité qu ’il y ait recombinaison entre les deux marqueurs est 0.01
Dans notre étude les marqueurs sont régulièrement espacées de p Morgans (sur les données p=0.04)
Les marqueurs génétiques : allèles
10
Trois notions clé
La valeur IBD (Identical By Descent)
11
Le modèle mathématique
Selon les lois de Mendel
et si l ’on suppose que les recombinaisons sont indépendantes
On peut modéliser la succession des valeurs IBD le long d ’un chromosome par une chaîne de Markov homogène
Pour un individu :
X1 X2 X3 …… Xn
est une chaîne de Markov homogène de matrice de transition et de mesure stationnaire
12
Le modèle mathématique
Selon les lois de Mendel
42243322
33422433
22334224
2444
22622
4442
pqpqqppqqp
qppqpqpqqppq
qpqppqpqpq
A
)4
1,
2
1,
4
1(
Avec p = distance entre 2 marqueurs, q=1-p
13
Transition de 2 vers …. A(2,.)
14
Le modèle mathématique
Selon les lois de Mendel, sur un chromosome
Pour nos N individus
)()(1
)(1
)(1
)1()1(2
)1(1
)2()2(2
)2(1
)1()1(1
)1(2
)1(1
Nn
Nn
NN
Nn
NN
n
nn
XXXX
XXX
XXX
XXXX
15
But de l’approche exploratoire
Détecter de zones fortement IBD2
Pourquoi ?
Les deux germains sont malades:les gènes impliqués se situent probablement dans une zone fortement IBD2, en tout cas pas dans une zone IBD0.
16
Détecter de zones fortement IBD2
1 0 0 1 0 0 0 1 1 0 1 2 2 1 2 2 2 2 1 1 0 1 1 0 1
0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1
1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1
2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1
0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0
17
Détecter de zones fortement IBD2
1 0 0 1 0 0 0 1 1 0 1 2 2 1 2 2 2 2 1 1 0 1 1 0 1
0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1
1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1
2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1
0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0
18
Le score local, c’est quoi ?
jiij
nj
jinji
n
k
jjk
SS
ZZHH
ZSS
11
10
10
minmax
max,0
.,0
L ’approche score local
En clair, on cherche parmi tous les sous segments, celui qui a le score maximal
Si Zi est le score élémentaire à la position i, on définit
H0 : « l ’échantillon suit les lois de Mendel »H1 : « le reste du monde »
On va tester :
19
L ’approche score local
nn
Nn
Nn
NN
Nn
NN
n
nn
ZZZZ
YYYY
YYY
YYY
YYYY
121
)()(1
)(1
)(1
)1()1(2
)1(1
)2()2(2
)2(1
)1()1(1
)1(2
)1(1
Y(j)i=f(X (j) i)
ExempleIBD0=-3IBD1=-1IBD2=4
Zi est appelé le score élémentaire
20
Détecter de zones fortement IBD2
-3 -1 -3 -3 -3 -1 -1 -3 -1 4 4 -1 4 4 4 4 -1 -1 -3 -1 -1
-3 -1 -1 -1 -3 -3 -3 -3 -1 4 4 4 4 -1 4 4 -1 -3 -3 -1 -1
-1 -1 -3 -1 -1 -1 -1 -3 -1 4 4 -1 4 4 4 4 4 -1 -3 -3 -1
4 -1 -3 -3 -3 -1 -1 -3 -1 -1 4 4 4 4 4 4 -1 -1 -3 -1 -1
4 -1 -3 -3 -1 -1 -1 -3 -1 4 4 -1 4 4 4 4 4 -1 -1 -1 -1
1 -5 -13 -11 -11 -7 -7 -15 -5 15 20 5 20 15 20 20 5 -7 -13 -7 -5
21
Le processus Sn
Marche aléatoire
-80
-60
-40
-20
0
20
40
60
1 3 5 7 9 11 13 15 17 19 21 score
22
Sj-min{i<j}Si
0
20
40
60
80
100
120
140
1 3 5 7 9 11 13 15 17 19 21
23
Une approche exacte (Mercier 2003)
Si Xi est une chaîne de Markov sur un espace E, on peut déterminer P(Hn>a) à partir d’une seconde chaîne de Markov définie sur l’espace E x {0, …, a}.
Ici : pour avoir une chaîne de Markov, on doit considérer
(Zi, Y(1)i, … , Y(N)
i) d’espace d’états
E={f(0)N … f(2)N} x {f(0), f(1), f(2)}N
#E=C N 3N
La significativité pour Mendel
24
Une approche asymptotique, si la mesure stationnaire des Yi est centrée
aBPan
HP
nn
*1
La significativité pour Mendel
2
12
12 2
nnZZEZE
Avec
25
La significativité pour Mendel
Et alors, qu ’est-ce qu ’on fait maintenant ?
On simule !!!
26
L ’approche score local
H0 : « l ’échantillon suit les lois de Mendel »H1 : « le reste du monde »
Chr Localisation P-Value Chr Localisation P-Value 1 6-11 0.488 12 1-11 0.046 2 19-34 0.008 13 13-29 0.038 3 31-39 0.136 14 29-30 0.67 4 1-8 0.48 15 1 0.512 5 39-43 0.195 16 11-23 0.076 6 8-19 0.015 17 1-3 0.44 7 35-36 0.461 18 14-26 0.047 8 8-9 0.695 19 13-17 0.483 9 39-40 0.749 20 1-2 0.259
10 27-29 0.69 21 10-11 0.47 11 - 1 22 1-4 0.074
27
L ’approche score localLes limites
On a fixé des scores arbitraires pour les valeurs IBDde façon à mettre en évidence la région HLA du chromosome 6
On ne peut trouver que des régions dont lastructure est similaire à celle de HLA
28
L ’approche bayésienne
Deux modèles M0 et M1
1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1
0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1
1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1
2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1
0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0
M0 le modèle de Mendel
29
L ’approche bayésienne
Deux modèles M0 et M1
1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1
0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1
1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1
2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1
0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0
30
L ’approche bayésienne
Deux modèles M0 et M1
1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1
0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1
1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1
2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1
0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0
31
L ’approche bayésienne
Deux modèles M0 et M1
1 0 0 1 0 0 0 1 1 0 1 2 1 1 2 2 2 2 1 1 0 1 1 0 1
0 1 0 1 1 1 0 0 0 0 1 2 2 2 2 1 2 2 1 0 0 1 1 1 1
1 1 1 1 0 1 1 1 1 0 1 2 2 1 2 2 2 2 2 1 0 0 1 1 1
2 2 2 1 0 0 0 1 1 0 1 1 2 2 2 2 2 2 1 1 0 1 1 0 1
0 0 2 1 0 0 1 1 1 0 1 2 2 1 2 2 2 2 2 1 1 1 1 0 0
32
L ’approche bayésienneconstruction du modèle
33
L ’approche bayésienneconstruction du modèle
34
L ’approche bayésienneconstruction du modèle
35
Xi
(j)
L ’approche bayésienneconstruction du modèle
j
36
L ’approche bayésienne
[ a priori [ a priori B(a priori U({1,...,n
37
L ’approche bayésienne
Principe de l’algorithme de Gibbs : on veut simuler la loi de[12X
1. On tire dans [1]etselon 2. On tire selon [1 | 2
(0) , X]3. On tire selon [ | 1
(1) , X]4. On recommence en 2.
Quand on a atteint la convergence pour la chaîne de Markov ainsi définie, on obtient un échantillon de la loi voulue
38
L ’approche bayésienne Les résultats
Région HLA K6
39
L ’approche bayésienne Les résultats
K14 Rien à voir
40
L ’approche bayésienne Les résultats
K4 à exploiter