24
4.9 Cartographie génétique appliquée à H. sapiens 4.9.1 Maladies transmises de manière mendélienne ... cad causées par une mutation dans un seul gène : on va alors rechercher des marqueurs génétiques qui ségrégent avec la maladie maladie récessive maladie dominante But principal ? Identifier les gènes associés aux maladies génétiques. Deux cas de figure doivent être considérés.

4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

64

4.9 Cartographie génétique appliquée à H. sapiens

4.9.1 Maladies transmises de manière mendélienne

... cad causées par une mutation dans un seul gène : on va alors rechercher des marqueurs génétiques qui ségrégent avec la maladie

maladie récessive maladie dominante

But principal ? Identifier les gènes associés aux maladies génétiques. Deux cas de figure doivent être considérés.

Page 2: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Années 90s : identification de nombreux SSLPs dans le génome humain (et celui de la souris) qui sont ensuite positionnés les uns par rapport aux autres le long des chromosomes en examinant leur transmission au sein des membres d’un grand nombre de familles (1). En parallèle, construction de cartes physiques du génome humain et de celui de la souris.

65

Grâce à l’établissement de ces

cartes génétiques, et à la cartographie physique du génome

humain, la plupart des gènes responsables de maladies à

transmission mendélienne ont pu être identifiés. Comment ?

(1) Exemple : familles de référence du CEPH (Centre d’Etude du Polymorphise Humain) : environ 40 familles ayant en moyenne 8 enfants (-> nombreuses méioses !), et l’ADN est en général disponible sur 3 générations au moins

Page 3: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

66

M1(B,C)

M1(A,C) M1(A,C) M1(A,C) M1(B,B) M1(B,B) M1(B,C)

I

II

III

Ex. maladie provoquée par une mutation dominante : les membres de la famille sont génotypés pour les différents marqueurs, afin d’en trouver un qui est transmis avec la maladie. Ex., génotypage par un marqueur SSLP particulier (M1) à 3 allèles (A, B et C) :

Pour tester cette hypothèse, on examine le génotype des individus III.1 à 6 : la maladie est-elle transmise avec M1A ? Le résultat suggère qu’il n’y a pas de liaison étroite entre le SSLP M1 et le gène car parmi les individus III qui ont développé la maladie (1, 3, 4, 6), il y en a autant qui ont reçu M1B au lieu de M1A, et il en est de même pour ceux qui ne sont pas malades (2, 5)

M1A

M1B

x

Hypothèse testée > individu II.1 :

1 2 3 4 5 6

1 2

M1(A,B) M1(A,C)

M1(A,B) M1A x

II.1 a hérité de sa mère l’allèle mutant, ainsi que l’allèle A du SSLP M1. On teste alors l’hypothèse que le gène responsable de la maladie est proche de ce SSLP, et qu’il aurait donc été transmis à II.1 avec l’allèle A de ce marqueur (M1) :

Page 4: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

67

M89(A,D) M89(B,C)

M89(B,A) M89(C,C)

M89(B,C) M89(A,C) M89(B,C) M89(B,C) M89(A,C) M89(A,C)

I

II

III

Génotypage de la même famille par un autre marqueur SSLP (M89) à 4 allèles (A, B, C et D) : Hypothèse -> le gène responsable de

la maladie est-il lié à ce marqueur M89 ? L’hypothèse est envisageable (M89B semble lié à la maladie), mais à condition de supposer que lors de la méiose chez l’individu II 1 qui a fourni le gamète menant à l’individu III 6, un c/o se soit produit entre M89 et le gène. Néanmoins, une autre interprétation est que l’apparente liaison entre M89 et le gène responsable de la maladie soit fortuite (due au hasard) et due au fait qu’on a examiné un petit nombre d’événements de méiose (6). Il convient dès lors de mesurer le degré de vraisemblance de cette apparente liaison génétique.

M89B

M89A

x

Hypothèse testée > individu II.1 :

1 2 3 4 5 6

1 2

ΙΙΙ1,3,4

ΙΙΙ2,5 gamètes parentaux

(f = 1 – Ɵ)

ΙΙΙ6 gamète

recombinant (f = Ɵ)

M89B

M89A x ξ

c/o

Page 5: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

68

Pour estimer le degré de vraisemblance d’une liaison génétique, les généticiens ont recours au “lod score” (Z) = log10 du “odd score”

probabilité que la transmission observée ait lieu si le marqueur est lié au gène

probabilité que la transmission observée ait lieu si le marqueur n’est pas lié au gène

= “odd score” (1)

(1) score de probabilité

ƟR . (1- Ɵ)P (0.5)(P+R)

= Ɵ = probabilité de transmission d’un gamète recombinant (ou fréq. des recombinants) R = nbre de gamètes recombinants transmis (R = 1 dans l’ex. de la p. 67) 1- Ɵ = probabilité de transmission d’un gamète parental P = nbre de gamètes parentaux transmis (P = 5 dans l’exemple de la p. 67) P + R = nbre total de gamètes transmis, donc de descendants analysés

On ne connait pas la valeur de Ɵ, on sait juste qu’elle est comprise entre 0 et 0,5. On peut donc calculer la valeur du odd score pour différentes valeurs de Ɵ -> dia 69.

Forte liaison Pas de liaison

odd score Z >>1 ≈1

>0 ≈0

“lod score” (Z) = ƟR . (1- Ɵ)P (0.5)(P+R)

log10

Page 6: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

69

Calcul du “lod score” pour l’exemple considéré (p. 68) :

Ɵ

Z

Il est difficile de déterminer de manière statistiquement significative si le gène est véritablement lié au marqueur X en examinant une seule descendance (score Z trop faible). En pratique, les généticiens qui étudient une pathologie génétique donnée examinent plusieurs descendances touchées par la même maladie (au moins 20 évenements de méiose sont nécessaires pour établir fiablement une liaison) -> les valeurs calculées de Z sont ensuite additionnées :

Le score Z le plus élevé (env. 0,64, ce qui reste faible, car proche de 0) est obtenu pour une fréquence de recombinants de env. 0,15 (ou PR = 15%) Autrement dit, en considérant le cas le plus favorable (PR = 15%), on a environ 4,36 fois plus de chances que la transmission observée soit due à une liaison génétique qu’à une non-liaison (car pour Z = 0,64, le odd score = 4,36 )

Page 7: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

70

Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de liaison. Si ΣZ ≽ 3, il y a une forte probabilité (0,95) de liaison. Dans ce cas, on se concentre sur cette région pour localiser plus précisément le gène vis-à-vis des différents marqueurs disponibles dans cette zone chromosomique. Ensuite, on recherche le gène d’intérêt dans la zone cartographiée (même principe qu’aux p. 61 - 63 : carte physique, séquence, ...).

Page 8: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

71

4.9.2 Maladies multifactorielles (“complex diseases”)

- Beaucoup de maladies communes (diabète, m. cardio-vasculaire, m. de Crohn, schizophrénie, hypertension, dépression, ...) sont multifactorielles : le risque de développer ces maladies est influencé par plusieurs gènes (plus précisément, par des allèles particuliers de ces gènes), et parfois aussi par des facteurs environnementaux

- La méthode de cartographie basée sur l’analyse de marqueurs de type SSLP n’est pas efficace pour identifier les gènes conférant une certaine susceptibilité de développer (ou ne pas développer) ce type de maladie

- Méthode de choix pour identifier ces gènes/allèles : rechercher des marqueurs génétiques qui ont tendance à être plus fréquemment présents chez les personnes développant ces maladies : “genome-wide association studies”, GWA

- Ces analyses GWA ont été rendues possibles grâce au développement d’un autre type de marqueur génétique, les SNPs (single nucleotide polymorphisms), dont la densité est beaucoup plus élevée que celle des SSLPs.

- Dernier progrès dans ce domaine : les études GWA se basent de plus en plus sur le séquençage du génome complet des individus (atteints par une maladie)

- Les cartes de SNPs n’ont pu être développées qu’après avoir séquencé intégralement le génome humain. Les SNPs sont ensuite recensés par séquençage de fragments d’ADN issus d’un grand nombre d’individus différents.

Page 9: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Une fois le génome d’une espèce séquencé, on isole l’ADN d’individus de la même espèce pour en séquencer un maximum de fragments (aléatoire). Les séquences ainsi obtenues sont comparées à la séquence génomique complète de référence et les SNPs sont ainsi identifiés et répertoriés le long de chaque chromosome (cartographie au nucléotide près) : c’est simple ! Les SNPs intéressants pour le généticien sont ceux dont l’allèle le moins fréquent est malgré tout suffisamment représenté parmi les individus de l’espèce (f ≥ 1%). Chez H. sapiens, le nombre de SNPs de ce type est d’environ 10 millions, cad 1 SNP tous les 300 pb en moyenne.

4.9.2.1 Comment établir une carte génétique de SNPs ?

allèle 1

allèle 2

…AGTCAGAAATC… …TCAGTCTTTAG…

en général, 2 allèles / SNP

…AGTCAAAAATC… …TCAGTTTTTAG…

72

Rappel : SNP = Single Nucleotide Polymorphism

Ici, G et A

Page 10: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Liste des SNPs répertoriés et validés dans la région codante (ORF) du gène. Par ex., au codon 25, le 3ème nucléotide est G dans la séq. de référence (-> valine) mais peut aussi être A (-> méthionine),

Pour chaque gène humain, la liste des SNPs est aujourd’hui accessible sur internet:

ex. liste des SNPs pour le gène humain

UBE2I « coding » SNP

73

Page 11: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

4.9.2.2 Inventaire des haplotypes humains (projet international HAPMAP)

hot spot

Etablir l’inventaire des SNPs humains, c’est bien. Mais établir l’inventaire des haplotypes, et par la même occasion de la position des "hot spots" de crossing-over, c’est mieux. C’est ce qu’a entrepris le projet HAPMAP, au début des années 2000.

Il existe un nombre limité de versions (haplotypes) de chacune de ces régions chromosomiques, selon les combinaisons de SNPs présentes 74

Page 12: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Donc, grâce au projet HapMap, on a recensé les principaux haplotypes de l’espèce humaine et défini des tSNPs correspondants. Ces sont ces tSNPs qui servent de marqueurs pour identifier des gènes d’intérêt.

Cette région du chr. 2 est représentée par sept principaux haplotypes au sein de la population humaine mondiale (chacun à une fréquence particulière). Pour chaque haplotype, on peut définir un SNP marqueur ou indicateur ("tag SNP", tSNP) (boules dans le schéma) : par ex. si le 4ème SNP chez un individu est la base « T », il s’agit de l'haplotype n°1. Ces tSNPs sont très utiles, il suffit de génotyper ces tSNPs (au lieu des 36) pour déterminer l'haplotype. rem : les " tag SNPs " colorés permettent de distinguer les haplotypes 4 à 7

1

2

3

4

5

6

7

Il est possible de reconstruire la phylogénie des haplotypes

75

Ex. : région du chr. 2 de 8477 pb précédée et suivie de "hot spots " de c/o. Cette région comporte 36 SNPs (cf. bases indiquées) :

Les haplotypes 4 à 7 apparaissent comme

évolutivement proches également

Les haplotypes 2 et 3 apparaissent comme

évolutivement proches

cM/kpb

Page 13: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

76

Comment établir l’inventaire des haplotypes de l’espère humaine, et donc des hot spots de recombinai-son ? Les chercheurs du projet HAPMAP ont génotypé 90 individus et leurs deux parents (donc 270 au total) provenant du Niger, USA, Chine, Japon, EU, .. pour un ensemble de 3,2.106 de SNPs communs.

Principe de la méthode : supposons 6 SNPS consécutifs sur une région chromosomique

SNP 1 2 3 4 5 6Allèle1 a t a g g tAllèle2 g c c t c a

Résultat du génotypage d’une des 90 familles :

1 2 3 4 5 6 1 2 3 4 5 6a t a g g t a c c g c ag c a t c t a c a t c t

1 2 3 4 5 6a c a g g ag t c g c t

Déduction de l'origine parentale des allèles de l'enfant :

1 2 3 4 5 6 1 2 3 4 5 6a t a g g t a c c g c ag c a t c t a c a t c t

1 2 3 4 5 6a c a g g ag t c g c t

mère père

enfant

mère père

enfant

1 2 3 4 5 6

Page 14: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

77

1 2 3 4 5 6 1 2 3 4 5 6a t a g g t a c c g c ag c a t c t a c a t c t

1 2 3 4 5 6a c a g g ag t c g c t

1 2 3 4 5 6 1 2 3 4 5 6chr g t a g g t a c c g c achr a c a t c t a c a t c t

1 2 3 4 5 6g t a g g ta c c g c t

Autre représentation tenant compte des combinaisons d'allèles sur chaque chromosome :

Le génotypage d’une famille permet déjà d’identifier 4 combinaisons de SNPs pour cette région chromosomique.

1 2 3 4 5 6 1 2 3 4 5 6chr a c a t c t g t a g g tchr a c c g c a g t a g g t

1 2 3 4 5 6a c a g c ag t a g g t

Chez certaines familles (petite minorité), on peut identifier un c/o entre deux SNPs : identification d'un hot spot, et donc de deux haplotypes (en 5' et 3' du hot spot) : exemple

Comme on examine un grand nombre de familles, la fréquence des c/o à chaque hot spot peut-être estimée. On peut aussi déduire les haplotypes ainsi qu leur fréquence dans la population.

mère père

enfant

Page 15: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

78 500.000 χασεσ παρ βιοπυχε

βιοπυχε

χηαθυε χασε χοντιεντ δεσ µιλλιονσ δ’εξεµπλαιρεσ

ιδεντιθυεσ δ’υν ολιγονυχλ⎡οτιδε (25 ντ)

Parenthèse méthodologique : quelle technique a-t-elle été utilisée pour génotyper tous ces SNPs ? Il s’agit des biopuces d'ADN ("microarrays", ou microdamiers) qui permet de génotyper rapidement une personne pour un très grand nombre de SNPs répartis dans tout le génome

Page 16: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

25 nt

allèle A

allèle B

Les deux allèles d’un SNP peuvent être représentés par quatre oligonucléotides sur la biopuce (PM = perfect match):

PMA

PMB

Quatre oligonucléotides supplémentaires, comprenant une substitution au niveau du SNP (mismatch), servent de contrôles :

MMA

MMB

sens

antisens

sens

antisens

sens

antisens

sens

antisens

Aucun de ces 4 oligonucléotides n'est parfaitement complémentaire aux allèles A et B, ils ne devraient donc pas s'y hybrider

25 nt Le MMA sens ne peut s'hybrider à l'allèle A antisens

79

GGATACCATGAGAATCGACCACTAG CCTATGGTACTCTTAGCTGGTGATC

GGATACCATGAGCATCGACCACTAG CCTATGGTACTCGTAGCTGGTGATC

GGATACCATGAGTATCGACCACTAG CCTATGGTACTCATAGCTGGTGATC

GGATACCATGAGGATCGACCACTAG CCTATGGTACTCCTAGCTGGTGATC

Page 17: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Principe de l’expérience de génotypage L'ADN d'un individu est purifié, découpé en petits fragments, marqués (par une molécule fluorescente), dénaturé et enfin hybridé à la biopuce. On détecte ensuite, au niveau de chaque case de la biopuce, la présence de molécules fluorescentes (chaque case blanche = un oligonucléotide de la biopuce ayant hybridé à l'ADN marqué). Dans l’exemple de ce SNP, la mère est homozygote pour l’allèle A, le père est homozygote pour l’allèle B, et l’enfant est hétérozygote A/B.

AA BB AB

80

Pour la projet HapMap, les biopuces ont été conçues de manière à pouvoir analyser un total de 3.106 SNPs chez les 270 individus (90 familles). Ensuite, les tSNPs ont été répertoriés. Cela a conduit à la confection de biopuces ne comportant plus que les tSNPs (nettement moins !)

Résultat obtenu pour 1 SNP (8 cases)

Page 18: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Grâce à l’emploi de biopuces pour génotyper les tSNPs (haplotypes)

81

4.9.2.3 Analyse GWAS (genome-wide association studies)

Principe ? Si une variation génétique particulière au sein du génome humain, même rare, augmente le risque de développer une maladie particulière, on peut s’attendre à retrouver cette variation à une fréquence plus élevée parmi les individus atteints de cette maladie (par rapport à ceux qui ne la développent pas), étant entendu que tous les individus malades ne possèdent pas nécessairement cette variation. Or, cette variation génétique sera fatalement située dans un haplotype. On va donc rechercher des haplotypes particuliers qui apparaissent plus fréquemment chez les personnes touchées par cette maladie, dans le but de localiser cette variation.

Page 19: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

L’ADN d’un grand nombre de personnes souffrant par ex. d’une maladie multifactorielle particulière et d’un groupe témoin (personnes saines) est génotypé pour les tSNPs régulière-ment espacés tout le long du génome.

On teste ainsi si la fréquence de chaque haplotype est significativement différente entre les deux groupes (ex. cas du tSNP vert → hypothèse: un gène - ou plutôt un allèle particulier de ce gène – au sein de ce haplotype est associé à la maladie.

f = fréquence d’un haplotype

82

Hypothèses

la mutation (rare) est survenue au sein de l’haplotype identifié ou elle correspond à un SNP particulier propre à

cet haplotype

?

?

haplotype identifié

Page 20: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

On constate qu’une dizaine de groupes d’haplotypes, répartis sur diff. chromosomes, se retrouvent plus fréquemment chez les personnes atteintes de la maladie de Crohn. Dans plusieurs cas, le groupe d’haplotype “tombe” au sein d’un gène bien précis (ex. IL23R sur le chr. I ou CARD15 sur le chr. 16). Cela signifie que certains allèles de ces gènes (dont des SNPs !) confèrent un risque accru de développer la maladie.

Pour chaque tSNP ou haplotype, on teste si la liaison à la maladie est statistiquement significative (si valeur de SL ≥5 , alors la liaison est considérée comme hautement significative).

chaque point corres- pond à un tSNP

Ex. de maladie polygénique : maladie de Crohn

83

NOD2

Page 21: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

Le tSNP le plus significatif (rs11209032) correspond à un haplotype assez rare (f = 0,067) qui contient un polymorphisme unique (G > A) provoquant le remplacement d’un aa arginine (Arg) par une glutamine (Gln) au codon n°381 du gène ILR23R. Hypothèse : cette mutation augmente le risque de développer la maladie de Crohn

Le gène IL23R (récepteur de l’interleukine 23) contient un très grand nombre de SNP (629 dans l’unité de trans-cription) et présente qqes dizaines d'haplo-types (points = t-SNP) entre deux hot spots de recombinai-son (graphe en bleu)

84

Page 22: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

85

Page 23: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

139 associations génétiques recensées (fin 2008) 86

Page 24: 4.9 Cartographie génétique appliquée à H. sapiens · 2019-08-05 · Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de

87

4.9.2.4 Dernière tendance : analyse GWAS (genome-wide association studies) par séquençage NGS

Le génome de toutes les personnes (groupe test et groupe témoin) est séquencé (méthod NGS), et les analyses bioinformatiques recherchent les variations génétiques associées, de manière statistiquement significative, au groupe de malades.

Etudes actuellement en cours :

Ex. projet UK10K (www.uk10k.org): séquençage du génome de 10.000 individus : 4000 individus sains, 6000 individus porteurs de pathologies diverses http://www.uk10k.org

différentes pathologies