ED1 Méthodes d’exploration des gènes et des protéines

Page .. sur …

UE1 Bases moléculaires et cellulaires des pathologies

Jeudi 18/10/2018 de 8h30 à 10h30

Ronéotypeur : Louis Delanoue

Ronéoficheur : Charles-Edmond Cherabieh

ED1

Méthodes d’exploration des gènes et des protéines

Ronéo 4, ED1, UE1 Page 1 sur 12

Page .. sur …

Sommaire

I. Introduction : Les anomalies des gènes ou du génome

A) Rappel sur l’ADN

B) Les types d’anomalies

II. Le séquençage par NGS

A) Préparation des librairies

B) Le clustering

C) Le séquençage

D) Alignement et analyse des données

E) Les différents séquenceurs

F) Résumé du séquençage par NGS

III. Hybridation génomique comparative sur puce (CGH-array)

IV. Cheminement pour isoler un gène impliqué dans une maladie


Page .. sur …

I. Introduction

A) Rappel sur l’ADN

L’ADN est la molécule de support de l’information génétique des individus. Il peut être transcrit en ARN qui lui

même peut être traduit en protéine

Des perturbations peuvent entrainer des mutations dans le génome. Les mutations

peuvent touchés l’information génétique à tous les stades : ADN, ARN, protéines

Pour comprendre le fonctionnement de l’information génétique, des études

fondamentales ont été réalisées afin de connaître le rôle d’un gène, d’un transcrit,

d’une protéine. Ces études ont précédé la recherche clinique qui elle explique leurs rôles dans la physiopathologie

des maladies humaines. On peut s’appuyer sur ces deux types de recherches pour réaliser un diagnostic en

recherchant un gène, un biomarqueur d’une pathologie humaine.

B) Les types d’anomalies

Concernant l’ADN :

Il existe deux types d’anomalies :

- Les anomalies qualitatives : SNV(single nucleotide variant),

mutations ponctuelles, insertions/délétions -> pour pouvoir

réaliser le diagnostic on va les repérer par séquençage.

- Les anomalies quantitatives : aneuploïdie, duplications et

délétions de grandes parties du génomes -> repérées par CHG-

array et caryotype.

Concernant l’ARN :

- Il existe des problèmes touchant son expression : absence

d’expression (pas de protéine), surexpression/sous expression

(trop ou pas assez de protéine) -> repérés par RT-qPCR (reverse

transcriptase quantitative Polymerase chain reaction : on repasse

de l’ARN (trop fragile) à l’ADN pour l’étudier et chercher la

mutation)

Concernant les protéines :

Il existe deux types d’anomalies :

- Les anomalies qualitatives : localisation cellulaire, fonction ->

repérées par IF( immunofluorescence) , Co-IP(co-

immunoprecipitation), WB(western-blot)

- Les anomalies quantitatives : absence, surexpression/sous

expression -> repérées par WB(western-blot), CMF(cytométrie en

flux)

II. Le séquençage par NGS

Le séquençage NGS est une méthode qui permet de déterminer l’enchaînement des nucléotides d’un fragment

d’ADN. Le NGS (next generation sequencing) est la technique la plus utilisée aujourd’hui pour séquencer l’ADN.

Cette dernière est un moyen efficace pour détecter des anomalies dans le génome d’un patient, afin de pouvoir

mieux connaitre sa patologie. Elle se déroule en plusieurs étapes, réalisées par une machine.


Page .. sur …

A) Préparation des librairies

On va prendre l’ADN génomique (tout l’ADN, pas de partie sélectionnée) du patient, on va le fragmenter et le

dénaturer en ADN simple brin.

À chaque extrémité de tous nos fragments, on va venir attacher des adaptateurs, c’est la ligation.

Ces deux étapes vont nous donner une librairie pour séquençage : qui correspond à l’ensemble des fragments

d’ADN lié aux deux adaptateurs (un à chaque extrémité)

Définition d’une flowcell : lame de verre où sont accrochées des

séquences complémentaires aux adaptateurs, relativement epacées

sur la surface.

La librairie de séquençage va être placée sur le flowcell, et les

adaptateurs vont venir s’accrocher sur leurs séquences

complémentaires fixées sur ce flowcell (des deux cotés du fragment

d’ADN).

La solution a été préalablement très diluée afin que les fragments

soient disposés de façon aléatoire, homogène, sur toute la surface du

flowcell et pas trop rapprochés les uns avec les autres.

B) Le clustering

Rappel sur la PCR : la PCR ou polymerase chain reaction est une technique d’amplification enzymatique qui

permet à partir d’un fragment d’ADN, d’obtenir un grand nombre de copies identiques de ce même fragment.

On va réaliser une PCR par pont (le fragment rattaché des deux

cotés par un adapteur au flowcell ressemble à une sorte de pont),

l’adaptateur du fragment accroché au flowcell va servir d’amorce,

pour faire un double du fragment (principe du PCR). Les

adaptateurs vont se décrocher du flowcell, puis recommence un

nouveau cycle de PCR.

Le brin s’accroche et se décroche en fonction de la température.

Cela va créer des clusters : sur chaque endroit où une séquence est

accrochée, on ne va amplifier que cette séquence la. Chaque cluster

va être spécifique d’un seul fragment d’ADN et tous les clusters

sont totalement différents.


Page .. sur …

C) Le Séquençage

Une fois les clusters réalisés, on va pouvoir commencer le séquençage.

Il se déroule en 4 étapes qui vont se répéter jusqu’à avoir le séquence de chaque cluster.

- On commence par l’ajout des 4 dNTP couplés chacun à un

fluorochrome différent. Ces nucléotides vont s’incorporer à la

suite de l’adaptateur, le fluorochrome bloque l’extension.

Comme dans un cluster tous les brins sont identiques, ils vont

tous s’arrêter sur le même nucléotide.

- Vient ensuite l’étape du lavage. Elle consiste en l’élimination des nuclétides en excès, non incorporés aux

fragments d’ADN.

- Une photo va être prise sur le flowcell, les clusters vont prendre différentes couleurs en fonction du dernier

dNTP incorporé et ainsi être reconnus par la machine.

- On va mettre sur le flowcell une solution qui va éliminer le fluorochrome :Réaction de clivage du

groupement fluorescent bloquant l’extension.

- Une le clivage réalisé, on retourne à l’étape 1 : incorporation des 4 dNTP dans la solution, lavage, photo,

clivage …

Les clusters font 150 paires de bases. On va faire 150 cycles dans les deux sens, soit 300 photos, chaque cluster va

être regardé 300 fois. On regarde ensuite les images les unes après les autres pour avoir notre séquence complète

pour chaque cluster.

D) Alignement et analyses des données

On passe ensuite à l’étape d’analyse. Toutes les séquences sont alignées les unes avec les autres sur un génome de

référence. L’appareil va repérer le chevauchement des séquences entre elles et va nous indiquer comment elles

s’appareillent. Il va lire les séquences 150 fois dans un sens, 150 fois dans l’autre, ce qui va permettre d’éliminer

les erreurs dans le séquençage (Erreur possible durant la PCR, mais ponctuelle).

Une fois cette étape réalisée, on se retrouve avec le génome entièrement séquencé, prêt à être analysé.


Page .. sur …

E) Les différents séquenceurs

Il existe différents types de séquenceur :

Le génome humaine est constitué de 3 milliards de paires de bases. Pour réaliser un séquençage complet du

génome il faut au moins un séquenceur « NextSeq »

Si on recherche quelque chose de très particulier on peut partir sur des machines plus petites

F) Résumé du séquençage par NGS

Le but du séquençage par NGS est de déterminer l’enchainement des nucléotides d’un

fragment d’ADN afin de détecter des mutations.

Les étapes du séquençage d’un brin :

1) Fragmentation de l’ADN génomique et dénaturation

2) Ligation d’adaptateurs à chaque extrémité

3) Hybridation sur une flowcell via les adaptateurs

4) Formation de cluster (amplification par pont)

5) Séquençage : -les 4 dNTP couplés à un fluorochrome (dATP, dCTP, dGTP, dTTP)

s’incorporent à la suite d’une amorce qui s’hybride à l’adaptateur.

-lavage

-prise d’une image

-élimination du fluorochrome

Ces étapes sont réalisées 300 fois par cluster.

6) Alignement et analyse des données

Chaque image à chaque cycle détermine la séquence de chaque cluster. On compare ensuite

avec la séquence de référence.


Page .. sur …

III. Hybridation génomique comparative sur puce (CGH-array)

Le principe de cette technique est de comparer l’ADN du patient avec un ADN normal (de quelqu’un de sain, qui

n’a pas de mutation). Tout va être réalisé en monobrin.

- Marquage : L’ADN du patient va être entièrement marqué avec un fluorochrome, rouge, et l’ADN sain de

référence avec un fluorochrome différent, vert.

On va utiliser des puces d’ADN où tout le génome va être référencé.

- Hybridation : On va réaliser l’hybridation des deux ADN (en quantité identique) sur une puce sur laquelle

sont fixées des milliers de sondes (oligonucléotides) représentative du génome.

S’il y a une délétion sur l’ADN rouge, il ne s’accrochera pas à certains endroits et l’ADN vert s’accrochera.

En revanche s’il y a une insertion, l’ADN rouge s’accrochera plus que l’ADN

vert.

- Lavage puis lecture de la fluorescence de chaque « spot » par un scanner.

- Normalisation et calcul : on s’intéresse au ratio [Fluo rouge/Fluo vert] .

Si la couleur observée est jaune, il y a autant de séquences vertes et rouges hybridées sur la puce : ratio = 1

L’ADN est normal.

Si la couleur observée est rouge, il y a plus de séquences rouges, ration > 1, on est ici face à une

amplification sur l’ADN rouge par rapport au vert.

Si la couleur observée est verte, il y a plus de séquences vertes, ratio < 1, on est face à une délétion sur

l’ADN rouge par rapport au vert.


Page .. sur …

IV. Cheminement pour isoler un gène impliqué dans une maladie

Le professeur s’est appuyé sur un cas clinique pour illustrer ses propos. Il a bien précisé qu’il n’était pas à

connaitre et qu’aucune question ne tomberont sur les LMMJ au partiel, mais que c’était bien pour comprendre les

processus dans la recherche d’un mutation pour trouver la cause d’une maladie.

La pâleur de l’enfant de est un signe d’anémie et on repère un taux d’hémoglobine bas, on va donc aller chercher

un dysfonctionnement dans la chaine de production des globules rouges.

On va également chercher une anomalie dans la chaine de production des monocytes, qui sont présent en trop

grande quantité.

Hépatosplénomégalie : augmentation du foie et de la rate

Hyperleucocytose : globules blancs trop nombreux

Blastes : cellules indifférenciées normalement absente du sang

On soupçonne ici une Leucémie myélo-monocytaire juvénile : LMMJ.


Page .. sur …

Cet enfant a un blocage partiel de la différenciation érythroïde, ainsi

qu’un problème au niveau de sa spécification monocytaire, plus

particulièrement au niveau de GM-CSF et de M-CSF.

Si on regarde l’étiologie des LMMJ, on trouve très souvent que cette

maladie découle d’une anomalie de la voie RAS. La voie RAS

permet la prolifération, notamment celle des monocytes. La

prolifération est ici augmentée ce qui peut expliquer

l’hépatosplénomégalie. Quand s’intéresse aux différents cas de

LMMJ on retrouve très souvent des cas de protéines mutées (avec la

petite étoile sur la photo). Ces protéines entrainent une

hyperactivation de la voie RAS.

Pour trouver le gêne responsable de la maladie on va s’intéresser aux régions dans lesquelles le gêne se trouve

probablement.

Différents facteurs vont nous permettre de nous rapprocher peu à peu :

-la position génomique (chromosome, gêne, exon/intron)

-le génotype (homozygote ou hétérozygote)

-la fréquence dans la population générale

-la conservation nucléotidique

-le type de variant (faux sens, non sens, synonyme)

-la conservation des acides aminés

-les écarts physico-chimiques entre acides aminés

44329 variants sont trouvés comparé à l’ADN de référence à l’issue du séquençage.

-On va commencer par chercher dans les exomes. On réalise un

séquençage exomique (on ne sélectionne que les exons) et on regarde les

variants susceptibles d’être mis en jeu dans la maladie. On sélectionne

donc les variants dans les régions codantes ou issues de l’épissage. 20303

variants sont trouvés.

-On regarde ensuite la fréquence dans la population générale. La LMMJ

n’est présente que chez moins de 1% de la population, on ne sélectionne

donc que les variants présents chez moins de 1% de la population. 2366

variants sont trouvés.

-On s’intéresse également aux types de variants (SNV, insertion/délétion…) et on élimine les variants synonymes

qui ne changent pas la fonction de la protéine. 1386 variants sont trouvés.

-On va maintenant regarder les mutations gain/perte de fonction. : On peut

aussi utiliser le type de variant pour prédire l’effet de la mutation : On sait que

l’étiologie des LMMJ est une activation de la voie RAS. Ici on va donc

choisir de garder les variants faux sens. 1201 variants sont trouvés.


Page .. sur …

-En regardant les propriétés physico-chimiques des acides aminés, on peut éliminer les

variants ne présentant pas d’écart au niveau de leurs éléments principaux. on peut éliminer les variants ne présentant pas d’écart au niveau de ses éléments

principaux et raisonner sur le type de changement d’AA.74 variants sont trouvés.

-La conservation inter-espèce nous indique les parties du génome conservées à l’identique dans la plupart des

espèces, nécessaires aux grandes fonctions. En effet, les domaines essentiels dans les protéines sont retrouvés dans

toutes les espèces. Il faut vérifier qu’elle soit bien respectée et conservées ainsi qu’il n’y ait pas d’anomalies à ce

niveau. 54 variants sont trouvés.

-On a maintenant éliminé un certain nombre de variants, on peut s’intéresser plus

spécifiquement à la voie RAS : on ne trouve plus qu’un variant.

Ce variant est situé sur une séquence du génome qui code pour PTPN11

(étoile rouge sur l’image).

Ici on a réalisé un western-blot pour montrer la surexpression d’un acide

aminé de PTPN11.

Attention à toujours bien vérifier la bande contrôle afin d’être sur qu’il y a

bien la même quantité de protéine dans chaque puit.

On voit sur le western-blot que le codon 61 est modifié, c’est pour ça qu’on a

une suractivation de la voie RAS.

La protéine PTPN11 est connue grâce à la recherche fondamentale. On connait ses

différents domaines. Ici le domaine touché est N-SH2.

Maintenant qu’on a trouvé le variant, on cherche à savoir si la mutation est plutôt somatique ou constitutionnelle.

Une mutation constitutionnelle est présente dans toutes les cellules de l’individu, y compris ses gamètes, par

lesquelles il pourra la transmettre.

Une mutation somatique n’est présente que dans certains tissus de l’organisme et n’est pas transmissible.


Page .. sur …

En regardant les symptômes de la LMMJ, on se rend compte qu’ils témoignent d’une atteinte systémique

(dysmorphie discrète, atteinte cardiaque).

Si on s’oriente vers une mutation de type constitutionnelle, toutes les cellules sont atteintes, on va regarder la

fréquence allélique de la mutation : elle est soit homozygote soit hétérozygote.

Si on penche plutôt pour un variant somatique, on va calculer la VAF (variant allele frequency), qui correspond au

taux de mutation dans le tissu touché. En effet le tissu touché ne contient pas que des cellules mutées.

On peut réaliser une biopsie dans le tissu touché ainsi que dans un tissu non touché pour rechercher la mutation et

vérifier si elle n’est bien présente que dans le tissu touché.

Pour finir, on va revenir chercher dans les variants non synonyme pour essayer de trouver si d’autres variants

peuvent être responsable de la maladie. En faisant cela on peut tomber si certaines mutations perte de fonction sur

les gènes suppresseurs de tumeurs, ainsi que des mutations gain de fonction sur des oncogènes.

Ces mutations additionnelles en plus de PTPN11 sont aussi responsables de la maladie.


Page .. sur ..

Dédicaces :

- Aux potos en PACES

- Ben, Martin, Maxime

- Loriane même si t’es une bonne marraine tu dragues un peu trop Kartsonas

- Lannister dans mon cœur


Documents

ED1 Méthodes d’exploration des gènes et des protéines