330
UNIVERSITÉ EVRY VAL D’ESSONNE Des génomes aux organismes Laboratoire d’Epigénétique et Environnement – CNG – CEA THÈSE présentée et soutenue publiquement le 09 avril 2015 pour l’obtention du grade de Docteur de l’Université d’Evry Val d’Essonne Discipline ou Spécialité : Génétique et épigénétique par : Aurélie BOUSARD Étude génétique et épigénétique de l’adénocarcinome du rein à cellules claires COMPOSITION DU JURY Président : Monsieur PAGÈS Gilles Rapporteur : Madame ARIMONDO Paola Rapporteur : Monsieur DEFOSSEZ Pierre-Antoine Examinateur : Monsieur MIOTTO Benoit Directeur de thèse : Madame BIHOREAU Marie-Thérèse Co-directeur de thèse : Monsieur TOST Jorg Co-directeur de thèse : Madame LEPAGNOL-BESTEL Aude-Marie

Thèse : "Génétique et épigénétique de l'adénocarcinome du rein à cellules claires"

Embed Size (px)

Citation preview

  • UNIVERSIT EVRY VAL DESSONNE

    Des gnomes aux organismes

    Laboratoire dEpigntique et Environnement CNG CEA

    THSE prsente et soutenue publiquement le 09 avril 2015

    pour lobtention du grade de

    Docteur de lUniversit dEvry Val dEssonne Discipline ou Spcialit : Gntique et pigntique

    par :

    Aurlie BOUSARD

    tude gntique et pigntique de ladnocarcinome du rein cellules claires

    COMPOSITION DU JURY

    Prsident : Monsieur PAGS Gilles Rapporteur : Madame ARIMONDO Paola Rapporteur : Monsieur DEFOSSEZ Pierre-Antoine Examinateur : Monsieur MIOTTO Benoit Directeur de thse : Madame BIHOREAU Marie-Thrse Co-directeur de thse : Monsieur TOST Jorg Co-directeur de thse : Madame LEPAGNOL-BESTEL Aude-Marie

  • - 1 -

    Remerciements

    A lissue de la rdaction de ce manuscrit, je suis convaincue que la thse nest pas un travail aussi solitaire

    quil ny parat. En effet, de nombreuses personnes ont contribu par leurs conseils scientifiques, leurs

    aides techniques ou encore par leur support moral laboutissement de ce travail.

    Je tiens donc adresser mes remerciements

    A mes directeurs de thse : Jorg, Aude-Marie et Marie-Thrse. A Jorg plus particulirement pour mavoir

    permis deffectuer ma thse au sein du Laboratoire pigntique et Environnement et pour mavoir

    accord sa confiance dans la gestion de ce projet, en me laissant une grande libert daction tout en

    gardant un il bienveillant sur lavance de mes travaux. A Aude-Marie pour sa disponibilit, son accueil

    lors de mon passage au CPN et sa contribution dans la relecture de ce manuscrit.

    Aux membres du jury qui ont accept de lire ce manuscrit et dy apporter leur jugement : Paola Arimondo

    et Pierre-Antoine Defossez en tant que rapporteurs, Gilles Pags et Benot Miotto en tant

    quexaminateurs.

    A Jean-Franois, davoir accept de financer les six derniers mois de cette thse, qui ont reprsent un dlai

    prcieux pour finaliser au mieux mes projets, et davoir insuffl une nouvelle dynamique scientifique et

    relationnelle au CNG.

    A lquipe du laboratoire pigntique et Environnement, qui sest agrandie et enrichie depuis mon arrive

    de personnes aux comptences, cultures et caractres diversifis et avec qui il a t trs agrable de

    travailler. A Christian pour avoir apport sa grande exprience technique au profit de mes projets mais

    aussi pour avoir partag de nombreux moments de rflexion mais aussi davoir su garder secrtes certaines

    de mes boulettes de manip pour mviter dtre la rise du CNG. A Fabien pour son apport dterminant

    dans les analyses bio-informatiques, sans lequel mes donnes seraient peut-tre encore occupes en train

    de charger sur Galaxy, pour sa patience face mes multiples requtes et pour mavoir initie au monde de

    la bioinformatique. A Florence (alias Bubu), qui ma chaleureusement accueillie au sein de lquipe, qui na

    cess de mencourager grand renfort de chocolats et sur qui jai pu toujours compter depuis mon arrive.

    A Sylvain avec qui jai partag de nombreuses discussions scientifiques (ou pas), qui a activement

    particip ma veille scientifique et qui ma apport de nombreux encouragements dans la dernire ligne

    droite. A Shu-Fang de stre constamment inquite de lvolution de mon moral ; son sens de lcoute ma

    t salutaire. A toutes les personnes qui ont pass du temps sur la correction de ce manuscrit, notamment

    Sylvain, Florence M, Florence B et Christian. A toutes les autres personnes du laboratoire : Cline pour son

    nergie communicative, Olexy, Chao et Yimin pour leurs sourires permanents, Kevin pour son humour

    dcal, Anne pour avoir partag lcriture de la revue avec moi, Nico, Gitte et Andreas pour leur grande

    gentillesse.

  • - 2 -

    Aux personnes extrieures lquipe qui ont contribu au bon droulement de cette thse. A Sophie pour

    le partage de rflexions sur les aspects chromatiniens et lapport de son regard critique sur certaines

    parties de ce manuscrit. A Anne et lquipe de la banque pour avoir si gentiment prpar mes

    chantillons et accept ma prsence dans leur salle de culture cellulaire. A Marie-Thrse et lquipe de

    squenage pour la prise en charge de mes chantillons. A lquipe de bio-informatique davoir t de bon

    conseil. A notre petit groupe de filles avec qui jai partag dagrables pauses de djeuner. A toutes les

    autres personnes du CNG qui contribuent la bonne ambiance gnrale.

    Aux personnes extrieures au CNG avec qui jai collabor. A Alex davoir apport son exprience sur

    certains aspects de mes projets. A Victor et Louis de mavoir aide percer les mystres de la bio-

    informatique. Au Consortium Cagekid pour la mise disposition de leurs nombreuses donnes.

    Aux gens qui mentourent et qui participent grandement mon panouissement personnel. A mes parents

    de mavoir laiss une grande libert dans mes choix de vie et de mavoir toujours soutenue dans les dfis

    que je me lanais. A ma sur, mon frre et mes amis davoir t si comprhensifs face mon

    indisponibilit croissante durant cette thse. A mon mari de mavoir encourage suivre mes envies,

    davoir vcu les hauts et les bas avec moi, davoir assur lintendance quotidienne lors de ces derniers mois

    et de mavoir soutenue pendant ces trois ans et demi.

  • - 3 -

    Rsum

    Ce travail de thse comporte trois projets visant approfondir la caractrisation molculaire des

    adnocarcinomes du rein cellules claires (ccRCC) et en amliorer le diagnostic en utilisant les donnes

    gntiques et pigntiques du consortium Cagekid.

    Le premier projet traite de lidentification de mutations oncogniques prsentes dans les lments

    rgulateurs actifs du gnome des ccRCC. Lutilisation de donnes de squenage pangnomique dune

    centaine de patients atteints de ccRCC et de donnes pigntiques (ChIP-seq et ATAC-seq) issues de

    lignes cellulaires de cancer du rein a permis lidentification dlots de mutations situs dans ces lments

    rgulateurs. Parmi ces derniers, on compte de nombreux promoteurs de gnes associs des cancers

    urognitaux. De plus, lutilisation de donnes de RNA-seq a permis dassocier certains de ces lots des

    changements dexpression gnique. Un lot de mutation a ainsi pu tre identifi sur un lment rgulateur

    actif situ dans le premier intron du gne WWC1 qui appartient la voie Hippo. Cette voie est connue pour

    tre implique dans loncogense, ce qui renforce lintrt potentiel des mutations de cet lment

    rgulateur dans le ccRCC. Dautres lots de mutations ont pu tre identifis en association avec lexpression

    de gnes comme IGF1R. Ce travail novateur dans sa dmarche dintgration de donnes gnomiques et

    pigntiques constitue la premire tude permettre lidentification de mutations non-codantes

    localises sur des lments rgulateurs actifs dfinis dans le type cellulaire correspondant la pathologie

    dintrt.

    Le deuxime volet de ce travail consiste en une tude focalise sur les altrations molculaires de la voie

    FGF/FGFR qui est la cible de thrapies en cours dessais cliniques dans le ccRCC. Il a permis de suggrer une

    implication de lactivation de la voie FGF/FGFR dans loncogense du ccRCC et dans le pronostic vital des

    patients, notamment par laction de rgulateurs ngatifs de cette voie tel que SEF.

    Enfin, la troisime partie concerne la mise au point dun test de diagnostic non-invasif du ccRCC partir de

    lADN circulant. Il a abouti lidentification de biomarqueurs hypermthyls et au dveloppement de tests

    sensibles bass sur des qPCR spcifiques de la mthylation.

    Les diffrentes approches abordes sinscrivent dans le cadre de lamlioration de la caractrisation

    molculaire des tumeurs qui a t rendue possible par lavnement des nouvelles techniques de

    squenage. Les promesses en termes de diagnostic et de prise en charge des patients sont multiples et

    devraient permettre dans un avenir proche daller vers des approches thrapeutiques plus cibles et le

    dveloppement de la mdecine personnalise.

    Mots-cls : adnocarcinome du rein cellules claires, lments rgulateurs, mutations de lADN non-

    codant, FGF/FGFR, ADN circulant, biomarqueurs.

  • - 4 -

    Abstract

    This thesis is composed of three projects looking to improve molecular characterization and diagnosis of

    clear cell renal cell carcinoma (ccRCC). To achieve this goal, genetic and epigenetic data from the CAGEKID

    consortium have been used.

    The first project concern the identification of oncogenic mutations located on active regulatory elements of

    ccRCC. The use of whole-genome sequencing data of an hundred patients affected by ccRCC and epigenetic

    data (ChIP-seq and ATAC-seq) from renal cancer cell lines enabled the identification of mutation islands

    located in these active regulatory elements. Among those, numerous mutated promoters were known to

    be involved in urogenital cancers. Moreover, the use of RNA-seq data highlighted the association between

    some mutation islands and gene expression changes. One mutation island has been identified on a

    regulatory element located in the first intron of WWC1. This gene is a member of the Hippo pathway

    known to be involved in ccRCC tumorigenesis making the potential interest of those mutations reinforced.

    Other mutation islands have been identified in association with gene expression, such as IGF1R. This

    pioneer work in integrating approach of genetic and epigenetic data consists in the first study that

    describes non-coding mutations located on active regulatory elements identified on a cell type relevant to

    the study.

    The second project consists of a study of the molecular alterations of the FGF/FGFR pathway, that is

    currently the target of therapies tested on clinical assays in ccRCC. It suggests an involvement of the

    FGF/FGFR pathway activation in ccRCC tumorigenesis and in patient prognosis, partly through the

    expression alterations of negative regulators of this pathway such as SEF.

    Finally, the set-up of a ccRCC non-invasive diagnostic test from circulating DNA has been initiated.

    Hypermethylated biomarkers have been identified and sensible tests based on methylation-specific qPCR

    have been set up in the third project.

    Those different approaches fall into the improvement of tumor molecular characterization that has been

    allowed through the progress of the next-generation sequencing technologies. The promises in term of

    diagnosis and patient management are multiple and should allow the expansion of the development of

    targeted therapies and personalized medicine in the next future.

    Keywords: clear cell renal cell adenocarcinoma, regulatory elements, non-coding mutations, FGF/FGFR,

    circulating DNA, biomarkers.

  • - 5 -

    Table des matires

    Remerciements ........................................................................................................................... 1

    Rsum ....................................................................................................................................... 3

    Abstract ....................................................................................................................................... 4

    Table des matires ...................................................................................................................... 5

    Liste des figures ........................................................................................................................... 7

    Liste des tableaux ...................................................................................................................... 11

    Abrviations et acronymes ........................................................................................................ 13

    Introduction .............................................................................................................................. 17

    Chapitre I : Mise en contexte des projets ................................................................................... 19 1. Organisation de la chromatine et rgulation de la transcription ............................................................ 20 2. Les cancers : caractristiques biologiques, gntique, pigntique ..................................................... 40 3. Ladnocarcinome du rein cellules claires ........................................................................................... 60 4. Sujet de thse ......................................................................................................................................... 71

    Chapitre II : Identification de mutations dans les lments rgulateurs actifs du ccRCC ............. 73 1. Objectif ................................................................................................................................................... 74 2. Matriels et mthodes ............................................................................................................................ 74 3. Rsultats ................................................................................................................................................. 95 4. Discussion ............................................................................................................................................. 130 5. Conclusions et perspectives .................................................................................................................. 149

    Chapitre III : Analyse des altrations de la voie FGF/FGFR dans le ccRCC .................................. 151 1. Objectif ................................................................................................................................................. 152 2. Matriels et mthodes .......................................................................................................................... 152 3. Rsultats ............................................................................................................................................... 159 4. Discussion ............................................................................................................................................. 171 5. Conclusions et perspectives .................................................................................................................. 177

    Chapitre IV : Mise au point dun test de dtection de la mthylation de lADN circulant de patients atteints de ccRCC ....................................................................................................... 179

    1. Objectif ................................................................................................................................................. 180 2. Matriels et mthodes .......................................................................................................................... 180 3. Rsultats ............................................................................................................................................... 185 4. Discussion ............................................................................................................................................. 193 5. Conclusions et perspectives .................................................................................................................. 200

    Conclusions gnrales ............................................................................................................. 201

    Bibliographie ........................................................................................................................... 203

    Annexes .................................................................................................................................. 218

    Communications ...................................................................................................................... 234

  • - 6 -

  • - 7 -

    Liste des figures

    Figure 1 : De lADN aux chromosomes. ........................................................................................................... 21 Figure 2 : Euchromatine et htrochromatine. ............................................................................................... 21 Figure 3 : Organisation de la chromatine dans le noyau. ................................................................................ 22 Figure 4 : Territoires chromosomiques et agencement radial dans le noyau. ................................................ 23 Figure 5 : Les modles dinteractions entre territoires chromosomiques. ..................................................... 23 Figure 6: ADN non-codant. .............................................................................................................................. 25 Figure 7 : Les promoteurs et les enhancers, acteurs de la transcription dun gne. ...................................... 26 Figure 8 : Mthylation des cytosines et reconnaissance par les MBP ............................................................. 28 Figure 9 : Oxydation des groupements mthyles par les enzymes TET et dmthylation de lADN. ............. 29 Figure 10 : Structure dun nuclosome. .......................................................................................................... 30 Figure 11 : Modifications dhistones. .............................................................................................................. 31 Figure 12 : tats chromatiniens proposs partir de modifications d'histones par Ernst el al. ..................... 32 Figure 13 : Modifications dhistones et liaisons aux enzymes de remodelage de la chromatine. .................. 33 Figure 14 : Positionnement des nuclosomes. ............................................................................................... 35 Figure 15 : Les caractristiques dun cancer. .................................................................................................. 40 Figure 16 : L'invasion et la diffusion mtastatique. ........................................................................................ 43 Figure 17 : Les mutations conductrices. .......................................................................................................... 45 Figure 18 : Gnes les plus frquemment muts dans diffrents types de tumeurs. ...................................... 46 Figure 19 : Htrognit inter- et intra-tumorale. ........................................................................................ 49 Figure 20 : Identification des gnes conducteurs par comparaison du taux de mutation par rapport au bruit

    de fond mutationnel. ............................................................................................................................... 49 Figure 21 : lments de recherche de mutations non-codantes conductrices de tumeurs. ........................... 51 Figure 22 : Profils de mthylation de cellules normales et tumorales. ........................................................... 52 Figure 23 : Mutations des enzymes pigntiques identifies dans les cancers. ........................................... 55 Figure 24 : Schma de l'ADN circulant issu des cellules tumorales. ................................................................ 56 Figure 25 : LADN circulant, biomarqueur clinique de suivi des tumeurs. ...................................................... 58 Figure 26 : Anatomie du rein et cellules lorigine des carcinomes des cellules rnales (RCC). .................... 61 Figure 27 : Coupes histologiques d'adnocarcinomes du rein cellules claires et papillaires. ...................... 61 Figure 28 : Lanatomie du rein. ....................................................................................................................... 63 Figure 29 : Altrations gntiques et pigntiques de la voie VHL/HIF dans le ccRCC. ................................ 64 Figure 30 : Modifications gntiques et pigntiques des enzymes de remodelage de la chromatine et des

    modificateurs dhistones. ........................................................................................................................ 65 Figure 31: Cibles des traitements utiliss contre ladnocarcinome du rein cellules claires. ...................... 68 Figure 32 : Composition des rcepteurs facteur de croissance des fibroblastes (FGFRs) et pissage

    alternatif IIIb/IIIc. ..................................................................................................................................... 69 Figure 33 : Rsum de la voie signaltique de FGF/FGFR et des facteurs intra et extra cellulaires qui la

    rgulent. ................................................................................................................................................... 70 Figure 34 : Principe et tapes de contrles du ChIP. ....................................................................................... 75 Figure 35 : Les modifications post-traductionnelles des histones dmarquent les lments fonctionnels du

    gnome. ................................................................................................................................................... 76 Figure 36 : Principe du FAIRE et tapes de contrle. ...................................................................................... 80 Figure 37 : Protocole simplifi et tapes de contrles de l'ATAC-seq. ............................................................ 82 Figure 38 : Principe du squenage Illumina/Solexa. ...................................................................................... 85 Figure 39 : Principe de l'identification de pics. ............................................................................................... 87 Figure 40: chantillons Cagekid dont les donnes de squenage et dexpression sont disponibles. ............ 89 Figure 41 : Mthode didentification des lments rgulateurs actifs consensus et des lots de mutations. 90 Figure 42 : Modles de recherche de mutations entranant l'expression diffrentielle d'un gne associ. .. 91 Figure 43 : Principe du pyrosquenage. ........................................................................................................ 93 Figure 44 : Visualisation des tapes de contrle du ChIP-seq. ........................................................................ 95 Figure 45 : Rpartition des reads des ChIP-seq ciblant les modifications d'histones de la ligne 786-O. ...... 96

  • - 8 -

    Figure 46 : Profils des marques dhistones au niveau dun promoteur actif dans la ligne 786-O. ................ 96 Figure 47 : Comparaison des donnes de ChIP-seq H3K27ac des chantillons tumoral/non-tumoral de

    Cagekid et la ligne 786-O. ...................................................................................................................... 98 Figure 48 : Comparaison des donnes de ChIP-seq H3K27ac des deux chantillos du NIH et de la ligne 786-

    O. .............................................................................................................................................................. 98 Figure 49 : Visualisation des profils obtenus au Bioanalyzer aux tapes de contrle du FAIRE-seq. .............. 99 Figure 50 : Rpartition des reads de FAIRE-seq autour des TSS. ................................................................... 100 Figure 51 : Profils des librairies ATAC-seq en fonction de la concentration en Igepal. ................................. 102 Figure 52 : Exemple de profil de librairie ATAC-seq et interprtation. ......................................................... 103 Figure 53 : Nombre de reads disponibles aprs chaque tape de filtrage des donnes des diffrentes lignes

    cellulaires. .............................................................................................................................................. 104 Figure 54 : Rpartition des reads autour du TSS et en fonction de leurs tailles. .......................................... 104 Figure 55: Signal ATAC-seq au niveau du promoteur dun gne. .................................................................. 105 Figure 56 : Reproductibilit des rsultats dATAC-seq. ................................................................................. 105 Figure 57 : Recoupement des pics identifis en ChIP-seq ciblant H3K4me1, H3Kme2 et H3K4me3 dans la

    ligne 786-O. .......................................................................................................................................... 106 Figure 58 : Identification des lments rgulateurs actifs de la ligne 786-O. ............................................. 107 Figure 59 : Identification des lments rgulateurs actifs consensus des trois lignes cellulaires. .............. 108 Figure 60 : Comparaison des co-localisations de marques dhistones sur la ligne cellulaire 786-O et les

    chantillons Cagekid. ............................................................................................................................. 109 Figure 61 : Analyse critique du nombre de promoteurs actifs identifis. .................................................... 109 Figure 62 : Comparaison entre gnes exprims et promoteurs actifs identifis des lignes cellulaires. ...... 110 Figure 63 : Analyse critique des promoteurs actifs identifis. ...................................................................... 110 Figure 64 : Identification des lments rgulateurs actifs consensus partir des donnes ChIP-seq et ATAC-

    seq. ......................................................................................................................................................... 112 Figure 65 : Signaux ChIP-seq et lots de mutations prsents sur les promoteurs de WNT2B et USP28. ....... 116 Figure 66 : Visualisation des signaux de ChIP-seq et de llot de mutation dans un promoteur alternatif de

    FGF1. ...................................................................................................................................................... 116 Figure 67 : Localisation de llot de mutations de llment rgulateur actif dans lintron dIGF1R et

    association avec lexpression dIGF1R. .................................................................................................. 117 Figure 68 : Localisation de llot de mutations de llment rgulateur actif en aval de TNFSF14 et

    association des mutations avec lexpression de TNFSF14. .................................................................... 118 Figure 69 : Rpartition des mutations localises dans les lments rgulateurs consensus identifis par

    ChIP-seq et ATAC-seq. ............................................................................................................................ 119 Figure 70 : Visualisation de la localisation de llot de mutations de llment rgulateur actif dans lintron 1

    de WWC1 et association des mutations avec lexpression de WWC1. .................................................. 119 Figure 71 : Validation des mutations de WWC1 par pyrosquenage. ......................................................... 120 Figure 72 : Rsultats de la validation au pyrosquenage de la mutation sur l'lment rgulateur actif

    associ TNFSF14. ................................................................................................................................. 121 Figure 73 : Expression RNA-seq de WWC1 en fonction des variations du nombre de copies. ..................... 122 Figure 74 : Expression de WWC1 dans les cohortes Cagekid et TCGA. ......................................................... 123 Figure 75 : Association entre expression et paramtres cliniques de WWC1 dans la cohorte TCGA. .......... 123 Figure 76 : Expression de IGF1R et association avec les paramtres cliniques dans la cohorte TCGA. ........ 124 Figure 77 : Expression de TNFSF14 dans les cohortes Cagekid et TCGA. ...................................................... 125 Figure 78 : Association entre expression et paramtres cliniques de TNFSF14 dans les cohortes TCGA et

    Cagekid. .................................................................................................................................................. 126 Figure 79 : Signal des ChIP-seq ciblant H3K27ac au niveau du promoteur de TERT. .................................... 126 Figure 80 : Expression de TERT dans les cohortes Cagekid et TCGA. ............................................................ 128 Figure 81 : Association de l'expression de TERT et des paramtres cliniques dans la cohorte TCGA. .......... 129 Figure 82 : Clusterisation des donnes de mthylation des puces 450K sur les chantillons Cagekid et les

    lignes cellulaires de RCC. ...................................................................................................................... 136 Figure 83 : Comparaison des gnes exprims par les lignes cellulaires de RCC et les chantillons tumoraux

    et non-tumoraux. ................................................................................................................................... 137

  • - 9 -

    Figure 84 : Clusterisation des donnes dexpression de lignes cellulaires issues de divers types de tumeurs. ............................................................................................................................................................... 137

    Figure 85 : Comparaison du bruit de fond mutationnel global et des critres de recherche d'lots de mutations. .............................................................................................................................................. 141

    Figure 86 : Altrations molculaires de la voie Hippo dans le ccRCC. ........................................................... 146 Figure 87 : Expression des FGFRs dans les chantillons normaux et tumoraux. ........................................... 159 Figure 88 : Changement dexpression relatif dans les chantillons pairs des cohortes Cagekid et TCGA. . 160 Figure 89 : Isoformes IIIb et IIIc de FGFR2 dans les chantillons tumoraux et non-tumoraux de la cohorte

    Cagekid. .................................................................................................................................................. 161 Figure 90 : Hypermthylation du promoteur de FGFR2 dans la cohorte Cagekid. ....................................... 161 Figure 91 : Expression des FGFs dans les cohortes Cagekid et TCGA. ........................................................... 163 Figure 92 : Confirmation des changements dexpression de FGF1, FGF5, FGF7 et FGF9 par RT-qPCR. ........ 163 Figure 93 : Changement dexpression de FGF2 dans les cohortes Cagekid et TCGA. ................................... 164 Figure 94 : Changement dexpression de FGF5 et association avec des paramtres cliniques dans la cohorte

    TCGA. ..................................................................................................................................................... 165 Figure 95 : Changement dexpression RNA-seq de SEF dans les cohortes Cagekid et TCGA. ....................... 166 Figure 96 : Confirmation du changement d'expression de SEF par RT-qPCR. ............................................... 166 Figure 97 : Association de lexpression de SEF et des paramtres cliniques. ................................................ 167 Figure 98 : Association du z-score intgrant lexpression de FGF5, FGF7, FGF17, FGF23, SEF et SPRY2 et des

    paramtres cliniques. ............................................................................................................................. 168 Figure 99 : Reprsentation de lexpression des FGF/FGFR et des rgulateurs ngatifs des cohortes Cagekid

    et TCGA. ................................................................................................................................................. 172 Figure 100 : Associations des paramtres cliniques avec lexpression des FGFs et des rgulateurs des FGFs

    des donnes TCGA. ................................................................................................................................ 175 Figure 101 : Corrlation entre expression des ARNm et des protines. ....................................................... 176 Figure 102 : Annotation des CpG dans les donnes de puces 450K. ............................................................. 186 Figure 103 : Validation de la mthylation des biomarqueurs par pyrosquenage. .................................... 186 Figure 104 : Optimisation de la qPCR mthylation-spcifique PPFIA4 en FAM. ........................................... 187 Figure 105 : Signal qPCR du triplex ALB (FAM)/PRKCB(LC670)/TFAP2B amp1 (LC610). ................................ 188 Figure 106 : Nombre dchantillons non-tumoraux dont la mthylation est significative. ........................... 189 Figure 107 : Nombre dchantillons tumoraux dont la mthylation est suprieure diffrents seuils. ...... 190 Figure 108 : Corrlations entre -valeurs associes aux CpG slectionns. ................................................. 190 Figure 109 : Nombre dchantillons tumoraux mthyls sur 1 6 des CpG slectionns dans le test

    MethyLight. ............................................................................................................................................ 191 Figure 110 : Comparaison des kits d'extraction InnuConvert et Norgen sur du plasma sain. ....................... 191 Figure 111 : Comparaison des rendements de l'tape de bisulfite de lADN circulant. ................................ 192 Figure 112 : Comparaison des rendements finaux dextraction et bisulfite de lADN circulant. .................. 192 Figure 113 : Rpartition des mutations non-synonymes sur la protine VHL dans le ccRCC. ....................... 195 Figure 114 : Mthylation du cg18674980 (CA3) dans diffrents types de tumeurs. .................................... 198 Figure 115 : Pourcentage de patients avec une quantit d'ADN circulant dtectable dans diffrents types de

    cancers avancs. .................................................................................................................................... 199

  • - 10 -

  • - 11 -

    Liste des tableaux

    Tableau 1 : Techniques exprimentales dtude de lpignome. ................................................................. 38 Tableau 2 : Kits de dtection/prdiction bass sur des biomarqueurs de mthylation. ................................ 53 Tableau 3 : Kits de dtection de cancers bass sur la mthylation de l'ADN circulant actuellement

    commercialiss. ....................................................................................................................................... 59 Tableau 4 : Classification TNM des tumeurs rnales. ..................................................................................... 62 Tableau 5 : Attribution des stades en fonction des critres TNM du cancer du rein. ..................................... 63 Tableau 6 : Thrapies ciblant la voie FGF/FGFR en cours dessais thrapeutiques dans le traitement des RCC.

    ................................................................................................................................................................. 68 Tableau 7 : Anticorps utiliss pour les immunoprcipitations: rfrences et quantits. ................................ 77 Tableau 8 : Amorces de PCR utilises pour les qPCR de contrle denrichissement des

    immunoprcipitations. ............................................................................................................................. 78 Tableau 9 : Amorces damplification PCR et de pyrosquenage utilises pour les validations de mutations.

    ................................................................................................................................................................. 94 Tableau 10 : Pics identifis par ChIP-seq ciblant diffrentes marques dhistones. ......................................... 97 Tableau 11 : Pics identifis en FAIRE-seq et reproductibilit dans les diffrentes lignes de RCC. .............. 101 Tableau 12 : Calculs des rendements des extractions FAIRE des diffrentes lignes de RCC. ...................... 101 Tableau 13 : Identification des pics ATAC-seq dans les lignes cellulaires. .................................................. 105 Tableau 14 : Identification des lments rgulateurs actifs par les marques dhistones des diffrentes

    lignes cellulaires. .................................................................................................................................. 107 Tableau 15 : Motifs de facteurs de transcription enrichis dans les lments rgulateurs actifs identifis. . 111 Tableau 16 : Identification des lments rgulateurs actifs par prsence des marques dhistones et du signal

    ATAC-seq. ............................................................................................................................................... 112 Tableau 17 : Motifs de facteurs de transcription enrichis dans les lments rgulateurs actifs identifis. . 113 Tableau 18 : Mutations somatiques de 95 chantillons de ccRCC travers le gnome et sur les lments

    rgulateurs actifs. .................................................................................................................................. 114 Tableau 19 : Nombre dlots de mutations identifis dans les lments rgulateurs actifs des ccRCC. ....... 115 Tableau 20 : Liste des gnes associs aux cancers urognitaux et dont un lment rgulateur contenant un

    lot de mutations est situ proximit du TSS. ..................................................................................... 115 Tableau 21 : Nombre dlots de mutations associs un changement dexpression dun gne situ une

    distance dtermine. ............................................................................................................................. 117 Tableau 22 : Nombre et rpartition des mutations somatiques totales et localises sur les lments

    rgulateurs actifs identifis par ChIP-seq et ATAC-seq. ......................................................................... 118 Tableau 23 : Scores de conservation et motifs de liaison crs par les mutations de llment rgulateur de

    WWC1. ................................................................................................................................................... 123 Tableau 24 : Scores de conservation et motifs de liaison crs par les mutations de llment rgulateur de

    IGF1R. ..................................................................................................................................................... 124 Tableau 25 : Donnes qualitatives associes aux mutations du promoteur de TERT. .................................. 127 Tableau 26 : Expression des chantillons muts dans le promoteur de TERT et interprtation. ................. 128 Tableau 27 : Nombre de donnes utilises pour lanalyse des drgulations du systme FGF/FGFR. ......... 152 Tableau 28 : Donnes cliniques associes aux chantillons tumoraux squencs en RNA-seq. .................. 153 Tableau 29 : Liste des amorces de qPCR. ...................................................................................................... 155 Tableau 30 : Amorces de PCR et de pyrosquenage. .................................................................................. 157 Tableau 31 : Expression RNA-seq des FGF/FGFRs, des FHFs et des rgulateurs SEF et SPRY2 dans les

    cohortes Cagekid et TCGA. ..................................................................................................................... 170 Tableau 32 : Liste des amorces et sondes utilises pour les qPCR MethyLight. ........................................... 182 Tableau 33 : Squences des amorces et sondes utilises pour la quantification de lADN bisulfit. ............ 184 Tableau 34 : Liste des biomarqueurs hypermthyls retenus aprs analyse des donnes de puces 450K. . 185 Tableau 35 : Liste des qPCR mthylation-spcifique valides. ...................................................................... 187 Tableau 36 : Longueurs d'onde d'excitation et d'mission des sondes FAM, LC610 et LC670 sur Light Cycler

    480. ........................................................................................................................................................ 188 Tableau 37 : qPCR optimises en triplex. ...................................................................................................... 189

  • - 12 -

    Tableau 38 : Concentration en ADN circulant de plasma ou srum de patients sains ou atteints dun RCC localis ou mtastatique. ....................................................................................................................... 199

  • - 13 -

    Abrviations et acronymes

    3C : Chromosome Conformation Capture

    4C : Circular Chromosome Conformation Capture

    5C : Carbon-Copy Chromosome Conformation Capture

    5CaC : 5 carboxylcytosine

    5fC : 5 formylcytosine

    5hmC : 5 hydroxymthylcytosine

    5mC : 5 mthyl cytosine

    A : adnine

    Ac : actyl

    ADN : acide dsoxyribonuclique

    ARN : acide ribonuclique

    ARNm : ARN messager

    ARNe : ARN cod par un enhancer

    ATAC-seq : Assay of Transposase Accessible Chromatin Sequencing

    ATP : adnosine triphosphate

    C : cytosine

    ccRCC : adnocarcinome du rein cellules claires

    ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag sequencing

    ChIP-seq : Chromatin Immuno-Precipitation Sequencing

    chr : chromosome

    chRCC : adnocarcinome du rein chromophobe

    CIMP : CpG Island Methylator Phenotype

    CNV : variation du nombre de copies

    CpG : nuclotide C suivi dun nuclotide G

    CT : territoire chromosomique

    DNaseI-seq : DNase I hypersensitive sites sequencing

  • - 14 -

    DNMT : ADN mthyltransfrase

    ETS : E-Twenty-Six

    FAIRE-seq : Formaldheyde Assisted Isolation of Regulatory Elements Sequencing

    FGF : facteur de croissance des fibroblastes

    FGFR : rcepteur de croissance des fibroblastes

    G : guanine

    GTF : facteur gnral de la transcription

    GWAS : tude dassociation pangnomique

    H : histone

    HAT : histone actyltransfrase

    HDAC : histone dsactylase

    Hi-C : tude des interactions de la chromatine lchelle du gnome

    HMT : histone mthyltransfrase

    IC : compartiment inter-chromatinien

    K : lysine

    kb : kilo paires de bases

    KDM : histone dmthylase

    MBD : methyl-binding domain

    Me : mthyl

    MeDIP-seq : Methylated DNA ImmunoPrecipitation Sequencing

    MNase-seq : Micrococcal Nuclease digestion followed by Sequencing

    p : p-valeur de test statistique

    pb : paire de bases

    PCR : raction en chane par polymrase

    PIC : complexe de pr-initiation de la transcription

    pRCC : adnocarcinome du rein papillaire

    qPCR : raction en chane par polymrase quantitative

    RCC : adnocarcinome du rein

  • - 15 -

    RNA-seq : squenage de lARN

    RPKM : Read Per Kilo per Million map reads

    SAM : adnosylmthionine

    SNP : single nucleotide polymorphism

    SONO-seq : SONication of cross-linked chromatin Sequencing

    T : thymine

    TDG : thymine DNA glycosylase

    TF : facteur de transcription

    TSS : site de dmarrage de la transcription

    UTR : rgion non traduite

    WGBS : whole genome bisulfite sequencing

    WGS : squenage pangnomique

  • - 16 -

  • - 17 -

    Introduction

    Cette dernire dcennie, lavnement du squenage haut dbit a permis damliorer considrablement la

    caractrisation des altrations gntiques et pigntiques des tumeurs. Laccumulation de ces nouvelles

    connaissances permet de mieux comprendre les processus biologiques menant la tumorigense et a un

    impact grandissant dans la capacit diagnostiquer, traiter et prvenir les cancers.

    Parmi les nouveaux cas de cancers diagnostiqus chaque anne dans le monde, 330 000 sont des cancers

    du rein, dont la majorit sont des adnocarcinomes du rein cellules claires (ccRCC). La mise en uvre

    dtudes gntiques et pigntiques du ccRCC a permis la dcouverte de voies de signalisation impliques

    dans linitiation et la progression tumorale et la mise au point de thrapies cibles. Lidentification du lien

    entre les altrations du gne VHL et lactivation de langiogense a abouti au dveloppement de thrapies

    anti-angiogniques. De mme, lactivation de la voie mTOR dans le ccRCC fait lobjet de stratgies

    thrapeutiques cibles. Bien que les patients rpondent souvent positivement ces thrapies, des

    rsistances apparaissent rapidement et la maladie finit par progresser [1, 2]. Approfondir la caractrisation

    molculaire des ccRCC constitue donc un enjeu majeur pour amliorer la prise en charge des malades.

    Cette thse sinscrit dans ce contexte et se compose de trois projets qui visent poursuivre lidentification

    des altrations molculaires caractrisant le ccRCC et tablir de nouveaux marqueurs de diagnostic.

    Le premier projet cherche identifier de nouveaux vnements gntiques impliqus dans la

    tumorignse. Bien que les mutations de lADN codant aient t largement tudies sur diffrentes

    cohortes de centaines dchantillons de ccRCC, les mutations affectant lADN non-codant nont jusqu

    prsent pas t explores [3-5]. Or, la plupart des mutations somatiques des cancers se trouvent dans ces

    rgions et peuvent affecter de nombreux lments rgulateurs de la transcription [6]. Le premier projet de

    cette thse a donc pour but didentifier des mutations non-codantes localises sur les lments rgulateurs

    actifs du ccRCC.

    Le deuxime projet propose danalyser les altrations molculaires dune voie de signalisation qui est la

    cible de traitements en cours de tests cliniques dans le ccRCC : la voie FGF/FGFR [7]. Bien quelle soit lobjet

    de thrapies cibles, trs peu dtudes ont analys les drgulations de cette voie dans le ccRCC et aucune

    ne la faite sur lensemble des gnes de cette famille. Le deuxime projet de cette thse consiste donc en

    ltude systmatique des altrations molculaires affectant les membres composant la famille FGF/FGFR et

    les rgulateurs ngatifs de la voie quils activent, sur des centaines dchantillons de ccRCC.

    Enfin, le troisime projet consiste la mise au point dun test de diagnostic non-invasif qui permettrait de

    dpister le ccRCC des stades plus prcoces. LADN circulant, prsent dans le plasma sanguin, peut tre

    utilis comme biomarqueur des tumeurs car il comporte les modifications gntiques et pigntiques des

    cellules tumorales dont il est issu [8]. Le troisime projet de cette thse consiste ainsi au dveloppement

  • - 18 -

    dun test de diagnostic bas sur la dtection sensible de biomarqueurs de mthylation de lADN circulant de

    patients atteints de ccRCC.

    Avant de dcrire les rsultats de ces trois projets, le premier chapitre est consacr la mise en contexte de

    cette thse.

  • - 19 -

    Chapitre I : Mise en contexte des projets 1. Organisation de la chromatine et rgulation de la transcription ............................................. 20

    1.1. De lADN la chromatine ..................................................................................................................... 20 1.2. LADN non-codant ................................................................................................................................ 24 1.3. Les mcanismes pigntiques, rgulateurs de la transcription ......................................................... 27 1.4. Cartographie des lments rgulateurs du gnome ........................................................................... 36

    2. Les cancers : caractristiques biologiques, gntique, pigntique ...................................... 40 2.1. Caractristiques fondamentales des cancers ...................................................................................... 40 2.2. Gntique des cancers ......................................................................................................................... 45 2.3. Epigntique des cancers .................................................................................................................... 51 2.4. Interactions entre modifications gntiques et pigntiques ........................................................... 54 2.5. Les consortia de gntique et pigntique des cancers .................................................................... 55 2.6. LADN circulant comme biomarqueur gntique ou pigntique de cancer ..................................... 56

    3. Ladnocarcinome du rein cellules claires ............................................................................ 60 3.1. Epidmiologie et classification ............................................................................................................. 60 3.2. Diagnostic ............................................................................................................................................ 62 3.3. Modifications gntiques et pigntiques du cancer du rein ............................................................ 63 3.4. Le consortium Cagekid ......................................................................................................................... 66 3.5. Traitements actuels ............................................................................................................................. 66 3.6. La voie FGF/FGFR ................................................................................................................................. 68

    4. Sujet de thse ........................................................................................................................ 71

  • Chapitre I : Mise en contexte des projets

    - 20 -

    1. Organisation de la chromatine et rgulation de la transcription

    Ltude de la structure chromatinienne et son implication dans la rgulation de lexpression des gnes est

    un domaine de recherche en plein essor. Lobjectif de cette partie est de poser les bases ncessaires la

    comprhension de ces mcanismes pigntiques.

    1.1. De lADN la chromatine

    1.1.1. LADN, molcule cl du vivant Les cellules somatiques eucaryotes contiennent approximativement six milliards de paires de bases dADN,

    ce qui correspond une longueur thorique de deux mtres dADN. Lintgrit de ce matriel est contenu

    dans le noyau, dont le diamtre est denviron dix vingt microns, ce qui implique une compaction extrme

    de lADN [9]. Pour cel, lADN sassocie des protines, les histones, qui sont en charge dorganiser le

    contenu nuclaire en une structure dense, appele chromatine [10].

    1.1.2. Lorganisation de la chromatine Lorganisation de la chromatine comporte diffrents niveaux [11] (Figure 1).

    Au niveau de lorganisation primaire de la chromatine, lADN est compact en nuclosomes, units

    fondamentales de la chromatine, comprenant chacun 147 paires de bases dADN enroules autour dun

    octamre dhistones et un ADN de liaison au nuclosome suivant [12]. Loctamre dhistones est compos

    de deux copies des histones H2A, H2B, H3 et H4. Ces histones sont de petites protines extrmement

    conserves au cours de lvolution comportant un domaine central et des extrmits qui sortent du

    nuclosome et qui sont le sige de diverses modifications post-traductionnelles (dcrites en 1.3.2). La

    structure primaire en collier de perles constitue de lenchanement des nuclosomes a un diamtre de

    11 nm et constitue le premier niveau de compactage de la chromatine [11].

    En plus de lenroulement de la molcule dADN autour de loctamre dhistones, la compaction peut tre

    rendue encore plus forte par la liaison de lhistone H1 au nuclosome et lADN de liaison. Cette structure

    de 30 nm de diamtre forme la fibre de chromatine [13].

    Le repliement de la fibre de chromatine un niveau de compaction suprieur forme une fibre de 300 nm

    de diamtre comprenant des boucles de chromatine. Enfin, les niveaux suprieurs dorganisation de la

    chromatine conduisent la formation de chromosomes (Figure 1).

  • Organisation de la chromatine et rgulation de la transcription

    - 21 -

    Figure 1 : De lADN aux chromosomes. La double hlice dADN senroule autour dhistones, pour former des nuclosomes. La succession de nuclosomes forme une structure en collier de perles de 11 nm de diamtre. A un niveau suprieur, la compaction est rendue plus forte pour former la fibre de chromatine de 30 nm de diamtre. Enfin, des repliements successifs forment des chromosomes. Figure adapte de [11].

    1.1.3. Euchromatine et htrochromatine A la fin de la mitose, la chromatine jusqu alors condense sous forme de chromosomes bien visibles se

    dcondense partiellement. La chromatine dcondense est alors appele euchromatine et comprend des

    domaines de chromatine active. Elle est riche en gnes et a une structure ouverte qui la rend relativement

    accessible aux enzymes ncessaires la transcription, telles que lARN polymrase II. Au contraire, une part

    de cette chromatine reste fortement condense ; elle est appele lhtrochromatine. Elle est pauvre en

    gnes et peu accessible la transcription [14] (Figure 2).

    Figure 2 : Euchromatine et htrochromatine. Leuchromatine est la configuration ouverte de la chromatine, accessible la machinerie transcriptionnelle dont lARN polymrase II. Au contraire, lhtrochromatine est une forme condense de la chromatine, associe un tat rpressif de la transcription.

    Lhtrochromatine constitutive est dfinie comme la chromatine qui reste condense dans tous les types

    cellulaires. Elle se trouve gnralement au niveau des centromres et tlomres des chromosomes. Au

    contraire, lhtrochromatine facultative est dfinie comme de leuchromatine qui est mise en silence

    dans certains types cellulaires ou certains stades du dveloppement [14].

    feature

    NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature 449

    may facilitate gene activation, by promoting specific structural interactions between distal sequences, or repression, by occludingbinding sites for transcriptional activators.

    We suggest that the function of archaeal histones reflects theirancestral function, and therefore that chromatin evolved originallyas an important mechanism for regulating gene expression. Its use in

    packaging DNA was an ancillary benefit that was recruited for themore complex nucleosome structure that subsequently evolved inthe ancestors of modern eukaryotes, which had expanded genomesizes. Although their compactness might seem to suggest inertness,chromatin structures are in fact a centre for a range of biochemicalactivities that are vital to the control of gene expression, as well asDNA replication and repair.

    Packaging DNA into chromatinThe fundamental subunit of chromatin is the nucleosome, whichconsists of approximately 165 base pairs (bp) of DNA wrapped in twosuperhelical turns around an octamer of core histones (two each ofhistones H2A, H2B, H3 and H4). This results in a five- to tenfoldcompaction of DNA6. The DNA wound around the surface of the histone octamer (Fig. 1) is partially accessible to regulatory proteins,but could become more available if the nucleosome could be movedout of the way, or if the DNA partly unwound from the octamer. Thehistone tails (the amino-terminal ends of the histone proteinchains) are also accessible, and enzymes can chemically modify thesetails to promote nucleosome movement and unwinding, with profound local effects on the chromatin complex.

    Each nucleosome is connected to its neighbours by a short segment of linker DNA (~1080 bp in length) and this polynucleo-some string is folded into a compact fibre with a diameter of ~30 nm,producing a net compaction of roughly 50-fold. The 30-nm fibre isstabilized by the binding of a fifth histone, H1, to each nucleosomeand to its adjacent linker. There is still considerable debate about thefiner points of nucleosome packing within the chromatin fibre, andeven less is known about the way in which these fibres are furtherpacked within the nucleus to form the highest-order structures.

    Chromatin regulates gene expression Regulatory signals entering the nucleus encounter chromatin, notDNA, and the rate-limiting biochemical response that leads to activation of gene expression in most cases involves alterations inchromatin structure. How are such alterations achieved?

    The most compact form of chromatin is inaccessible and therefore provides a poor template for biochemical reactions such astranscription, in which the DNA duplex must serve as a template forRNA polymerase. Nucleosomes associated with active genes wereshown to be more accessible to enzymes that attack DNA than thoseassociated with inactive genes7, which is consistent with the idea thatactivation of gene expression should involve selective disruption ofthe folded structure.

    Clues as to how chromatin is unpacked came from the discovery thatcomponents of chromatin are subject to a wide range of modificationsthat are correlated with gene activity. Such modifications probablyoccur at every level of organization, but most attention has focused onthe nucleosome itself. There are three general ways in which chromatinstructure can be altered. First, nucleosome remodelling can be inducedby complexes designed specifically for the task8; this typically requiresthat energy be expended by hydrolysis of ATP. Second, covalent modifi-cation of histones can occur within the nucleosome9. Third, histonevariants may replace one or more of the core histones1012.

    Some modifications affect nucleosome structure or labilitydirectly, whereas others introduce chemical groups that are recog-nized by additional regulatory or structural proteins. Still others maybe involved in disruption of higher-order structure. In some cases,the packaging of particular genes in chromatin is required for theirexpression13. Thus, chromatin can be involved in both activation andrepression of gene expression.

    Chromatin remodellingTranscription factors regulate expression by binding to specific DNAcontrol sequences in the neighbourhood of a gene. Although someDNA sequences are accessible either as an outward-facing segmenton the nucleosome surface, or in linkers between nucleosomes, most

    30-nm chromatinfibre of packednucleosomes

    Section ofchromosome in anextended form

    Condensed sectionof chromosome

    Entire mitoticchromosome

    Centromere

    Short region ofDNA double helix 2 nm

    11 nm

    700 nm

    1,400 nm

    30 nm

    300 nm

    "Beads on a string"form of chromatin

    a

    b

    Figure 1Packaging DNA. a, The organization of DNA within the chromatin structure.The lowest level of organization is the nucleosome, in which two superhelical turns ofDNA (a total of 165 base pairs) are wound around the outside of a histone octamer.Nucleosomes are connected to one another by short stretches of linker DNA. At thenext level of organization the string of nucleosomes is folded into a fibre about 30 nmin diameter, and these fibres are then further folded into higher-order structures. Atlevels of structure beyond the nucleosome the details of folding are still uncertain.(Redrawn from ref. 41, with permission). b, The structure of the nucleosome coreparticle was uncovered by X-ray diffraction, to a resolution of 2.8 (ref. 42). It showsthe DNA double helix wound around the central histone octamer. Hydrogen bondsand electrostatic interactions with the histones hold the DNA in place.

    2003 Nature Publishing Group

    Double(hlice(dADN(

    Structure(en((collier(de(perles((

    Fibre(de(chroma5ne((

    Boucles(de(chroma5ne(

    Sec5on(de(chroma5ne(condense(

    Chromosome(

    centromre(

    ARN(pol(II(

    euchroma5ne(

    htrochroma5ne(

  • Chapitre I : Mise en contexte des projets

    - 22 -

    1.1.4. Organisation des chromosomes dans le noyau Les chromosomes sont contenus dans un noyau. Ce dernier nest pas seulement un organite permettant de

    sparer le gnome du cytoplasme, il joue galement un rle important dans lorganisation de la chromatine

    et la rgulation de lexpression.

    Le noyau est dlimit par une double membrane nuclaire. Accole sa face interne, se trouve la lamina,

    ensemble de filaments intermdiaires, de lamines et dautres protines, essentiel dans lorganisation de la

    chromatine [15]. Elle est implique dans la rgulation de lexpression des gnes en interagissant avec de

    nombreux rgulateurs transcriptionnels et participe lorganisation de lhtrochromatine. Les domaines

    associs la lamina sont donc des domaines o la chromatine se trouve sous forme dhtrochromatine,

    tels que les centromres, tlomres ou les gnes dont la transcription est rprime [15]. Ces domaines se

    retrouvent donc prfrentiellement en priphrie du noyau [15] (Figure 3).

    Figure 3 : Organisation de la chromatine dans le noyau. Au niveau de la lamina, se trouvent des domaines dhtrochromatine. Leuchromatine se trouve prfrentiellement vers le centre du noyau.

    Hormis la localisation priphrique de lhtrochromatine, larrangement chromosomique dans le noyau

    est galement organis de manire non alatoire. A linterphase, les chromosomes occupent des rgions

    discrtes dans le noyau, appeles territoires chromosomiques chacun contenant un seul chromosome [16].

    Lagencement des territoires chromosomiques les uns par rapport aux autres nest pas alatoire. Les petits

    chromosomes sont prfrentiellement situs vers lintrieur du noyau et les chromosomes plus grands vers

    la priphrie [17]. Le contenu nuclaire est galement important puisqu taille gale, un chromosome

    pauvre en gnes (comme le chromosome 18) est situ plus en priphrie quun autre plus riche en gnes

    (comme le chromosome 19) [18] (Figure 4). Cette constatation est tout de mme nuance par le fait que

    lagencement des territoires chromatiniens peut varier dun type cellulaire lautre [19].

    Htrochroma5ne((

    lamina(chroma5ne(

    noyau(

    htrochroma5ne(euchroma5ne(

  • Organisation de la chromatine et rgulation de la transcription

    - 23 -

    Figure 4 : Territoires chromosomiques et agencement radial dans le noyau. Les chromosomes sont arrangs en territoires chromosomiques au sein du noyau ; chaque territoire contenant un chromosome. Lagencement radial au sein du noyau est dpendant de la taille et de la richesse en gnes des chromosomes.

    Au sein dun territoire chromosomique, la localisation des gnes semble galement tre lie lexpression,

    les gnes transcriptionnellement actifs tant prfrentiellement localiss en priphrie du territoire [20].

    Lhypothse actuelle serait que cette organisation favoriserait les interactions inter-chromosomiques.

    Deux modles sont actuellement proposs pour dcrire ces interactions (Figure 6).

    Le modle CT-IC (chromosome territory-interchromatin compartment) dcrit deux compartiments

    principaux : les territoires chromosomiques (CTs) et le compartiment interchromatinien (IC). Dans ce

    modle, les territoires chromosomiques sont spars par le compartiment interchromatinien qui forme des

    canaux riches en complexes ncessaires la transcription des gnes mais galement la rplication [21].

    Des boucles de chromatine contenant des gnes actifs stendent lextrieur des territoires dans lespace

    inter-chromatinien et offrent la possibilit dinteractions inter-chromosomiques [22].

    Le modle ICN (Inter-Chromatin Network) propose des zones de recouvrement dans lequels les fibres de

    chromatine de territoires voisins sont troitement associes. Dans ce modle, les protines ncessaires

    la transcription et la rplication diffusent librement entre les boucles de chromatine.

    Figure 5 : Les modles dinteractions entre territoires chromosomiques. Deux modles ont t proposs pour dcrire les interactions entre territoires chromosomiques voisins (CT). A. Le modle CT-IC propose une sparation des territoires par un espace inter-chromatinien (IC), o se trouvent les complexes ncessaires la transcription (TF). B. Le modle ICN propose un recouvrement partiel des territoires chromatiniens et une absence despace inter-chromatinien. Figure issue du site http://www.mechanobio.info/.

    Richesse(en(gnes(Taille(des(chromosomes(

  • Chapitre I : Mise en contexte des projets

    - 24 -

    Dans cette partie, lorganisation de la chromatine a t dcrite et mise en lien avec lactivit

    transcriptionnelle de gnes. La partie suivante se recentre sur la molcule dADN et plus particulirement

    sur les lments non-codants qui entrent en jeu dans la rgulation de la transcription.

    1.2. LADN non-codant

    1.2.1. LADN codant, par opposition lADN non-codant LADN est compos de rgions codantes et de rgions non-codantes.

    Les rgions codantes de lADN sont dfinies comme les rgions du gnome qui codent pour des protines.

    Elles consistent en des squences de nuclotides qui correspondent des squences dacides amins de

    protines. Ces portions codantes, constitues dexons, sont interrompues par des sections non codantes,

    les introns, lensemble formant un gne.

    Le gnome humain comporte prs de 21 000 gnes diffrents codant pour des protines [6]. Ces rgions

    codantes reprsentent seulement 1,5 2,5 % du gnome [23, 24] et sont fortement conserves entre les

    espces [25]. Le reste du gnome est appel ADN non-codant.

    1.2.2. LADN non-codant, ADN poubelle ? LADN non-codant reprsente environ 98 % du gnome humain [24] et a longtemps t appel ADN

    poubelle car il tait considr comme non-fonctionnel [26, 27]. Cest une des raisons pour laquelle les

    tudes de gnomique taient alors centres sur lanalyse des rgions codantes.

    Cependant, lexistence de squences conserves dans les rgions non-codantes implique quelles aient t

    sous pression de slection, ce qui est gnralement signe de fonctionnalit [28-30].

    Parmi les fonctionnalits dcrites de lADN non-codant, on retrouve des lments impliqus dans la

    reconnaissance de la machinerie transcriptionnelle et des facteurs de transcription tels que les promoteurs,

    les enhancers, les silencers et les insulators. LADN non-codant contient galement des squences qui sont

    transcrites en molcules dARN non-codantes mais fonctionnelles telles que les ARNs de transfert, ARNs

    ribosomaux, micro-ARNs et longs ARNs non-codants. Enfin, dautres lments fonctionnels composent

    lADN non-codant tels que les squences rptes jouant un rle structural lchelle chromosomique

    (tlomres, centromres), les introns et les origines de rplication [23] (Figure 6).

    Dans le cadre de ce travail, le sujet dintrt se portera principalement sur les promoteurs et les enhancers.

    1.2.3. Les promoteurs Un promoteur est une squence dADN situe en amont de la squence codante du gne. Il contribue

    linitiation et la rgulation de la transcription en interagissant avec de multiples partenaires dont lARN

    polymrase II.

  • Organisation de la chromatine et rgulation de la transcription

    - 25 -

    Figure 6: ADN non-codant. LADN non-codant comprend des lments rgulateurs de la transcription tels que les promoteurs et enhancers, des lments codant pour des ARNs non-codants, tels que les micro-ARNs et les ARNs ribosomaux et dautres lments jouant diffrents rles dont un rle structural tels que les centromres et tlomres.

    LARN polymrase II ne peut reconnatre seule les promoteurs ; elle est guide par des facteurs de

    transcription gnraux (GTFs) [31]. Le complexe form par ces facteurs et lARN polymrase II constitue le

    complexe de pr-initiation (PIC). Le PIC se fixe sur des sites de liaison prsents dans le promoteur central du

    gne, en amont du TSS. Dautres facteurs de transcription vont galement se lier dautres sites de liaison

    situs dans le promoteur proximal et ainsi influencer la transcription [32].

    Hormis le promoteur, dautres lments comme les enhancers sont capables de moduler la transcription.

    1.2.4. Les enhancers Les enhancers sont des squences dADN qui augmentent la transcription de gnes en interagissant avec

    leurs promoteurs. Cette interaction se fait indpendamment de leur orientation et de leur distance

    relative aux promoteurs de ces gnes. Les enhancers peuvent tre situs en amont ou en aval du gne

    quils rgulent et peuvent tre localiss dans lADN intergnique ou dans un intron [33, 34].

    Une cellule mammifre contient des milliers denhancers actifs, et il est estim quil y a environ un million

    denhancers potentiellement actifs dans le gnome.

    Les enhancers actifs sont en contact avec en moyenne deux promoteurs, ce qui suggre que les enhancers

    rgulent communment de multiples gnes. La majorit des enhancers agissent sur un promoteur localis

    sur la mme molcule, par des interactions dites en cis . Ils sont localiss une distance infrieure 500

    kb du promoteur avec lequel ils interagissent, la distance moyenne tant de 125 kb [35]. 27 60 % dentre

    eux est en contact avec le promoteur le plus proche, alors que les autres sont spars de leur promoteur

    cible par un plusieurs gnes [35]. Il existe galement de rares interactions, dites en trans , entre

    promoteurs et enhancers sur des chromosomes diffrents [35].

    Au contraire des promoteurs pour lesquels lactivit est relativement stable, lactivit des enhancers est

    plus dpendante dun type cellulaire lautre [36]. En effet, il a t montr que les modifications

    dhistones associes aux enhancers (1.3.2) sont hautement spcifiques du type cellulaire et corrlent

    ADN$non6codant$

    Promoteurs(

    Enhancers)

    Insulators))

    Silencers)

    MicroVARNs(

    ARNs(ribosomaux(

    ARNs(de(transfert(

    Longs(ARNs(nonVcodants(

    Elments(transposables(

    ADN(hautement(rp55f((dont(centromres(et(tlomres)(

    Origines(de(rplica5on(

    Introns(

    Pseudognes(

    Rgulateurs(de(la(transcrip5on( Codant(des(

    ARNs(nonVcodant((

    Autres(

  • Chapitre I : Mise en contexte des projets

    - 26 -

    fortement avec lexpression de gnes spcifiques du type cellulaire concern [36]. De plus, laccessibilit de

    la chromatine, qui permet de rveler lactivit des lments rgulateurs (1.4.1), a galement t

    compare dun type cellulaire lautre au niveau des promoteurs et enhancers. Il a t montr que les sites

    accessibles communs diffrentes lignes cellulaires sont gnralement prsents au niveau des

    promoteurs, alors que ceux spcifiques un type cellulaire particulier sont grandement enrichis au niveau

    des enhancers [37 , 38]. Ltude de lpignome implique donc didentifier les enhancers actifs dans chaque

    type cellulaire.

    Enfin, la notion de super-enhancer a rcemment t dcrite comme des groupes denhancers de taille

    pouvant atteindre 50 kb et ayant un rle crucial dans la dfinition de lidentit cellulaire [39].

    1.2.5. Interactions entre promoteurs et enhancers Linteraction entre promoteurs et enhancers nest pas une interaction directe. Des facteurs de transcription

    spcifiques, les activateurs, se lient lenhancer et recrutent le complexe mdiateur. Le mdiateur recrute

    son tour les facteurs gnraux de la transcription pour former le complexe de pr-initiation (PIC) avec

    lARN polymrase II [40] (Figure 7).

    Il semblerait donc que les enhancers soient des centres dassemblage des PIC, qui vont ensuite tre

    associs aux promoteurs [40].

    Linteraction entre le promoteur et lenhancer se fait par la formation dune boucle de chromatine qui

    permet la proximit spatiale des deux lments. La formation de cette boucle est facilite par lintervention

    de la cohsine [40, 41].

    Les enhancers peuvent galement se lier des facteurs de transcription qui recrutent des enzymes

    modificatrices dhistones et des complexes de remodelage de la chromatine, permettant daugmenter

    laccessibilit lADN pour dautres protines [40].

    Figure 7 : Les promoteurs et les enhancers, acteurs de la transcription dun gne. La rgulation de la transcription se fait notamment par linteraction des enhancers avec les promoteurs. Cette interaction fait intervenir diffrents lments dont des protines activatrices, le complexe mdiateur et le complexe de pr-inititation de la transcription compos des facteurs gnraux de transcription (GTFs) et de lARN polymrase II (ARN pol II).

    5(

    3( ADN$

    ac5vateur(

    mdiateur(

    GTFs(ARN(pol(II(

    promoteur( corps(de(gne(

    enhancer)

  • Organisation de la chromatine et rgulation de la transcription

    - 27 -

    Depuis 2010, il a t montr quune fraction des enhancers est transcrite par lARN polymrase II,

    produisant des ARNe (ARN enhancer), trs peu stables et rapidement dgrads par lexosome nuclaire

    [42]. Ces ARNe ont permis didentifier des enhancers actifs, ce qui suggre que la transcription de ces

    enhancers fait partie de leur processus dactivation. De plus, la prsence des ARNe corrle avec la

    transcription de gnes avoisinants, ce qui suggre un rle de ces ARNs non-codant dans la rgulation de la

    transcription. Plusieurs hypothses ont t proposes : les ARNe pourraient avoir un rle structurel dans

    ltablissement ou la stabilisation de la boucle promoteur-enhancer dans le maintien dune configuration

    ouverte de la chromatine ou encore dans linitiation du processus de recrutement de lARN polymrase II

    de lenhancer vers le promoteur [43].

    Le rseau complexe dinteractions entre promoteurs et enhancers commence tre rvl grce aux

    tudes de conformation de la chromatine.

    1.3. Les mcanismes pigntiques, rgulateurs de la transcription

    Toutes les cellules dun individu possdent le mme patrimoine gntique. Pourtant, leurs morphologies et

    leurs fonctions biologiques ne sont pas identiques. Cette diversit vient de la capacit des cellules

    contrler lexpression des gnes de manire diffrencie. Les mcanismes mis en place pour rguler

    lexpression des gnes appartiennent au domaine de lpigntique.

    Le concept dpigntique a t introduit en 1942 par Conrad Hal Waddington pour nommer la branche

    de la biologie qui tudie les relations de cause effet entre les gnes et leurs produits, faisant apparatre le

    phnotype [44]. Aujourdhui, la dfinition la plus couramment admise est ltude des changements du

    phnotype transmissibles dune division cellulaire lautre sans altration de la squence dADN .

    Les mcanismes pigntiques sont multiples. Ils permettent dagir sur ltat de condensation de la

    chromatine et de moduler son accs la machinerie transcriptionnelle [45]. Un premier mcanisme

    intervient au niveau mme de lADN : la mthylation des cytosines. Dautres mcanismes affectent la

    composition et lorganisation de la chromatine. Les histones peuvent tre sujettes des modifications

    post-traductionnelles au niveau de leurs extrmits amino-terminales. De plus, les histones canoniques

    peuvent tre remplaces par des variants dhistones. Ensuite, des complexes ATP-dpendants peuvent

    intervenir dans le remodelage de la chromatine. Enfin, des ARN non-codants tels que les micro-ARN et les

    longs ARN non-codants participent galement la rgulation de la transcription.

  • Chapitre I : Mise en contexte des projets

    - 28 -

    1.3.1. La mthylation des cytosines La mthylation des cytosines est la modification pigntique la plus tudie.

    Rpartition de la mthylation des cytosines dans le gnome

    Chez les mammifres, la mthylation affecte le rsidu en position 5 des cytosines tant directement suivies

    dune guanine (CpG).

    Les CpG sont sous-reprsents dans le gnome du fait de leur susceptibilit muter en TpG par

    dsamination [46, 47] et sont pour la plupart mthyls dans le gnome humain (70-80 %) [48].

    Ils ne sont pas distribus de manire homogne travers le gnome. En particulier, il existe des rgions

    riches en CpG, contenant plus de 55 % de GC et appeles lots CpG [49]. Ces lots sont prsents dans les

    promoteurs de 70 % des gnes et sont gnralement non-mthyls dans les cellules somatiques [50].

    Dans certains cas particuliers, des lots CpG localiss sur les promoteurs sont mthyls. Ils sont pour la

    plupart associs des gnes qui restent long terme dans un tat rpressif, tels que les gnes soumis

    lempreinte [51].

    Les corps de gnes sont le plus souvent pauvres en CpG et sont en gnral mthyls. La mthylation des

    sites CpG dans les exons des gnes est une cause majeure des mutations C -> T. Ces dernires mnent

    parfois des maladies gntiques lorsquelles se passent dans les cellules germinales et des cancers

    lorsquelles se produisent dans les cellules somatiques [52].

    Processus de mthylation et de dmthylation

    Lajout dun groupement mthyle (CH3) sur la cytosine est catalys par les ADN mthyltransfrases

    (DNMTs) en prsence dune adnosylmthionine (SAM) (Figure 8).

    Figure 8 : Mthylation des cytosines et reconnaissance par les MBP La position 5 des cytosines tant suivies dune guanine (CpG) peut tre sujette lajout dun groupement mthyle (CH3) par laction de mthyltransfrases (DNMT) en prsence dune adnosylmthionine (SAM). Le groupement mthyle est reconnu par le domaine MBD (Methyl Binding Domain) de protines.

    Il existe deux classes de mthyltransfrases : les mthyltransfrases dites de novo et celles dites de

    maintenance. Les mthyltransfrases de novo, telles que DNMT3A et DNMT3B, permettent lajout de

    groupements mthyles sur les deux brins de lADN non-mthyl et sont essentielles dans ltablissement

    des motifs de mthylation lors du dveloppement [53]. La mthyltransfrase DNMT1 permet le maintien

    du motif de mthylation travers les cycles cellulaires en catalysant la mthylation du brin nouvellement

    DNMT(SAM(

    MBD(

    H(

    R R R

  • Organisation de la chromatine et rgulation de la transcription

    - 29 -

    synthtis partir de lADN parental hmi-mthyl [53]. Les rles de ces enzymes ne sont cependant pas

    exclusifs et peuvent se montrer redondants dans de nombreux cas. Par exemple, la participation des

    enzymes DNMT3A et DNMT3B est galement ncessaire pour le maintien de la mthylation [54, 55].

    DNMT1 est galement impliqu dans la mthylation de novo, notamment des gnes suppresseurs de

    tumeurs dans les cellules tumorales [56].

    Le processus de dmthylation peut se faire de manire active et passive.

    La dmthylation passive est une perte des groupements mthyles des 5 mthylcytosines (5mC) au cours

    de cycles successifs de rplication en absence de machinerie fonctionnelle de la maintenance de la

    mthylation.

    La dmthylation active est un processus enzymatique qui enlve ou modifie les groupements mthyles

    des 5mC. Elle implique loxydation du groupement 5mC en 5-hydroxymthylcytosine (5hmC), 5-

    formylcytosine (5fC) et 5-carboxylcytosine (5CaC) par les enzymes de la famille TET [57, 58] (Figure 9). Ces

    produits doxydation sont principalement prsents dans les cellules humaines neuronales et les cellules

    souches embryonnaires. Les produits doxydation 5fC et 5CaC sont ensuite reconnus par une enzyme de

    rparation de lADN appele thymine DNA glycosylase (TDG) qui peut enlever ces groupements et restaurer

    le nuclotide C [59] (Figure 9). Ces modifications sont impliques dans la rgulation de la transcription [60].

    La modification 5hmC, qui est la plus tudie aprs 5mC, est reconnue par des rgulateurs transcriptionnels

    et des enzymes de remodelage de la chromatine distincts de ceux recruts par 5mC. Elle joue un rle

    essentiel notamment dans le dveloppement embryonnaire et la plasticit des cellules [61].

    Figure 9 : Oxydation des groupements mthyles par les enzymes TET et dmthylation de lADN. Les enzymes TET catalysent loxydation du groupement 5-mthylcytosine (5mC) en stades successifs : 5-hydroxymthylcytosine (5hmC), 5-formylcytosine (5fC) et 5-carboxylcytosine (5CaC). Cette oxydation est une tape de la dmthylation des cytosines ; elle est suivie de laction denzymes telles que la thymine DNA glycosylase (TDG) qui peut alors enlever les groupements 5fC et 5caC pour restaurer le nuclotide C non mthyl.

    20

    13 N

    atur

    e A

    mer

    ica,

    Inc.

    All

    righ

    ts r

    eser

    ved.

    PROTOCOL

    1842 | VOL.8 NO.10 | 2013 | NATURE PROTOCOLS

    conjunction with next-generation sequencing, this method is platform agnostic and compatible with the analysis of 5mC and 5hmC at single-base resolution in both whole-genome or targeted-region formats. Besides whole-genome analysis, oxBS-seq is compatible with enrichment and targeting tech-niques, such as post-bisulfite locus-specific PCR and reduced- representation BS-seq14,18.

    ComparisonsOther methods for the detection of 5hmC in the genome rely on the -glucosyltransferase ( GT) from the T4 bacteriophage that glucosylates 5hmC. However, GT is known to be an inefficient glucosylating agent on symmetrically hydroxymethylated CpGs19, a context that is typical of the majority of 5hmCs19.

    5mC and 5hmC can be mapped using antibodies that are commercially available20. Other pull-downbased methods have been developed to detect 5hmC, using GT followed by chemical attachment of biotin to the glucose moiety and subsequent pull-down and sequencing21. Implementation of these methods gives a low-resolution map with little quantitative information.

    A recently published study has shown that a DNA modificationdependent enzyme, AbaSI, can digest DNA 1113 bp away from a GT-glucosylated 5hmC, when another cytosine is also present 911 bp away in the opposite direction22. This AbaSI-based method can detect 5hmC with relative quantitative reliability and single-base resolution in

  • Chapitre I : Mise en contexte des projets

    - 30 -

    Mthylation de lADN et rgulation de lexpression

    La mthylation de lADN participe la rgulation de lexpression.

    Labsence de groupements mthyles dans les promoteurs est associe la prsence dune structure

    ouverte de la chromatine permettant laccs la machinerie transcriptionnelle. Au contraire, lorsque ces

    promoteurs prsentent des lots CpG mthyls, ils sont souvent associs une rpression de lexpression

    par deux mcanismes majeurs. Ils peuvent empcher leur reconnaissance par les facteurs de transcription

    ou peuvent recruter des protines MBD (Methyl-Binding Domain) [55]. Ces protines recrutent leur tour

    dautres protines impliques dans la rpression de lexpression telles que des histones dsactylases ou

    des complexes de remodelage de la chromatine [55] (voir 1.3.2 et 1.3.3).

    Au contraire des promoteurs, la mthylation des corps des gnes nest pas associe une rpression de

    lactivit transcriptionnelle [55]. Elle affecte plus les exons que les introns, et plus frquemment les exons

    inclus que les exons exclus dans les transcrits lors de lpissage. Ces observations suggrent un rle de la

    mthylation dans le contrle de lpissage [62-64].

    Enfin, la mthylation dans les rgions rptitives telles que les centromres est importante pour la stabilit

    chromosomique [65, 66].

    La mthylation de lADN nintervient pas seule dans la rpression de lexpression. Elle agit de concert avec

    dautres modifications, telles que la mthylation et lactylation des histones.

    1.3.2. Les modifications post-traductionnelles des histones Les histones ont un corps globulaire et des extrmits amino-terminales exposes lenvironnement

    nuclaire (Figure 10). Ces dernires peuvent de ce fait tre sujettes des modifications post-

    traductionnelles telles que lactylation, la mthylation, la phosphorylation, lubiquitination, la

    citrullination, la sumoylation ou la biotinylation (Figure 11) [67].

    Figure 10 : Structure dun nuclosome. Le nuclosome est compos dun octamre dhistones autour duquel lADN senroule. Des extrmits amino-terminales manent du corps globulaire de loctamre dhistones et sont le sige de modifications post-traductionnelles. Figure adapte de www.alcf.anl.gov/.

    Corps(globulaire(de(loctamre(dhistones(

    Extrmits(aminoVterminales(des(histones(

    ADN(enroul(autour(de(loctamre(dhistones(

  • Organisation de la chromatine et rgulation de la transcription

    - 31 -

    Figure 11 : Modifications dhistones. Parmi les modifications post-traductionnelles des extrmits amino-terminales des histones, se trouvent la phosphorylation (P), lactylation (A), lubiquitination (U), la mthylation (M), la citrullination (C), la sumoylation (S) et la biotinylation (B). Figure issue de [68].

    La prsence de certaines modifications post-traductionelles corrle avec des tats dactivit spcifiques de

    gnes.

    Le code des histones

    La caractrisation systmatique de certaines modifications dhistones a conduit proposer lexistence dun

    code histones qui classifie la chromatine en tats caractriss par la prsence ou non de modifications

    dhistones [69]. Une tude de rfrence a propos 15 tats chromatiniens partir de combinaisons de

    diffrentes modifications dhistones et de la prsence du facteur de transcription CTCF, associ aux

    insulators [70]. Ils sont dcrits dans la Figure 12.

    La nomenclature des modifications dhistones est la suivante :

    - le nom de lhistone (ex : H3)

    - la lettre correspondant lacide amin (ex : K pour lysine) et sa position dans la protine

    - le type de modification (ex : me pour mthylation ; ac pour