22
UE11 – Parcours 3 – Génétique – Cours 1 24/02/2016 Pr Vidaud Michel michel.vidaud@parisdescart es.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain Plan : I. Rappels sur le génome a. Gènes b. ARN II. Séquences répété es dispers ées a. Transposons b. Retro-transposons non autonomes i. SINE ii.Retro-pseudogènes c. Retro-transposons autonomes i. Non LTR ii.LTR d. Séquences non dispersées III. Polymorphismes du génome humain a. Généralités b. SNP/SNV c. Variants structuraux Abbr é viations : pb : paire de bases ; ncARN : ARN non codants ;

 · Web viewPr Vidaud Michel [email protected] RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

  • Upload
    vudieu

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

UE11 – Parcours 3 – Génétique – Cours 1

24/02/2016Pr Vidaud Michel

[email protected]

RT : Ninon CorrublePauline BessonRL : Sylvia Rose

Structure, organisation, dynamique et polymorphismes du génome humain

Plan   :

I. Rappels sur le génome a. Gènesb. ARN

II. Séquences répété es dispers ées a. Transposonsb. Retro-transposons non autonomes

i. SINEii. Retro-pseudogènes

c. Retro-transposons autonomes i. Non LTRii. LTR

d. Séquences non dispersées III. Polymorphismes du génome humain

a. Généralitésb. SNP/SNVc. Variants structuraux

Abbr é viations   : pb : paire de bases ; ncARN : ARN non codants ; ITR : séquences répétées inversées ; SINE : Short INterspersed Element ; TSD : Target Signal Duplication ; RT : Reverse Transcriptase ;

LTR : Long Terminal Repeat ; LINE : Long INterspersed Element ; SNP : Single Nucleotide Polymorphism ; NGS : New Generation Sequencing ; MAF : Minor Allele Frequency ; CNVs : Copy Number Variations

Mot du RT :

Page 2:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Il y a 3 cours préliminaires de génomique au parcours génétique, celui-ci est le premier. La plupart des articles cités sont consultables en ligne, sinon il est possible d’envoyer un mail au prof pour qu’il vous les envoie.

I. Rappels sur le génome

a. Gènes

Le mot génome désigne l'ensemble de l'information héréditaire d'un organisme présente en totalité dans chaque cellule. Le support matériel de l'information génétique est l'ADN (A, T, G et C) plus rarement l’ARN (A, U, G et C). La taille des génomes est très variable.La génomique recouvre le champ des nombreuses activités rattachées à l’analyse exhaustive et à l’exploitation des génomes. De nos jours on étudie le génome dans sa globalité.

La taille des génomes est très variable :VIRUS : quelques milliers pb BACTERIES : quelques millions pbMAMMIFERES : quelques milliards pb

Le génome nucléaire humain fait environ 6.109 pb, mais n’est pas intégralement constitué de séquences codantes pour des protéines. Par comparaison le génome mitochondrial, circulaire, fait 16,6.103 pb.

Le génome humain a commencé à être séquencé en 1990 par un projet The Human Genome Project (1990-2003) (Francis Collins, Eric Lander, James Watson). La méthode de Sanger a été utilisée pour ce projet. Des chercheurs français ont réussi à construire la carte génétique permettant de séquencer le génome humain. La première publication d’une version du génome humain date de 2001, puis confirmée en 2004. Cette étude a nécessité le travail de près de 3000 chercheurs, a duré 13 ans et coûté 2.7 milliards de dollars. Depuis 2008, on utilise une nouvelle méthode de séquençage NGS (Révolution du séquençage). En 2016, les séquenceurs de nouvelle génération sont capables de séquencer un génome entier en quelques jours pour mois de 1000$. En octobre 2015 est sorti un article dans Nature qui proposait de

séquencer le génome de 2500 individus d’éthnies diverses.

La version d’août 2015 du projet GENCODE annonce qu’il y a un peu moins de 20000 gènes codants pour des protéines (1,2 % du génome). Leur taille est très variable (de 1kB à 2Mb). La plupart des gènes sont morcelés en exons (~220 000 exons) séparés par des introns dont le nombre est très variable d’un gène à l’autre. De nos jours, grâce au séquençage de l’ADN mais aussi de l’ARN, nous savons que plus de 95% des gènes sont soumis à transcription alternative, épissage alternatif ou maturation 3’ alternatifs. Donc à partir des 20 000 gènes on dénombre 80 000 transcrits codant des protéines impliqués dans la production de 250 000 à 1 million de protéines différentes.

Page 3:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

On rappelle que pour un gène on a une initiation de transcription, des exons, des 5’ UTR et 3’UTR (région transcrite et non traduite) et des introns. Le gène sera transcrit en ARNm qui sera coiffé et aura lieu une maturation 3’ grâce à l’utilisation de différents signaux de polyadénylation, puis vient l’épissage (ligature des exons). On pourra de plus faire de la transcription alternative (plusieurs promoteurs pour un gène), un gène pourra avoir des fins de transcriptions différentes (signaux de polyadénylation alternatifs) et on pourra aussi avoir de l’épissage alternatif. Tout ceci permettant la production de nombreuses protéines. On joue sur ce système pour réguler l’expression des gènes. Le NMDA par exemple permet de créer des codons stop et de dégrader des gènes abîmés.

b. ARN non codants

La révolution conceptuelle et thérapeutique concerne les ARN non codants (ARNnc) qui peuvent avoir une fonction dans le cytoplasme ou le noyau. Ces ARNnc sont de nos jours le sujet le plus compliqué et le plus innovant de la biologie actuelle en génétique car ils joueraient un rôle dans l’expression des gènes. Il y a plus de gènes produisant des ARNnc que des ARN codants. Il y a 25 000 gènes produisant des ARNnc, et on va en distinguer 2 suivant la taille des ARN produits : les Long ncRNA (plus de 200 pb) et les Short ncRNA (moins des 200 pb).Cette découverte du monde des non codants a valu à A. Fire et à C. Mello un prix Nobel en 2006 (découvert des ARN anti-sens).

Les ARNnc jouent un rôle majeur sur la régulation de l’expression des gènes : à la fois sur la modification de la chromatine, sur la transcription par la polymérase 2, sur des phénomènes comme l’épissage ou encore la stabilité des ARNm ou la traduction des protéines.

Parmi les Short ncARN les plus importants, nous retrouvons : - les miARN qui possèdent des rôles fondamentaux dans l’expression des gènes. - les piARN (appelé PIWI) : ce sont des ARN de petites tailles qui jouent un rôle majeur dans le

contrôle des transposons et aussi dans des mécanisme épigénétiques. Ils forgent une sorte de système immunitaire pour le génome

- les ARN nucléolaires qui participent à la maturation des ARN ribosomiques, dans l’épissage alternatif et sont aussi impliqués dans un certain nombre de pathologie.

Page 4:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Le prof nous encourage à aller voir les articles de la revue Médecine Science pour plus d’informations.

Parmi les ARNnc, les plus importants et les plus nombreux sont les LncARN (plus de 200 pb). Ils vont jouer un rôle majeur dans le développement normal et pathologique. Ils sont définis par leur position relative aux gènes codants situés à leur proximité. Ils peuvent être intergéniques, antisens, introniques ou divergents. Ils jouent un rôle absolument essentiel dans l’expression de nos gènes. Pour citer un exemple probant : Le LncARN qui participe à l’inactivation du chromosome X, appelé Xist.

II. Séquences répétées dispersées

Ces séquences, aussi appelées séquences répétées mobiles, ont été découvertes lors du séquençage du premier chromosome humain (chromosome 22) en 1999 et représentent 45% du génome. Il en existe deux types : les transposons et les retro-transposons.

a. Transposons

Barbara McClintock les a découverts, ce qui lui a valu un prix Nobel en 1983 (une des seules femmes à l’avoir obtenu seule).

Les transposons sont beaucoup moins fréquents que les retro-transposons, bien qu’ils correspondent tout de même à 3% du génome humain. Ils sont systématiquement encadrés par des séquences répétées inversées/directes (ITRs Inverted Terminal Repeat sequences).

Ces séquences d’ADN sont inactives depuis 40 millions d’années car les ITRs ont accumulées trop de mutations, mais si elles étaient actives, elles coderaient pour une protéine Transposase. Celle-ci reconnait les ITR qui encadrent le transposon, et excise la séquence pour l’intégrer à un autre endroit dans le génome. D’où la présence d’un signal d’adressage nucléaire (NLS) car la protéine assure sa fonction dans le noyau. Ils sont mobiles sur mode Couper/Coller.

En outre, des chercheurs ont essayé (et réussi) de reconstruire le transposon actif tel qu’il devait être il y 40 millions, puis l’ont intégré dans des cellules nommées Sleeping Beauty (SB). La transposase SB peut être utilisée en mutagénèse dirigée, voire en thérapie génique pour intégrer une séquence d’intérêt à un endroit particulier du génome. Pour ce faire, il suffit de flanquer la séquence d’intérêt des ITR, et d’intégrer cette construction dans un plasmide qui contient également SB. La transposase va alors cliver la séquence d’intérêt du plasmide pour l’intégrer dans le génome cible. L’avantage de cette technique est qu’elle utilise des plasmides, plus pratiques que les virus. Cela peut avoir un but thérapeutique (vecteur de thérapie génique) ou diagnostic (quel gène est impliqué dans le cancer).

Page 5:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Certains de ces transposons dans le génome humain ont dérivé et ont été réactivé pour servir une fonction particulière. Par exemple les gènes RAG1 et RAG2, impliqués dans la recombinaison des gènes de l’immunoglobuline, sont des anciens transposons.

b. Retro-transposons non autonomes

Les retro-transposons sont des éléments mobiles via un intermédiaire ARN selon un mécanisme Copier/Coller. La séquence ADN est transcrite en ARN puis reverse-transcrite en cDNA puis elle va s’insérer dans le génome. Ils peuvent être autonomes ou non.

i. SINEs

Les retro-transposons non autonomes sont les séquences SINEs : Short Interspersed Nuclear Elements. Mesurant quelques centaines de nucléotides, on peut individualiser au sein des SINEs les séquences Alu.

Ces séquences sont apparues il y a 60 millions d’années. Aujourd’hui il existe 1,1 millions de copies des séquences Alu dans le génome humain (environ 10% du génome). Les séquences Alu dérivent de l’ARN 7SL qui constitue la Signal Recognition Particule (SRP) (particule qui réagit avec les protéines qui sont destinées à être sécrétées) qui a subi une duplication, des remaniements pour devenir la séquence Alu chez l’Homme. La séquence Alu est donc spécifique aux primates. Les séquences Alu (et les SINEs en général) sont riches dans les bandes R (riches en G/C). La séquence consensus de 280pb est relativement conservée ce qui nous permet de voir que les séquences Alu sont assez spécifiques à l’Homme.

Les séquences Alu, comme tous les retro-transposons, sont encadrées par des séquences répétées directes (TSD : Target Site Duplication). L’élément ARN s’apparie avec, la reverse transcriptase recopie l’élément à insérer et la réparation entraîne une duplication du site d’intégration.

Les insertions des séquences Alu peuvent s’insérer dans des gènes importants et peuvent donc être responsables de pathologies génétiques. On a découvert que 60 insertions de novo sont à l’origine de pathologies héréditaires. Ces séquences peuvent aussi jouer un rôle dans certaines pathologies somatiques.

On va donc retenir que les séquences Alu correspondent à environ 10% du génome humain, que moins de 1000 copies (~850) sont encore actives et qu’il existe des copies polymorphes. On estime que dans 1 naissance sur 20, on retrouve une séquence Alu qui n’existait pas chez les parents.

Les SINEs comportent aussi d’autres séquences, telles que les séquences SVA (SINE-VNTR-Alu), toujours mobiles. Elles jouent un rôle dans certaines maladies héréditaires lors de mauvaises insertions

Page 6:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

ii. Retro-pseudogènes

Les « processed pseudogenes » sont des gènes qui ont été processés, c’est-à-dire ceux sont des ARNm qui ont été reverse-transcriptés en ADNc, puis qui vont s’insérer aléatoirement dans le génome. Ils ne possèdent donc pas d’introns, ni de promoteur, et ne sont donc pas transcrit. Il va donc accumuler des mutations, et va prendre le statut de retro-pseudogènes.

Cependant certains se sont retro-transposés à proximité de promoteurs, leur permettant ainsi d’être transcrit, on parle alors de retrogène (=rétro-pseudogène actif). La pyruvate déshydrogénase par exemple est située sur le chromosome X mais possède des retrogènes sur les chromosomes pour qu’il puisse s’exprimer même si le X est absent dans la cellule (gamète 23Y). Les retrogènes peuvent donc être des gènes ubiquitaires indispensables pour la survie de la cellule.

c. Retro-transposons autonomes

i. Non LTR

NB : Les LTR (Long Terminal Repeat) sont des séquences que l’on va retrouver dans les rétrovirus. Ce sont des séquences répétées contenant tous les facteurs de transcription, tout le promoteur, pour permettre la transcription des rétrovirus.

Page 7:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Il s’agit des séquences LINEs (Long INterspersed Elements), qui sont long de plus d’1kb, et correspondent à environ 20% du génome.La plus connue est la séquence L1 : il en existe 500 000 copies et la plupart des copies sont incomplètes et tronquées en 5’. Comme pour les SINEs, les séquences L1s sont encadrées par des séquences TSD Target Site Duplication. Les séquences L1s correspondent tout de même à 17% du génome, et se retrouvent principalement dans les bandes G (A/T riches). Il y aurait une quarantaine d’éléments actifs mais 6 sont plus actifs que les autres, on les appelle les hot L1s. La séquence L1 est spécifique aux mammifères (et non pas aux primates comme les SINEs).Ces séquences sont transcrites par l’ARN polymérase II, et possèdent des phases ouvertes de lecture (ORF) : ces séquences sont donc capables de produire des protéines. Il en existe 3 dont une (ORF 2) qui code la Reverse Transcriptase. On vient de découvrir l’ORF 0 qui est spécifique des primates. Cette ORF joue un rôle important dans la mobilité des séquences LINEs et joue donc un rôle dans certaines pathologies. ORF 1 et ORF 2 sont dans un sens et ORF 0 est antisens (elle donne des transcrits antisens).

Mécanisme de la mobilité des L1s :La séquence L1 active est

transcrite en un ARNm qui va être traduit dans le cytoplasme en protéines : ORF1p et ORF2p qui correspond à la reverse transcriptase. On crée ainsi une ribonucléoprotéine, qui va être réinternalisée dans le noyau afin de recopier la L1 et de l’intégrer dans une autre partie du génome.Néanmoins, la Reverse Transcriptase est peu processive, elle a du mal à recopier toute la séquence (entre 5 et 6 kb). Cela arrive qu’elle s’arrêter avant d’avoir tout recopier, ce qui explique pourquoi les L1s sont souvent tronquées en 5’, donc inactives.Cette même Reverse Transcriptase est celle qui reverse-transcrit les séquences Alu, les séquences SVA ainsi que tous les ARNm cellulaire. Donc le moteur de la reverse-transcription de notre génome est la Reverse Transcriptase de nos séquences L1s.

Dans quels tissus sont actives les séquences L1s ?Au niveau des gamètes ou au niveau des premiers stades embryonnaires, les L1s sont

surement actives afin de permettre la modification évolutive de notre génome. Cela pourrait expliquer certaines maladies héréditaires avec apparition de mutations de novo. On découvre aujourd’hui qu’elles s’expriment également dans les cellules somatiques.

Dans les cellules neuronales, les séquences L1s sont inactivées (par condensation de la chromatine par méthylation de H3K9 et H3K27 et inhibition par des FT) empêchant ainsi leur mobilité. Pendant la différenciation neuronale, la chromatine est acétylée et s’ouvre. Il y a alors levée d’inhibition par HDAC et SOX2 et les séquences L1 peuvent être transcrites et s’insérer au niveau de gènes impliqués dans la différenciation neuronale. C’est la mosaïque somatique neuronale. De nouvelles techniques d’analyse de retrotranspositions de novo ont permis d’affirmer l’hypothèse au niveau de l’hippocampe par exemple.

Page 8:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Les lymphocytes sont également concernés car ils ne peuvent se différencier sans modification de leur génome.

Les anomalies de méthylation des cancers pourraient également permettre l’insertion de séquences LINE.

En additionnant les L1s et les Alu on obtient 750 millions de pb. Au cours des 6 derniers millions d’années, le génome humain a accumulé 2000 L1s, 7000 Alu et 1000 SVAs ce qui représente plus de 8 millions de paires de bases. On a identifié 92 maladies héréditaires pour lesquelles la mutation causale est une insertion de L1 (25), Alu (60) ou SVA (7).

L’impact des insertions des retro-transposons dans le génome peut être : la mutagénèse insertionnelle, on peut créer de nouveaux exons, etc... Cela impact l’expression génomique (épissage alternatif, modulation expression de gènes, élongation de transcrits, régulation épigénètique, etc...).

Nous devons essayer de bloquer la mobilité de ces séquences :• Par les piRNA : microARN dédiés à la régulation négative des retro-éléments. Ils sont

pris en charge par des protéines PIWI et peuvent alors reconnaître les éléments et les méthyler pour les inactiver. Ils ont surtout un rôle essentiel dans les gamètes.

• Par les protéines comme KZNF• Par « variegation » = régulation à distance.

On a donc des systèmes très dynamiques permettant de réguler les retro-éléments dans les gamètes pendant la phase germinale, mais aussi dans le cerveau et dans les cellules tumorales.

ii. LTR

Parmi les retro-transposons autonomes avec LTR, on retrouve les HERV Human Endogenous Retroviruses. Ils représentent 8% de notre génome. Ce sont des vestiges d’infections des cellules germinales de nos ancêtres par des rétrovirus (transmission verticale). Ce sont des rétrovirus endogènes et sont inactifs en tant que rétrovirus : pas de production de protéines virales.

La fusion du syncitium du placenta est liée à l’expression de provirus comme la syncitine. Les PERV (Porcine Endogenous Retro-Virus) présents chez le porc sont régulés par le cochon lui-même. On a eu peur des recombinaisons chez l’humain d’où le moratoire contre les xénogreffes. Si on élimine les PERV grâce au système CRISPR-Cas9 on pourra alors peut-être enfin faire des greffes du cœur de cochon chez l’homme

d. Séquences non dispersées

L’hétérochromatine est la chromatine condensée de notre génome. Elle est faite de séquences répétées non pas dispersées mais en tandem qui sont concentrées dans les régions centromères et sub-télomériques. On va distinguer l’ADN satellite, minisatellite et microsatellite (STR subtelomeric repeats element et télomères).

NB : À l’extrémité des télomères on a des séquences TTAGGG qui sont essentielles au maintien des régions sub-télomériques.

Les séquences non codantes mais conservées (3 à 4% du génome nucléaire) ont été découvertes en 2005 en séquençant puis comparant des espèces. Leur fonction n’est pas encore déterminée mais joue certainement un rôle dans la régulation des gènes.

Page 9:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

BILAN :

III. Polymorphisme du Génome Humain

a. Généralités

Le polymorphisme désigne la coexistence de plusieurs allèles pour un gène ou un locus donné, dans une population donnée.

Les polymorphismes peuvent être explorés par :

❖ analyse des caractères (polymorphisme phénotypique, exemple : couleur des yeux)

❖ analyse des protéines (polymorphisme protéique, exemple : groupe ABO, HLA)

❖ analyse chromosomique (polymorphisme chromosomique)

❖ analyse de la séquence ADN (polymorphisme nucléotidique).

Page 10:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Les polymorphismes chromosomiques et nucléotidiques n’ont pas besoin de siéger dans des séquences codantes pour être détectés.

Le premier polymorphisme a été découvert par YW Kan en 1978, en observant chez des patients sains des bandes de restriction de taille différentes sur des Southern Blot destinés au diagnostic de la drépanocytose. Il a ainsi découvert les polymorphismes de sites de restriction (RFLP).

Le deuxième polymorphisme a été découvert par A Jeffreys. Il s’agit des minisatellites ou VNTRs qui sont les initiateurs des empreintes génétiques. Ils ont ainsi servi à la police scientifique mais cette méthode ne s’est pas révélée assez spécifique, on utilise aujourd’hui l’ADN microsatellite ou STR qui correspond à des petites séquences répétées en tandem. Les répétitions peuvent être mono, di ou trinucléotidiques et sont régulièrement réparties sur toute l’euchromatine (1 STR toutes les 30 Kb). Quand les microsatellites sont des polymorphismes multi-alléliques dont l’unité de répétition n’est pas un multiple de 3, ils ne sont pas logiquement pas situés dans les exons pour ne pas décaler le cadre de lecture. La variation du nombre de répétitions des STRP (Short Tandem Repeat Polymorphism) est liée à un dérapage de l’ADN polymérase lors de la réplication de l’ADN. La probabilité que deux individus présentent les mêmes polymorphismes étant de 1/1000000, cette méthode d’analyse des microsatellites est très efficace pour la police.

Les STR peuvent aussi avoir un rôle dans l’expression des gènes car ils sont situés dans la région du promoteur, on les appelle des eSTR.

b. SNPs/SNVs

Les SNPs (Single Nucleotide Polymorphism) sont des remplacements d’un nucléotide par une autre. Les transitions (Substitution d’une purine par une purine et d’une pyrimidine par

une pyrimidine) sont plus courantes que les transversions. Le

SNP le plus fréquent est C->T. En effet, la méthylation de l’ADN a lieu sur la Cytosine des dimères CG. Or, lorsqu’on désamine cette Cytosine méthylée, on obtient une Thymine.

Ces polymorphismes sont le plus souvent bi-alléliques. Il faut qu’au moins 1% de la population présente cette variation pour qu’on puisse parler de polymorphisme.

Page 11:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

On référence désormais tous les polymorphismes connus dans des bases de données (ex : rs1205). Un projet a séquencé le génome de 2500 individus de populations différentes, a étudié leur exome et a les variations de structures. Les chercheurs en sont venus à la conclusion qu’il y 85 millions de SNP présents dans tout le génome.

On définit l’haplotype comme la succession des allèles d’un gène ou d’un locus sur une région chromosomique de petite taille. L’absence de recombinaison génère des haplotypes. Le projet HapMap lancé il y a quelques années consiste à cataloguer tous les haplotypes du génome humain pour aider à rechercher les variations de séquence impliquées dans les maladies

Historiquement un polymorphisme se définissait par la fréquence de son allèle le plus rare (MAF : Minor Allele Frequency) qui devait être supérieure à 1%, en dessous il s’agissait d’une variation. Les classifications actuelles changent, et définissent maintenant :

❖ SNP commun   (8 millions) : MAF>5%

❖ SNP peu fréquent   (12 millions) : MAF entre 0,5% et 5%

❖ SNP rare   (65millions) : MAF<0,5%

Aujourd’hui on préfère utiliser le terme de SNV (single nucleotid variants) :

❖ bénins

❖ probablement bénins

❖ à signification inconnue

❖ probablement pathogènes

❖ pathogènes

c. Variants structuraux

En fonction de la taille de la variation structurale, on distingue :

• Les INDEL qui correspondent à des insertions /délétions de moins de 50 nucléotides (on en recense 3,6 millions).

• Les autres variations de structure de plus de 50 nucléotides sont appelés variants structuraux (on en recense 60 000). Parmi eux on recense les CNVs, grandes délétions, inversions et MEI (insetion d’éléments mobiles tels qu’Alu, L1 et SVA).

Page 12:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Les CNVs (Copy Number Variations) sont des variations du nombre de copies de segments d’ADN (on en recense 10 000). Elles varient entre 50 et 3 millions de nucléotides et, si elles sont de grande taille, elles peuvent inclure des gènes codant les protéines. Elles peuvent être bi-allélique (images A, B) mais aussi multi-allélique (image C). Elles sont analysables par CGH Array et par NGS (Next Generation Sequencing).

Conclusion sur le génome moderne

Un génome typique possède:

60 000 gènes parmi lesquels 20 000 codent pour des protéines et 25 000 pour des ARN non codants.

plein de variations (4 à 5 millions de variations entre 2 individus) dont 99,9% correspondent à des SNV ou des short INDEL. On estime qu’il y a entre 2000 et 2500 variants structuraux entre deux individus (surtout des délétions larges, et MEI). Les variations ont plus lieu dans les introns que dans les exons car il y a moins de pression, mais aussi dans les régions de régulations (UTR, Promoteur, insulateur, enhancer, TFBS).

Le génome est d’une grande complexité, avec un polymorphisme monumental et des transposons qui remanient la chromatine.

Page 13:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

Le séquençage du génome est devenu extrêmement simple et va permettre d’accumuler des informations essentielles

FICHE RECAPITULATIVEI. Rappels sur le génome

a. GènesLe génome nucléaire humain fait environ 6.109 pb, mais n’est pas intégralement constitué de séquences codantes pour des protéines.

Pour un gène on a une initiation de transcription, des exons, des 5’ UTR et 3’UTR (région transcrite et non traduite) et des introns. Le gène sera transcrit en ARNm qui sera coiffé et aura lieu une maturation 3’ grâce à l’utilisation de différents signaux de polyadénylation, puis vient l’épissage (ligature des exons). La production de nombreuses protéines est conséquence de trois mécanismes à retenir : transcription alternative ; plusieurs promoteurs pour un gène, signaux de polyadénylation alternatifs, épissage alternatif et maturation 3’ alternative. On joue sur ce système pour réguler l’expression des gènes. Le NMDA par exemple permet de créer des codons stop et de dégrader des gènes abîmés. Donc à partir des 20 000 gènes codants on dénombre 80 000 transcrits codant des protéines impliqués dans la production de 250 000 à 1 million de protéines différentes.

b. ARNIl y a plus de gènes produisant des ARNnc non codants que des ARN codants. Il y a 25 000 gènes produisant des ARNnc, et on va en distinguer 2 suivant la taille des ARN produits : les Long ncRNA (plus de 200 pb) et les Short ncRNA (moins des 200 pb). Les ARNnc jouent un rôle majeur sur la régulation de l’expression des gènes : à la fois sur la modification de la chromatine, sur la transcription par la polymérase 2, sur des phénomènes comme l’épissage ou encore la stabilité des ARNm ou la traduction des protéines.Parmi les Short ncARN les plus importants, nous retrouvons : les miARN, piARN, ARN nucléolairesLes Long ncARN, les plus importants et les plus nombreux, vont jouer un rôle majeur dans le développement normal et pathologique. Ils peuvent être intergéniques, antisens, introniques ou divergents. Par exemple, le LncARN participe à l’inactivation du chromosome X, appelé Xist.

II. Séquences répété es dispers ées / séquences répétées mobiles (45% du génome)a. Transposons (3% du génome)

Ces séquences d’ADN sont inactives depuis 40 millions d’années car les séquences répétées inversées terminales (ITRs Inverted Terminal Repeat sequences) qui les encadrent systématiquement, ont accumulées trop de mutations. Si elles étaient actives, elles coderaient pour une protéine Transposase. Celle-ci reconnait les ITRs qui encadrent le transposon, et excise la séquence pour l’intégrer à un autre endroit dans le génome.Des chercheurs ont essayé de reconstruire le transposon actif tel qu’il devait être il y 40 millions, puis l’ont intégré dans des cellules nommées Sleeping Beauty (SB). Cela pourra avoir un but thérapeutique (vecteur de thérapie génique) ou diagnostic (quel gène est impliqué dans le cancer).

Page 14:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

b. Retro-transposons non autonomesLes rétro-transposons sont des éléments mobiles via un intermédiaire ARN selon un mécanisme Copier/Coller. La séquence ADN est transcrite en ARN puis reverse-transcrite en ADNc puis elle va s’insérer dans le génome.

i. SINEsLes retro-transposons non autonomes sont les séquences SINEs : Short Interspersed Nuclear Elements. Mesurant quelques centaines de nucléotides, on peut individualiser au sein des SINEs les séquences Alu : spécifiques aux primates, riches dans les bandes R (riches en G/C). Les séquences Alu, comme tous les retro-transposons, sont encadrées par des séquences répétées directes (TSD : Target Site Duplication). L’élément ARN s’apparie avec puis la Reverse transcriptase recopie l’élément à insérer et la réparation après insertion dans le génome entraîne une duplication du site d’intégration. Les insertions des séquences Alu peuvent s’insérer dans des gènes importants et peuvent donc être responsables de pathologies génétiques.

On va donc retenir que les séquences Alu correspondent à environ 10% du génome humain, que moins de 1000 copies (~850) sont encore actives et qu’il existe des copies polymorphes. On estime que dans 1 naissance sur 20, on retrouve une séquence Alu qui n’existait pas chez les parents.

ii. Retro-pseudogènesLes « processed pseudogenes » correspondent à des ARNm qui ont été reverse-transcriptés en ADNc, puis qui vont s’insérer aléatoirement dans le génome. Ils ne possèdent donc pas d’introns, ni de promoteur, et ne sont donc pas transcrit. Il va donc accumuler des mutations, et va prendre le statut de retro-pseudogènes. Cependant certains se sont retro-transposés à proximité de promoteurs, leur permettant ainsi d’être transcrit, on parle alors de retrogène (=rétro-pseudogène actif).

c. Retro-transposons autonomesi. LTR

Les LTR (Long Terminal Repeat) sont des séquences que l’on va retrouver dans les rétrovirus. Ce sont des séquences répétées contenant tous les facteurs de transcription, tout le promoteur, pour permettre la transcription des rétrovirus. Parmi les retro-transposons autonomes avec LTR, on retrouve les HERV Human Endogenous Retroviruses (8% du génome). Ce sont des vestiges d’infections des cellules germinales de nos ancêtres par des retrovirus. Par exemple la fusion du syncitium du placenta est liée à l’expression de provirus comme la syncitine.

ii. Non LTR = LINEsIl s’agit des séquences LINEs Long INterspersed Elements, qui sont long de plus d’1kb, et correspondent à environ 20% du génome. La plus connue est la Séquence L1 encadrée par des séquences TSD Target Site Duplication: il en existe 500 000 copies et la plupart des copies sont incomplètes et tronquées en 5’. Les séquences L1s correspondent à 17% du génome, et se retrouvent principalement dans les bandes G (riches en A/T). Il y aurait une quarantaine d’éléments actifs mais 6 sont plus actifs que les autres, on les appelle les hot L1s. La séquence L1 est spécifique aux mammifères (et non pas aux primates comme les SINEs).Ces séquences sont transcrites par l’ARN Polymérase II, et possèdent trois différentes phases ouvertes de lecture (ORF) : ces séquences sont donc capables de produire des protéines. ORF 2 code la Reverse Transcriptase. On vient de découvrir l’ORF 0 qui joue un rôle important dans la

Page 15:  · Web viewPr Vidaud Michel michel.vidaud@parisdescartes.fr RT : Ninon Corruble Pauline Besson RL : Sylvia Rose Structure, organisation, dynamique et polymorphismes du génome humain

mobilité des séquences LINEs et joue donc un rôle dans certaines pathologies. ORF 1 et ORF 2 sont dans un sens et ORF 0 est antisens (elle donne des transcrits antisens).La séquence L1 active est transcrite en un ARNm qui va être traduit dans le cytoplasme en protéines : ORF1p et ORF2p qui correspond à la Reverse transcriptase. On crée ainsi une ribonucléoprotéine, qui va être réinternalisée dans le noyau afin de recopier la L1 et de l’intégrer dans une autre partie du génome. Cette même Reverse Transcriptase est celle qui reverse-transcrit les séquences Alu, les séquences SVA ainsi que tous les ARNm cellulaire. Le moteur de la reverse-transcription de notre génome est la Reverse Transcriptase de nos séquences L1s.

L’impact des insertions des retro-transposons dans le génome peut être : la mutagénèse insertionnelle, la création de nouveaux exons, etc... Cela impact l’expression génomique (épissage alternatif, modulation expression de gènes, élongation de transcrits, régulation épigénètique, etc...).

d. Séquences non disperséesL’hétérochromatine est la chromatine condensée de notre génome. Elle est faite de séquences répétées non pas dispersées mais en tandem qui sont concentrées dans les régions centromères et sub-télomériques. On va distinguer l’ADN satellite, minisatellite et microsatellite (STR subtelomeric repeats element et télomères).

III. Polymorphismes du génome humain a. Généralités

Le polymorphisme désigne la coexistence de plusieurs allèles pour un gène ou un locus donné, dans une population donnée. Les polymorphismes chromosomiques et nucléotidiques n’ont pas besoin de siéger dans des séquences codantes pour être détectés.

b. SNP/SNVLes SNPs (Single Nucleotide Polymorphism) sont des remplacements d’un nucléotide par une autre. Il faut qu’au moins 1% de la population présente cette variation pour qu’on puisse parler de polymorphisme. Il y a 85 millions de SNP présents dans tout le génome.

NB : On définit l’haplotype comme la succession des allèles d’un gène ou d’un locus sur une région chromosomique de petite taille.

c. Variants structurauxEn fonction de la taille de la variation structurale, on distingue :

• Les INDEL qui correspondent à des insertions /délétions de moins de 50 nucléotides

• Les autres variations de structure de plus de 50 nucléotides sont appelés Variants structuraux. Parmi eux on recense les CNVs, grandes délétions, inversions et MEI (insetion d’éléments mobiles tels qu’Alu, L1 et SVA).

Les CNVs (Copy Number Variations) sont des variations du nombre de copies de segments d’ADN. Elles varient entre 50 et 3 millions de nucléotides et peuvent inclure des gènes codant les protéines. Elles peuvent être bi-allélique mais aussi multi-allélique. Elles sont analysables par CGH Array et par NGS (Next Generation Sequencing).