Upload
etienne-sellier
View
104
Download
1
Embed Size (px)
Citation preview
ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM
POLYMORPHES : OUTILS D’ÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES
HUMAINS
I. G. MUniversité Paris-Sud
France Denoeud
I. Introduction : les répétitions en tandem
II. La base de données des répétitions en tandem
IV. Prédiction du polymorphisme de minisatellites humains
III. Recherche de répétitions en tandem polymorphes chez les bactéries
V. Conclusions et perspectives
I. Introduction : les répétitions en tandem
Les répétitions en tandem
Il s’agit de successions d’un motif répété (ex: 4 x 12pb). Les différentes copies sont généralement dégénérées: elles contiennent des mutations.
AACTTTACGTTC AAATTAACGTTC AAATTAACGTTC AAATTTACCTTG
séquences flanquantes
Les répétitions en tandem sont présentes dans tous les génomes, eucaryotes comme procaryotes, dans
les séquences codantes comme dans les régions non-codantes.
Les répétitions en tandem sont soumises à des mécanismes d’instabilité : ces structures sont donc
souvent polymorphes (variation du nombre de copies).
I
Bu
chn
era
sp
Aq
uife
x a
eo
licu
sT
he
rmo
tog
a m
ari
tima
La
cto
cocc
us
lact
isD
ein
oco
ccu
s ra
dio
du
ran
sS
yne
cho
cyst
isB
aci
llus
sub
tilis
Ba
cillu
s h
alo
du
ran
sE
sch
eri
chia
co
liM
eso
rhiz
ob
ium
loti
Myc
op
lasm
a g
en
italiu
mU
rea
pla
sma
ure
aly
ticu
mM
yco
pla
sma
pn
eu
mo
nia
eB
orr
elia
bu
rgd
orf
eri
Ch
lam
ydia
tra
cho
ma
tisC
hla
myd
ia m
uri
da
rum
Ric
kett
sia
pro
wa
zeki
iT
rep
on
em
a p
alli
du
mC
hla
myd
op
hila
pn
eu
mo
nia
eC
am
pyl
ob
act
er
jeju
ni
He
lico
ba
cte
r p
ylo
riH
ae
mo
ph
ilus
influ
en
zae
Str
ep
toco
ccu
s p
yog
en
es
Pa
ste
ure
lla m
ulto
cid
aN
eis
seri
a m
en
ing
itid
isX
yle
lla f
ast
idio
saM
yco
ba
cte
riu
m le
pra
eV
ibri
o c
ho
lera
eM
yco
ba
cte
riu
m t
ub
erc
ulo
sis
Ye
rsin
ia p
est
isE
sch
eri
chia
co
li 0
15
7P
seu
do
mo
na
s a
eru
gin
osa
Number of tandem repeats (L>=100) /Mb
Excess of TR (L>=100) with Unit length multiple of 3
Le Flèche et al. 2001
Intérêts des répétitions en tandem
Chez les bactéries
- Les répétitions en tandem instables sont impliquées dans les phénomènes de variation de phase et d’adaptation à l’hôte chez certains pathogènes.
Les répétitions en tandem constituent une proportion variable des génomes bactériens, de 1
à 2% en général, mais ce chiffre peut atteindre 10% (B. aphidicola)
- Les répétitions en tandem polymorphes sont des outils efficaces pour distinguer les isolats/souches : approche « MLVA » (multiple loci VNTR analysis).
I
Pourquoi génotyper les souches ?
Dans de nombreux domaines, l’identification précise au niveau de la souche est essentielle:
Dans le cas d’attaques bioterroristes, pour identifier l’origine de la souche employée
Pour effectuer un suivi des infections nosocomiales
Pour des études épidémiologiques à l’échelle planétaire (santé publique)
ex: Bacillus anthracis
ex: Staphylococcus aureus
ex: Mycobacterium tuberculosis
I
amorces PCR:
CTCCCACACCCAGGACACCGGCCTACCCAACATTCC
100 bp
200 bp
300 bp
Migration sur gel
Souche CDC1551: 5 x 15 pbSouche H37Rv: 4 x 15 pb
souche CDC1551 : 230 pbsouche H37Rv : 215 pb
230 pb215 pb
Exemple d’une répétition en tandem de Mycobacterium tuberculosis
215 pb 230 pb
Utilisation des répétitions en tandem pour le génotypage
PCR
200 pb
I
3634744K33341134J3533735I52431053H53441054G2344944F31441164E2143924D52531044C32531034B32521114A
H37Rv_ 3192
H37Rv_802
H37Rv_0577
H37Rv_2347
H37Rv_2163
H37Rv_1955
H37Rv_1121
Marqueurs
Souches
Souches
ABCDEFGH IJK
Matrice des distances
Reconstruction d’un arbre
A B C D E F G H I J K
Soucheinconnue
génotypage
44067766646
I
77603665346
H
54730344456
G
30474436644
J
0466555K3436644J4766646I7665346H5344456G4043566F6404654E6340556D5565024C5655203B5646430A
KFEDCBA
Identification de la souche la
plus proche
génotypes
Utilisation des répétitions en tandem pour le génotypage
I
Intérêts des répétitions en tandem
Chez l’HommeLes répétitions en tandem constituent environ 3% du génome humain ; la plupart sont des
microsatellites.- Certaines répétitions en tandem régulent l’expression de gènes
- Certains minisatellites, les minisatellites hypermutables,sont extrêmement instables.
I
- Les répétitions en tandem polymorphes sont utiles en tant que marqueurs génétiques ; utilisation pour la cartographie du génome humain: microsatellites, distribués de façon homogène minisatellites, plus abondants vers les extrémités chromosomiques
Une dizaine de minisatellites hypermutables ont été caractérisésVergnaud & Denoeud 2000
Intérêts des minisatellites hypermutables humainsLes premiers minisatellites hypermutables ont
été identifiés grâce à l’étude de familles. Leur taux d’allèles mutants est supérieur à 0.5%.
Les minisatellites hypermutables sont les éléments
les plus instables du génome humain.
Afin d’identifier d’autres minisatellites hypermutables humains, les données de séquençage peuvent être
mises à profit.I
Intérêt fondamental : étude des mécanismes d’instabilité(points chauds de cassures double-brin à l’origine de
l’instabilité)Biomarqueurs pour l’étude de l’effet d’agents génotoxiques tels que les radiations ionisantes
Identification de répétitions en tandempolymorphes dans les génomes
- Les séquences génomiques sont disponibles pour
un nombre croissant d’organismes.- Il existe des logiciels efficaces de détection des
répétitions en tandem dans les séquences (TRF, G. Benson).
On peut identifier les répétitions en tandem in silico : Élaboration d’une base de données des répétitions en
tandem
Problématique: Parmi cet ensemble de répétitions en tandem, comment identifier les répétitions en tandem polymorphes ?
Marqueurs épidémiologiques
bactériens
Minisatellites hypermutables
humains I
I. Introduction : les répétitions en tandem
II. La base de données des répétitions en tandem
IV. Prédiction du polymorphisme de minisatellites humains
III. Recherche de répétitions en tandem polymorphes chez les bactéries
V. Conclusions et perspectives
II. La base de données des répétitions en tandem
Séquences génomiques
Description des répétitions en tandem
Comparaisonde souches
Blast dans les TRset leurs flanquantes
sélection de répétitions en tandem
Identification de répétitions en
tandem polymorphes
choix d’amorces PCR
typages PCR
Description de TRsdéjà étudiées
Base de données des répétitions en tandem
valid
ation
valid
ation validation
Fonctionnalités de la base de données
Tandem Repeats Finder
Informations
(polymorphism
e,
conditions
PCR)
II
http://minisatellites.u-psud.fr II
La page de requête dans la base de données
http://minisatellites.u-psud.fr II
I. Introduction : les répétitions en tandem
II. La base de données des répétitions en tandem
IV. Prédiction du polymorphisme de minisatellites humains
III. Recherche de répétitions en tandem polymorphes chez les bactéries
V. Conclusions et perspectives
III. Recherche de répétitions en tandem polymorphes chez les bactéries
La page de comparaison de souches établit la correspondance entre toutes les répétitions en
tandem des souches comparées (polymorphes ou non).
La comparaison de souches bactériennes
Pour de nombreuses bactéries d’intérêt médical ou économique, les séquences génomiques de plusieurs
souches sont disponibles (ex: 6 pour S. aureus).
Elle permet d’identifier les répétitions en tandem ayant un nombre de copies différent entre ces
souches.
III
La comparaison de ces souches est la méthode
la plus directe pour identifier les répétitions en tandem polymorphes chez ces bactéries.
- Certains génomes bactériens sont très remaniés : il est alors impossible de trouver les répétitions en tandem correspondantes en se
basant sur leurs positions.
III
Comment comparer les répétitions en tandem de différentes souches ?
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
4500000
5000000
0 1000000 2000000 3000000 4000000 5000000
pos H37Rv
po
s C
DC
1551
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
4500000
5000000
0 1000000 2000000 3000000 4000000 5000000
pos CO-92
pos
KIM
Comment comparer les répétitions en tandem de différentes souches ?
- Certains génomes bactériens sont très remaniés : il est alors impossible de trouver les répétitions en tandem correspondantes en se
basant sur leurs positions.
On ne peut pas comparer directement les répétitions en
tandem de la base : nécessité de recourir à un logiciel de recherche de similitude de séquences
(BLAST).
- Les positions des répétitions en tandem détectées par
le TRF ne sont pas toujours comparables (les bornes
des répétitions sont difficiles à définir).
III
Souche A Souche B
1ère étape: Blast des flanquantes des répétitions en tandem dela souche A dans le génome complet de la souche B
TRs contenues dans la base de données:
flanquantesRépétition en
tandem
Génome complet:
Ltot_A
Ltot_B
BLAST
Méthode de comparaison de souches
III
Souche ASouche B
2ème étape: Blast des flanquantes des répétitions en tandem dela souche B dans le génome complet de la souche A
TRs contenues dans la base de données:
flanquantesRépétition en
tandem
Génome complet:
Ltot_B
Ltot_A
BLAST
Méthode de comparaison de souches
III
BLAST
B
BLAST
A
B -> A
B
A -> B
A
3ème étape: Synthèse entre la comparaison A -> B et la comparaison B -> A
Méthode de comparaison de souches
A
B
Synthèse
TR détectées dans les deux
comparaisons
TR détectées dans une
seule comparaison:
-pas de match dans une souche
- non détectées par le TRF dans
une souche
Match A->B Pas de Match A->B
Match B->APas de Match B->A
TR éliminées
Pas de position sur le
génome B
Pas de position sur le
génome A
III
Méthode de comparaison de plus de deux souches
Exemple: 5 souches A, B, C, D, E
La synthèse entre ces comparaisons est effectuée en utilisant les positions sur le génome A.
On effectue comme décrit précédemment les comparaisons
A B, A C, A D, A E
On obtient un tableau faisant correspondre les répétitions en tandem de tous les génomes comparés: A, B, C, D, E.
Des requêtes peuvent être effectuées directement sur le nombre d’allèles parmi les souches comparées.
III
La page de comparaison de souches
http://minisatellites.u-psud.fr/comparison/ III
Conclusions sur le génotypage de souches bactériennes par les répétitions
en tandemL’approche MLVA est de plus en plus reconnue.
Elle a déjà été validée pour plusieurs pathogènes humains :Yersinia pestis, Bacillus anthracis, Mycobacterium
tuberculosis, Brucella, Burkholderia, Neisseria meningitidis, Legionella pneumophila, Pseudomonas
aeruginosa, Staphylococcus aureusLe séquençage de plusieurs souches pour un nombre grandissant d’espèces et la base de
données des répétitions en tandem (http://gpms.igmors.u-psud.fr) devraient faciliter le
développement de cette technique.
Yersinia pestis Bacillus anthracis Mycobacterium tuberculosisLe Flèche et al. 2001
L’efficacité de la comparaison de souches reste toutefois très dépendante de la proximité des
souches comparées.III
Le Flèche et al. 2001Le Flèche et al. 2002
CDC1551
H37Rv
M. bovis
Cas où la comparaison de souches est impossible (une seule souche séquencée)
On peut rechercher des caractéristiques de la seule séquence disponible qui soient corrélées au
polymorphisme:Le Flèche et al. 2001
Le Flèche et al. 2001
L’efficacité de tels critères varie toutefois selon l’espèce considérée : ils sont difficilement
généralisables.
Les critères portant sur la longueur totale et la conservation sont les plus
universels.
S aureus (833 TRs) 762 (91.5%) 71 (8.5% ) 38 (4.5%) 5 (13%) 33 (87% ) 25 (66%) 34% 7.23%E coli (790 TRs) 739 (93.5%) 51 (6.5% ) 12 (1.5 %) 12 (37.5%) 20 (62.5% ) 7 (22%) 42% 4.86%
S typhi / typhimurium (641 TRs) 625 (97.5%) 16 (2.5% ) 2 (0.3%) 13 (68%) 6 (32% ) 2 (10.5%) 0% 3.27%S pyogenes (292 TRs) 276 (94.5%) 16 (5.5% ) 3 (1%) 4 (67%) 2 (33% ) 2 (33%) 33% 2.71%
Comparaison Toutes répétitions en tandemgroupe de répétitions correspondant
au critère (L>80 bp, %M>80%)% de répétitions en
tandem polymorphes manquées par le
critère
% de répétitions en tandem qui correspondent
au critère1 allèle 1 allèle2 allèles ou
plus2 allèles ou
plus3 allèles ou
plus3 allèles ou
plus
III
On peut rechercher des caractéristiques de la seule séquence disponible qui soient corrélées au
polymorphisme:
I. Introduction : les répétitions en tandem
II. La base de données des répétitions en tandem
IV. Prédiction du polymorphisme de minisatellites humains
III. Recherche de répétitions en tandem polymorphes chez les bactéries
V. Conclusions et perspectives
IV. Prédiction du polymorphisme de minisatellites humains
1- Utilisation, comme pour les bactéries, des différentes séquences disponibles: Human Genome Project et CELERA
-Typage d’un ensemble de minisatellites afin d’en dégager des critères corrélés au polymorphisme
- Test de ces critères sur un autre ensemble de minisatellites afin de vérifier leur pouvoir prédictif
Deux stratégies employées pour faciliter l’identification de minisatellites polymorphes
humains
2- Prédiction du polymorphisme à partir de la séquence d’un seul allèle:
IV
Longueur totale > 350 pb
Taille du motif > 17 pb
Nombre de répétitions > 10
Conservation du motif > 70%
Biais GC > 0.35
60 minisatellites sur
le chromosome 21
67 minisatellites sur le chromosome
22127
minisatellites
Les minisatellites étudiés ont été sélectionnés sur les chromosomes 21 et 22 et correspondent
à la requête:
Sélection des minisatellites
IV
Chromosome 21: 60 ms Chromosome 22: 67 ms
Répartition des minisatellites
IV
Résultats des typages
- 118/127 minisatellites ont pu être amplifiés par PCR
- Seulement une dizaine de minisatellites ont un produit d’amplification de taille différente à la taille attendue d’après la séquence HGP => bonne qualité de séquence
Polymorphisme:
0
0,05
0,1
0,15
0,2
0,25
0,3
0 0 to 0.2 0.2 to 0.4 0.4 to 0.6 0.6 to 0.8 0.8 to 1
% hétérozygotie
freq
uen
ce
chr21
chr22
monomorphes 21%polymorphes 79%het>0,3 56%het>0,5 42%het>0,8 7%
2 mesures du polymorphisme= nombre d’allèles et hétérozygotie IV
1. Comparaison des séquences HGP-CELERA
IV
Longueurs égales: 75
116 répétitions identifiées dans les deux séquences
Longueurs différentes: 41
longueur observée lors
du typage
longueur non observée lors
du typage
longueur de la séquence HGP
observée lors du
longueur de la séquence CELERA
observée lors du
70 5 36 10
- Lorsque les séquences CELERA et HGP sont de longueurs différentes, la longueur proposée par CELERA est souvent non observée parmi les allèles typés : ces séquences sont de moins bonne qualité que les séquences HGP.
- Il y a un excès de minisatellites de tailles identiques : les séquences CELERA et HGP ne sont pas indépendantes.En effet, les séquences publiques disponibles ont été utilisées pour l’assemblage CELERA.
La comparaison de séquences n’est pas aussi efficace qu’attendu pour prédire les minisatellites
polymorphes
1ère étape = apprentissage
Echantillon d’apprentissage:48 minisatellites (22 sur le chr21 et 26 sur le
chr22)
Typage de 96 individus (CEPH):Calcul du taux de polymorphisme (hétérozygotie)
Mesure de corrélations entre différentes caractéristiques de la séquence disponible et le
polymorphisme
Critères prédictifs sur le polymorphisme
2. Prédiction du polymorphisme
IV
Les plus fortes corrélations sont obtenues pour:
- Le pourcentage en GC
- Le critère de reconstruction de l’histoire des répétitions HistoryR : il s’agit d’une mesure de la facilité à reconstruire l’histoire des duplications successives survenues dans la TR.
Les corrélations entre les différentes caractéristiques des minisatellites et leur polymorphisme (nombre d’allèles et hétérozygotie) ont été calculées:
2. Calcul de corrélations sur l’échantillon d’apprentissage
IV
Denoeud et al. 2003
Denoeud et al. 2003
2. Prédiction du polymorphisme
2ème étape = testCritères prédictifs sur le polymorphisme
Echantillon de test
Groupe +: ms prédits par les
critères comme étant polymorphes
Groupe -: ms non prédits comme
étant polymorphes
Pour confirmer les critères, les deux groupes devront avoir des taux de polymorphisme
significativement différents.IV
2. Test des critères retenus
%GC > 48% , HistoryR > 0.54
Denoeud et al. 2003
Le Critère 3 permet de passer de 43% à 59% de minisatellites avec une taux d’ hétérozygotie > 0.5.
Critère 1 Critère 2Critère 3
Les distributions dans les groupes + et - sont significativement différentes pour les 3 critères.
IV
Exemples de minisatellites très polymorphes
IV
CEB205 : U=33 pb CEB324 : U=43 pbHétérozygotie= 0.93 (21
all)Hétérozygotie= 0.94 (27 all)
CEB205
0
0,05
0,1
0,15
0,2
0,25
500 à700
700 à900
900 à1100
1100à1300
1300 à1500
1500 à1700
1700 à1900
1900 à2100
2100 à2300
2300 à2500
taille (pb)
fréq
uen
ce
CEB324
300 à600
600 à900
900 à1200
1200à
1500
1500à
1800
1800à
2100
2100à
2400
2400à
2700
2700à
3000
3000à
3300
3300à
3600
taille (pb)
fréq
uen
ce
Mise en évidence d’allèles mutantsDenoeud et al. 2003
3 allèles mutants / 556 méioses:
taux de mutation 0.54
2 allèles mutants / 680 méioses:
taux de mutation 0.29
Identification d’un minisatellite hypermutable : CEB205IV
I. Introduction : les répétitions en tandem
II. La base de données des répétitions en tandem
IV. Prédiction du polymorphisme de minisatellites humains
III. Recherche de répétitions en tandem polymorphes chez les bactéries
V. Conclusions et perspectivesV. Conclusions et perspectives
Conclusions et perspectives
La base de données des répétitions en tandem
est un outil pour l’identification, la caractérisation et la capitalisation des connaissances concernant les répétitions en tandem (http://minisatellites.u-
psud.fr).Elle a initialement été élaborée afin de répondre aux besoins du laboratoire, puis a été rendue accessible sur Internet afin d’être utile à la communauté. De
nombreuses requêtes y sont effectuées chaque jour par des utilisateurs distants.
Consultation des fichiers d'alignementsentre janvier et août 2003: 5884 fichiers
0
50
100
150
200
250
300
350
400
1 à 2 3 à 4 5 à 9 10 à 50 plus de 50
Nombre de fichiers consultés par utilisateur
No
mb
re d
'util
isa
teu
rs
La base de données sera mise à jour au fur et à mesure du séquençage de nouveaux génomes et il
est probable qu’elle bénéficie d’un intérêt croissant (épidémiologistes). V
On peut toutefois aller plus loin dans l’analyse en séquençant les allèles : la même résolution
pourrait être obtenue avec quelques locus au lieu de la vingtaine de locus employés pour le typage
MLVA.
Le typage de répétitions en tandem polymorphes est une méthode efficace pour le génotypage de
bactéries.
Conclusions et perspectives
V
Nécessité d’outils bioinformatiques spécifiques à l’analyse de séquences
répétées en tandem
Conclusions et perspectives
Deux stratégies employées pour identifier les répétitions en tandem polymorphes :
1- Comparaison de génomes:- Appliquée avec succès à différentes espèces bactériennes.- Approche décevante pour le génome humain.
2- Recherche de critères prédictifs de la séquence d’1 allèle:
- Appliquée avec succès aux minisatellites humains.- Des critères ont également été identifiés pour les bactéries mais ils ne sont pas généralisables.Moins efficace (on n’obtient pas 100% de TRs polymorphes) mais applicable lorsqu’on ne dispose que
d’une séquence.
Nécessite la disponibilité des séquences de plusieurs souches.L’efficacité varie selon la proximité des souches
comparées.
V
Conclusions et perspectives
Le critère HistoryR est un bon prédicteur du polymorphisme des minisatellites humains.
Ce critère complexe est basé sur un programme de reconstruction des
duplications survenues dans la répétition en tandem.
Si les mécanismes d’évolution étaient mieux compris, ils pourraient être modélisés plus
efficacement, ce qui produirait sans doute de meilleurs prédicteurs.
Critères corrélés au polymorphisme
Mécanismes générant le polymorphisme
?
?
V
Conclusions et perspectives
V
L’étude de prédiction du polymorphisme de minisatellites humains a permis d’identifier
un minisatellite hypermutable.
La requête HistoryR > 0.88 pourrait être appliquée à tout le génome
humain
~200 à 500 minisatellites dont ~20 à 50 hypermutables
Critère HistoryR > 0.88 9 minisatellites (chr 21 et 22)dont 1 hypermutable
NOM chrPosition physique
(kb)
Taille du motif
Nombre de répétitions
Longueur totale
Conservation
% GC Biais GCBiais
PurPyrHistoryR
Hétéro-zygotie
Instabilité
CEB250 21 34932 23 32 744 94% 72% 0,53 0,46 0,80 0,93 < 0,5%
CEB269 21 28940 74 14 1021 97% 48% 0,37 0,46 0,60 0,88 < 0,5%CEB291 21 34854 28 22 602 85% 66% 0,52 0,22 0,71 0,87 < 0,5%
CEB305 22 27086 47 28 1313 76% 61% 0,74 0,61 0,73 0,89 < 0,5%
CEB310 22 30541 24 25 595 98% 20% 0,60 0,02 1,00 0,85 0,29%
CEB324 22 33825 43 21 890 93% 56% 0,64 0,17 0,62 0,94 < 0,5%
CEB202 22 29067 41 18 703 82% 59% 0,80 0,33 0,48 0,92 < 0,5%
CEB205 22 33057 33 33 1086 96% 71% 0,38 0,36 0,88 0,93 0,54%
8 minisatellites très polymorphes
Conclusions et perspectives
V
L’instabilité des minisatellites hypermutables semble provenir de la présence d’un point chaud de
cassures double-brin à proximité: elle ne serait donc pas directement liée aux caractéristiques de
séquence des minisatellites.
Pour rechercher des minisatellites hypermutables (plutôt que polymorphes), il serait intéressant de prendre en compte la
séquence avoisinante.
L’étude de prédiction du polymorphisme de minisatellites humains a permis d’identifier
un minisatellite hypermutable.