44
ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS D’ÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université Paris-Sud France Denoeud

ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Embed Size (px)

Citation preview

Page 1: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM

POLYMORPHES : OUTILS D’ÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES

HUMAINS

I. G. MUniversité Paris-Sud

France Denoeud

Page 2: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

I. Introduction : les répétitions en tandem

II. La base de données des répétitions en tandem

IV. Prédiction du polymorphisme de minisatellites humains

III. Recherche de répétitions en tandem polymorphes chez les bactéries

V. Conclusions et perspectives

I. Introduction : les répétitions en tandem

Page 3: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Les répétitions en tandem

Il s’agit de successions d’un motif répété (ex: 4 x 12pb). Les différentes copies sont généralement dégénérées: elles contiennent des mutations.

AACTTTACGTTC AAATTAACGTTC AAATTAACGTTC AAATTTACCTTG

séquences flanquantes

Les répétitions en tandem sont présentes dans tous les génomes, eucaryotes comme procaryotes, dans

les séquences codantes comme dans les régions non-codantes.

Les répétitions en tandem sont soumises à des mécanismes d’instabilité : ces structures sont donc

souvent polymorphes (variation du nombre de copies).

I

Page 4: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Bu

chn

era

sp

Aq

uife

x a

eo

licu

sT

he

rmo

tog

a m

ari

tima

La

cto

cocc

us

lact

isD

ein

oco

ccu

s ra

dio

du

ran

sS

yne

cho

cyst

isB

aci

llus

sub

tilis

Ba

cillu

s h

alo

du

ran

sE

sch

eri

chia

co

liM

eso

rhiz

ob

ium

loti

Myc

op

lasm

a g

en

italiu

mU

rea

pla

sma

ure

aly

ticu

mM

yco

pla

sma

pn

eu

mo

nia

eB

orr

elia

bu

rgd

orf

eri

Ch

lam

ydia

tra

cho

ma

tisC

hla

myd

ia m

uri

da

rum

Ric

kett

sia

pro

wa

zeki

iT

rep

on

em

a p

alli

du

mC

hla

myd

op

hila

pn

eu

mo

nia

eC

am

pyl

ob

act

er

jeju

ni

He

lico

ba

cte

r p

ylo

riH

ae

mo

ph

ilus

influ

en

zae

Str

ep

toco

ccu

s p

yog

en

es

Pa

ste

ure

lla m

ulto

cid

aN

eis

seri

a m

en

ing

itid

isX

yle

lla f

ast

idio

saM

yco

ba

cte

riu

m le

pra

eV

ibri

o c

ho

lera

eM

yco

ba

cte

riu

m t

ub

erc

ulo

sis

Ye

rsin

ia p

est

isE

sch

eri

chia

co

li 0

15

7P

seu

do

mo

na

s a

eru

gin

osa

Number of tandem repeats (L>=100) /Mb

Excess of TR (L>=100) with Unit length multiple of 3

Le Flèche et al. 2001

Intérêts des répétitions en tandem

Chez les bactéries

- Les répétitions en tandem instables sont impliquées dans les phénomènes de variation de phase et d’adaptation à l’hôte chez certains pathogènes.

Les répétitions en tandem constituent une proportion variable des génomes bactériens, de 1

à 2% en général, mais ce chiffre peut atteindre 10% (B. aphidicola)

- Les répétitions en tandem polymorphes sont des outils efficaces pour distinguer les isolats/souches : approche « MLVA » (multiple loci VNTR analysis).

I

Page 5: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Pourquoi génotyper les souches ?

Dans de nombreux domaines, l’identification précise au niveau de la souche est essentielle:

Dans le cas d’attaques bioterroristes, pour identifier l’origine de la souche employée

Pour effectuer un suivi des infections nosocomiales

Pour des études épidémiologiques à l’échelle planétaire (santé publique)

ex: Bacillus anthracis

ex: Staphylococcus aureus

ex: Mycobacterium tuberculosis

I

Page 6: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

amorces PCR:

CTCCCACACCCAGGACACCGGCCTACCCAACATTCC

100 bp

200 bp

300 bp

Migration sur gel

Souche CDC1551: 5 x 15 pbSouche H37Rv: 4 x 15 pb

souche CDC1551 : 230 pbsouche H37Rv : 215 pb

230 pb215 pb

Exemple d’une répétition en tandem de Mycobacterium tuberculosis

215 pb 230 pb

Utilisation des répétitions en tandem pour le génotypage

PCR

200 pb

I

Page 7: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

3634744K33341134J3533735I52431053H53441054G2344944F31441164E2143924D52531044C32531034B32521114A

H37Rv_ 3192

H37Rv_802

H37Rv_0577

H37Rv_2347

H37Rv_2163

H37Rv_1955

H37Rv_1121

Marqueurs

Souches

Souches

ABCDEFGH IJK

Matrice des distances

Reconstruction d’un arbre

A B C D E F G H I J K

Soucheinconnue

génotypage

44067766646

I

77603665346

H

54730344456

G

30474436644

J

0466555K3436644J4766646I7665346H5344456G4043566F6404654E6340556D5565024C5655203B5646430A

KFEDCBA

Identification de la souche la

plus proche

génotypes

Utilisation des répétitions en tandem pour le génotypage

I

Page 8: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Intérêts des répétitions en tandem

Chez l’HommeLes répétitions en tandem constituent environ 3% du génome humain ; la plupart sont des

microsatellites.- Certaines répétitions en tandem régulent l’expression de gènes

- Certains minisatellites, les minisatellites hypermutables,sont extrêmement instables.

I

- Les répétitions en tandem polymorphes sont utiles en tant que marqueurs génétiques ; utilisation pour la cartographie du génome humain: microsatellites, distribués de façon homogène minisatellites, plus abondants vers les extrémités chromosomiques

Page 9: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Une dizaine de minisatellites hypermutables ont été caractérisésVergnaud & Denoeud 2000

Intérêts des minisatellites hypermutables humainsLes premiers minisatellites hypermutables ont

été identifiés grâce à l’étude de familles. Leur taux d’allèles mutants est supérieur à 0.5%.

Les minisatellites hypermutables sont les éléments

les plus instables du génome humain.

Afin d’identifier d’autres minisatellites hypermutables humains, les données de séquençage peuvent être

mises à profit.I

Intérêt fondamental : étude des mécanismes d’instabilité(points chauds de cassures double-brin à l’origine de

l’instabilité)Biomarqueurs pour l’étude de l’effet d’agents génotoxiques tels que les radiations ionisantes

Page 10: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Identification de répétitions en tandempolymorphes dans les génomes

- Les séquences génomiques sont disponibles pour

un nombre croissant d’organismes.- Il existe des logiciels efficaces de détection des

répétitions en tandem dans les séquences (TRF, G. Benson).

On peut identifier les répétitions en tandem in silico : Élaboration d’une base de données des répétitions en

tandem

Problématique: Parmi cet ensemble de répétitions en tandem, comment identifier les répétitions en tandem polymorphes ?

Marqueurs épidémiologiques

bactériens

Minisatellites hypermutables

humains I

Page 11: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

I. Introduction : les répétitions en tandem

II. La base de données des répétitions en tandem

IV. Prédiction du polymorphisme de minisatellites humains

III. Recherche de répétitions en tandem polymorphes chez les bactéries

V. Conclusions et perspectives

II. La base de données des répétitions en tandem

Page 12: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Séquences génomiques

Description des répétitions en tandem

Comparaisonde souches

Blast dans les TRset leurs flanquantes

sélection de répétitions en tandem

Identification de répétitions en

tandem polymorphes

choix d’amorces PCR

typages PCR

Description de TRsdéjà étudiées

Base de données des répétitions en tandem

valid

ation

valid

ation validation

Fonctionnalités de la base de données

Tandem Repeats Finder

Informations

(polymorphism

e,

conditions

PCR)

II

Page 13: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

http://minisatellites.u-psud.fr II

Page 14: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

La page de requête dans la base de données

http://minisatellites.u-psud.fr II

Page 15: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

I. Introduction : les répétitions en tandem

II. La base de données des répétitions en tandem

IV. Prédiction du polymorphisme de minisatellites humains

III. Recherche de répétitions en tandem polymorphes chez les bactéries

V. Conclusions et perspectives

III. Recherche de répétitions en tandem polymorphes chez les bactéries

Page 16: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

La page de comparaison de souches établit la correspondance entre toutes les répétitions en

tandem des souches comparées (polymorphes ou non).

La comparaison de souches bactériennes

Pour de nombreuses bactéries d’intérêt médical ou économique, les séquences génomiques de plusieurs

souches sont disponibles (ex: 6 pour S. aureus).

Elle permet d’identifier les répétitions en tandem ayant un nombre de copies différent entre ces

souches.

III

La comparaison de ces souches est la méthode

la plus directe pour identifier les répétitions en tandem polymorphes chez ces bactéries.

Page 17: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

- Certains génomes bactériens sont très remaniés : il est alors impossible de trouver les répétitions en tandem correspondantes en se

basant sur leurs positions.

III

Comment comparer les répétitions en tandem de différentes souches ?

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

4500000

5000000

0 1000000 2000000 3000000 4000000 5000000

pos H37Rv

po

s C

DC

1551

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

4500000

5000000

0 1000000 2000000 3000000 4000000 5000000

pos CO-92

pos

KIM

Page 18: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Comment comparer les répétitions en tandem de différentes souches ?

- Certains génomes bactériens sont très remaniés : il est alors impossible de trouver les répétitions en tandem correspondantes en se

basant sur leurs positions.

On ne peut pas comparer directement les répétitions en

tandem de la base : nécessité de recourir à un logiciel de recherche de similitude de séquences

(BLAST).

- Les positions des répétitions en tandem détectées par

le TRF ne sont pas toujours comparables (les bornes

des répétitions sont difficiles à définir).

III

Page 19: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Souche A Souche B

1ère étape: Blast des flanquantes des répétitions en tandem dela souche A dans le génome complet de la souche B

TRs contenues dans la base de données:

flanquantesRépétition en

tandem

Génome complet:

Ltot_A

Ltot_B

BLAST

Méthode de comparaison de souches

III

Page 20: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Souche ASouche B

2ème étape: Blast des flanquantes des répétitions en tandem dela souche B dans le génome complet de la souche A

TRs contenues dans la base de données:

flanquantesRépétition en

tandem

Génome complet:

Ltot_B

Ltot_A

BLAST

Méthode de comparaison de souches

III

Page 21: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

BLAST

B

BLAST

A

B -> A

B

A -> B

A

3ème étape: Synthèse entre la comparaison A -> B et la comparaison B -> A

Méthode de comparaison de souches

A

B

Synthèse

TR détectées dans les deux

comparaisons

TR détectées dans une

seule comparaison:

-pas de match dans une souche

- non détectées par le TRF dans

une souche

Match A->B Pas de Match A->B

Match B->APas de Match B->A

TR éliminées

Pas de position sur le

génome B

Pas de position sur le

génome A

III

Page 22: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Méthode de comparaison de plus de deux souches

Exemple: 5 souches A, B, C, D, E

La synthèse entre ces comparaisons est effectuée en utilisant les positions sur le génome A.

On effectue comme décrit précédemment les comparaisons

A B, A C, A D, A E

On obtient un tableau faisant correspondre les répétitions en tandem de tous les génomes comparés: A, B, C, D, E.

Des requêtes peuvent être effectuées directement sur le nombre d’allèles parmi les souches comparées.

III

Page 23: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

La page de comparaison de souches

http://minisatellites.u-psud.fr/comparison/ III

Page 24: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Conclusions sur le génotypage de souches bactériennes par les répétitions

en tandemL’approche MLVA est de plus en plus reconnue.

Elle a déjà été validée pour plusieurs pathogènes humains :Yersinia pestis, Bacillus anthracis, Mycobacterium

tuberculosis, Brucella, Burkholderia, Neisseria meningitidis, Legionella pneumophila, Pseudomonas

aeruginosa, Staphylococcus aureusLe séquençage de plusieurs souches pour un nombre grandissant d’espèces et la base de

données des répétitions en tandem (http://gpms.igmors.u-psud.fr) devraient faciliter le

développement de cette technique.

Yersinia pestis Bacillus anthracis Mycobacterium tuberculosisLe Flèche et al. 2001

L’efficacité de la comparaison de souches reste toutefois très dépendante de la proximité des

souches comparées.III

Le Flèche et al. 2001Le Flèche et al. 2002

CDC1551

H37Rv

M. bovis

Page 25: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Cas où la comparaison de souches est impossible (une seule souche séquencée)

On peut rechercher des caractéristiques de la seule séquence disponible qui soient corrélées au

polymorphisme:Le Flèche et al. 2001

Le Flèche et al. 2001

L’efficacité de tels critères varie toutefois selon l’espèce considérée : ils sont difficilement

généralisables.

Les critères portant sur la longueur totale et la conservation sont les plus

universels.

S aureus (833 TRs) 762 (91.5%) 71 (8.5% ) 38 (4.5%) 5 (13%) 33 (87% ) 25 (66%) 34% 7.23%E coli (790 TRs) 739 (93.5%) 51 (6.5% ) 12 (1.5 %) 12 (37.5%) 20 (62.5% ) 7 (22%) 42% 4.86%

S typhi / typhimurium (641 TRs) 625 (97.5%) 16 (2.5% ) 2 (0.3%) 13 (68%) 6 (32% ) 2 (10.5%) 0% 3.27%S pyogenes (292 TRs) 276 (94.5%) 16 (5.5% ) 3 (1%) 4 (67%) 2 (33% ) 2 (33%) 33% 2.71%

Comparaison Toutes répétitions en tandemgroupe de répétitions correspondant

au critère (L>80 bp, %M>80%)% de répétitions en

tandem polymorphes manquées par le

critère

% de répétitions en tandem qui correspondent

au critère1 allèle 1 allèle2 allèles ou

plus2 allèles ou

plus3 allèles ou

plus3 allèles ou

plus

III

On peut rechercher des caractéristiques de la seule séquence disponible qui soient corrélées au

polymorphisme:

Page 26: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

I. Introduction : les répétitions en tandem

II. La base de données des répétitions en tandem

IV. Prédiction du polymorphisme de minisatellites humains

III. Recherche de répétitions en tandem polymorphes chez les bactéries

V. Conclusions et perspectives

IV. Prédiction du polymorphisme de minisatellites humains

Page 27: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

1- Utilisation, comme pour les bactéries, des différentes séquences disponibles: Human Genome Project et CELERA

-Typage d’un ensemble de minisatellites afin d’en dégager des critères corrélés au polymorphisme

- Test de ces critères sur un autre ensemble de minisatellites afin de vérifier leur pouvoir prédictif

Deux stratégies employées pour faciliter l’identification de minisatellites polymorphes

humains

2- Prédiction du polymorphisme à partir de la séquence d’un seul allèle:

IV

Page 28: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Longueur totale > 350 pb

Taille du motif > 17 pb

Nombre de répétitions > 10

Conservation du motif > 70%

Biais GC > 0.35

60 minisatellites sur

le chromosome 21

67 minisatellites sur le chromosome

22127

minisatellites

Les minisatellites étudiés ont été sélectionnés sur les chromosomes 21 et 22 et correspondent

à la requête:

Sélection des minisatellites

IV

Page 29: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Chromosome 21: 60 ms Chromosome 22: 67 ms

Répartition des minisatellites

IV

Page 30: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Résultats des typages

- 118/127 minisatellites ont pu être amplifiés par PCR

- Seulement une dizaine de minisatellites ont un produit d’amplification de taille différente à la taille attendue d’après la séquence HGP => bonne qualité de séquence

Polymorphisme:

0

0,05

0,1

0,15

0,2

0,25

0,3

0 0 to 0.2 0.2 to 0.4 0.4 to 0.6 0.6 to 0.8 0.8 to 1

% hétérozygotie

freq

uen

ce

chr21

chr22

monomorphes 21%polymorphes 79%het>0,3 56%het>0,5 42%het>0,8 7%

2 mesures du polymorphisme= nombre d’allèles et hétérozygotie IV

Page 31: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

1. Comparaison des séquences HGP-CELERA

IV

Longueurs égales: 75

116 répétitions identifiées dans les deux séquences

Longueurs différentes: 41

longueur observée lors

du typage

longueur non observée lors

du typage

longueur de la séquence HGP

observée lors du

longueur de la séquence CELERA

observée lors du

70 5 36 10

- Lorsque les séquences CELERA et HGP sont de longueurs différentes, la longueur proposée par CELERA est souvent non observée parmi les allèles typés : ces séquences sont de moins bonne qualité que les séquences HGP.

- Il y a un excès de minisatellites de tailles identiques : les séquences CELERA et HGP ne sont pas indépendantes.En effet, les séquences publiques disponibles ont été utilisées pour l’assemblage CELERA.

La comparaison de séquences n’est pas aussi efficace qu’attendu pour prédire les minisatellites

polymorphes

Page 32: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

1ère étape = apprentissage

Echantillon d’apprentissage:48 minisatellites (22 sur le chr21 et 26 sur le

chr22)

Typage de 96 individus (CEPH):Calcul du taux de polymorphisme (hétérozygotie)

Mesure de corrélations entre différentes caractéristiques de la séquence disponible et le

polymorphisme

Critères prédictifs sur le polymorphisme

2. Prédiction du polymorphisme

IV

Page 33: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Les plus fortes corrélations sont obtenues pour:

- Le pourcentage en GC

- Le critère de reconstruction de l’histoire des répétitions HistoryR : il s’agit d’une mesure de la facilité à reconstruire l’histoire des duplications successives survenues dans la TR.

Les corrélations entre les différentes caractéristiques des minisatellites et leur polymorphisme (nombre d’allèles et hétérozygotie) ont été calculées:

2. Calcul de corrélations sur l’échantillon d’apprentissage

IV

Denoeud et al. 2003

Denoeud et al. 2003

Page 34: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

2. Prédiction du polymorphisme

2ème étape = testCritères prédictifs sur le polymorphisme

Echantillon de test

Groupe +: ms prédits par les

critères comme étant polymorphes

Groupe -: ms non prédits comme

étant polymorphes

Pour confirmer les critères, les deux groupes devront avoir des taux de polymorphisme

significativement différents.IV

Page 35: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

2. Test des critères retenus

%GC > 48% , HistoryR > 0.54

Denoeud et al. 2003

Le Critère 3 permet de passer de 43% à 59% de minisatellites avec une taux d’ hétérozygotie > 0.5.

Critère 1 Critère 2Critère 3

Les distributions dans les groupes + et - sont significativement différentes pour les 3 critères.

IV

Page 36: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Exemples de minisatellites très polymorphes

IV

CEB205 : U=33 pb CEB324 : U=43 pbHétérozygotie= 0.93 (21

all)Hétérozygotie= 0.94 (27 all)

CEB205

0

0,05

0,1

0,15

0,2

0,25

500 à700

700 à900

900 à1100

1100à1300

1300 à1500

1500 à1700

1700 à1900

1900 à2100

2100 à2300

2300 à2500

taille (pb)

fréq

uen

ce

CEB324

300 à600

600 à900

900 à1200

1200à

1500

1500à

1800

1800à

2100

2100à

2400

2400à

2700

2700à

3000

3000à

3300

3300à

3600

taille (pb)

fréq

uen

ce

Page 37: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Mise en évidence d’allèles mutantsDenoeud et al. 2003

3 allèles mutants / 556 méioses:

taux de mutation 0.54

2 allèles mutants / 680 méioses:

taux de mutation 0.29

Identification d’un minisatellite hypermutable : CEB205IV

Page 38: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

I. Introduction : les répétitions en tandem

II. La base de données des répétitions en tandem

IV. Prédiction du polymorphisme de minisatellites humains

III. Recherche de répétitions en tandem polymorphes chez les bactéries

V. Conclusions et perspectivesV. Conclusions et perspectives

Page 39: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Conclusions et perspectives

La base de données des répétitions en tandem

est un outil pour l’identification, la caractérisation et la capitalisation des connaissances concernant les répétitions en tandem (http://minisatellites.u-

psud.fr).Elle a initialement été élaborée afin de répondre aux besoins du laboratoire, puis a été rendue accessible sur Internet afin d’être utile à la communauté. De

nombreuses requêtes y sont effectuées chaque jour par des utilisateurs distants.

Consultation des fichiers d'alignementsentre janvier et août 2003: 5884 fichiers

0

50

100

150

200

250

300

350

400

1 à 2 3 à 4 5 à 9 10 à 50 plus de 50

Nombre de fichiers consultés par utilisateur

No

mb

re d

'util

isa

teu

rs

La base de données sera mise à jour au fur et à mesure du séquençage de nouveaux génomes et il

est probable qu’elle bénéficie d’un intérêt croissant (épidémiologistes). V

Page 40: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

On peut toutefois aller plus loin dans l’analyse en séquençant les allèles : la même résolution

pourrait être obtenue avec quelques locus au lieu de la vingtaine de locus employés pour le typage

MLVA.

Le typage de répétitions en tandem polymorphes est une méthode efficace pour le génotypage de

bactéries.

Conclusions et perspectives

V

Nécessité d’outils bioinformatiques spécifiques à l’analyse de séquences

répétées en tandem

Page 41: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Conclusions et perspectives

Deux stratégies employées pour identifier les répétitions en tandem polymorphes :

1- Comparaison de génomes:- Appliquée avec succès à différentes espèces bactériennes.- Approche décevante pour le génome humain.

2- Recherche de critères prédictifs de la séquence d’1 allèle:

- Appliquée avec succès aux minisatellites humains.- Des critères ont également été identifiés pour les bactéries mais ils ne sont pas généralisables.Moins efficace (on n’obtient pas 100% de TRs polymorphes) mais applicable lorsqu’on ne dispose que

d’une séquence.

Nécessite la disponibilité des séquences de plusieurs souches.L’efficacité varie selon la proximité des souches

comparées.

V

Page 42: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Conclusions et perspectives

Le critère HistoryR est un bon prédicteur du polymorphisme des minisatellites humains.

Ce critère complexe est basé sur un programme de reconstruction des

duplications survenues dans la répétition en tandem.

Si les mécanismes d’évolution étaient mieux compris, ils pourraient être modélisés plus

efficacement, ce qui produirait sans doute de meilleurs prédicteurs.

Critères corrélés au polymorphisme

Mécanismes générant le polymorphisme

?

?

V

Page 43: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Conclusions et perspectives

V

L’étude de prédiction du polymorphisme de minisatellites humains a permis d’identifier

un minisatellite hypermutable.

La requête HistoryR > 0.88 pourrait être appliquée à tout le génome

humain

~200 à 500 minisatellites dont ~20 à 50 hypermutables

Critère HistoryR > 0.88 9 minisatellites (chr 21 et 22)dont 1 hypermutable

NOM chrPosition physique

(kb)

Taille du motif

Nombre de répétitions

Longueur totale

Conservation

% GC Biais GCBiais

PurPyrHistoryR

Hétéro-zygotie

Instabilité

CEB250 21 34932 23 32 744 94% 72% 0,53 0,46 0,80 0,93 < 0,5%

CEB269 21 28940 74 14 1021 97% 48% 0,37 0,46 0,60 0,88 < 0,5%CEB291 21 34854 28 22 602 85% 66% 0,52 0,22 0,71 0,87 < 0,5%

CEB305 22 27086 47 28 1313 76% 61% 0,74 0,61 0,73 0,89 < 0,5%

CEB310 22 30541 24 25 595 98% 20% 0,60 0,02 1,00 0,85 0,29%

CEB324 22 33825 43 21 890 93% 56% 0,64 0,17 0,62 0,94 < 0,5%

CEB202 22 29067 41 18 703 82% 59% 0,80 0,33 0,48 0,92 < 0,5%

CEB205 22 33057 33 33 1086 96% 71% 0,38 0,36 0,88 0,93 0,54%

8 minisatellites très polymorphes

Page 44: ANALYSE DES GÉNOMES À LA RECHERCHE DE RÉPÉTITIONS EN TANDEM POLYMORPHES : OUTILS DÉPIDÉMIOLOGIE BACTÉRIENNE ET LOCUS HYPERMUTABLES HUMAINS I. G. M Université

Conclusions et perspectives

V

L’instabilité des minisatellites hypermutables semble provenir de la présence d’un point chaud de

cassures double-brin à proximité: elle ne serait donc pas directement liée aux caractéristiques de

séquence des minisatellites.

Pour rechercher des minisatellites hypermutables (plutôt que polymorphes), il serait intéressant de prendre en compte la

séquence avoisinante.

L’étude de prédiction du polymorphisme de minisatellites humains a permis d’identifier

un minisatellite hypermutable.