32
Cartographier Construction de cartes Cartographie g ´ en´ etique INRA, Thomas Schiex, Simon deGivry, Brigitte Mangin Septembre 2016

Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Cartographie genetique

INRA, Thomas Schiex, Simon deGivry, Brigitte Mangin

Septembre 2016

Page 2: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Plan

1 CartographierQuoi, pourquoiComment ?

2 Construction de cartesEstimer le taux de recombinaisonPremieres etapes pour la constructionGrouper les marqueursOrdonner les marqueurs

Page 3: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Les cartes: s’orienter dans le genome

TypesCartes physiques : distance reelle (Kb, Mb), a partir defragments d’ADN. Resolution habituellement elevee.Cartes d’hybrides irradies : Distance “statistique” liee ala cassure par irradiation, resolution intermediaire.Cartes genetiques : s’appuie sur la recombinaisondurant la meiose. Distance “statistique”.

Carte genetique/hybrides irradiesRepresentation d’un genome positionnant un ensemble dereperes (marqueurs) dont on connaıt les positions sur desgroupes de liaison (chromosomes idealement).

Page 4: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Exemple

Carte genetique

Groupes deliaisongenetique

Genome

Chromosomes

Page 5: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Pourquoi

Identifier les regions du genome influencant un caractered’interet (maladie ou caractere quantitatif plus complexe)Positionner et identifier un gene (clonage positionnel)Comparer les genomes (etude de la syntenie, evolution,transfert d’information)Faciliter la construction de cartes physiques, assemblageEtudier la meiose

Page 6: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernes, diploıdes)

Loi de segregationUn genome contient un ensemblede paires de genes. Les pairessegregent (se separent) dans lesgametes, la moitie des gametesportant un gene, l’autre moitieportant l’autre gene. Taille deplante (alleles Tt).

Page 7: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernes, diploıdes)

Loi de segregationUn genome contient un ensemblede paires de genes. Les pairessegregent (se separent) dans lesgametes, la moitie des gametesportant un gene, l’autre moitieportant l’autre gene. Taille deplante (alleles Tt).

Page 8: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernes, diploıdes)

Loi de segregationUn genome contient un ensemblede paires de genes. Les pairessegregent (se separent) dans lesgametes, la moitie des gametesportant un gene, l’autre moitieportant l’autre gene. Taille deplante (alleles Tt).

Page 9: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernisees,diploıdes)

Loi de segregationindependanteL’assortiment de plusieurs genesdans une cellule sexuelle se fait defacon independante entre lesdifferents genes. Taille Tt et formeRr (ride).

Tt Rr

TR Tr tR tr1/4 1/4 1/4 1/4

Page 10: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Le principe historique de la cartographie

Liaison genetique (Bateson 1905)

Pour certaines paires de genes, lafrequence des combinaisonsparentales dans les gametes estsuperieure a ce que l’on attend.On parle de liaison genetique.

Explique par Morgan (1911) parl’appartenance a un memechromosome et un eventuelchiasma durant la meiose(crossing-over).

Page 11: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Quoi, pourquoi

Un modele de la meiose

50% de recombinants au plus.

Page 12: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Bases

Loci, genes, marqueurs : A,B. Emplacement sur unchromosome

Polymorphisme : presente au moins deux formesdifferentes (alleles Aa).Homozygote : paire d’alleles identiques (A

A ou aa ), sinon

heterozygote (Aa ).

Haplotype : sequence des alleles portes par chacun deschromosomes (Ab

aB par exemple).Genotype : sequence des paires d’alleles (nonordonnees) portes par les chromosomes homologues (A

aBb

par exemple).Phase: information suffisante pour determiner les deuxhaplotypes a partir du genotype.

Page 13: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Bases

Loci, genes, marqueurs : A,B. Emplacement sur unchromosomePolymorphisme : presente au moins deux formesdifferentes (alleles Aa).

Homozygote : paire d’alleles identiques (AA ou a

a ), sinonheterozygote (A

a ).Haplotype : sequence des alleles portes par chacun deschromosomes (Ab

aB par exemple).Genotype : sequence des paires d’alleles (nonordonnees) portes par les chromosomes homologues (A

aBb

par exemple).Phase: information suffisante pour determiner les deuxhaplotypes a partir du genotype.

Page 14: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Bases

Loci, genes, marqueurs : A,B. Emplacement sur unchromosomePolymorphisme : presente au moins deux formesdifferentes (alleles Aa).Homozygote : paire d’alleles identiques (A

A ou aa ), sinon

heterozygote (Aa ).

Haplotype : sequence des alleles portes par chacun deschromosomes (Ab

aB par exemple).Genotype : sequence des paires d’alleles (nonordonnees) portes par les chromosomes homologues (A

aBb

par exemple).Phase: information suffisante pour determiner les deuxhaplotypes a partir du genotype.

Page 15: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Bases

Loci, genes, marqueurs : A,B. Emplacement sur unchromosomePolymorphisme : presente au moins deux formesdifferentes (alleles Aa).Homozygote : paire d’alleles identiques (A

A ou aa ), sinon

heterozygote (Aa ).

Haplotype : sequence des alleles portes par chacun deschromosomes (Ab

aB par exemple).

Genotype : sequence des paires d’alleles (nonordonnees) portes par les chromosomes homologues (A

aBb

par exemple).Phase: information suffisante pour determiner les deuxhaplotypes a partir du genotype.

Page 16: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Bases

Loci, genes, marqueurs : A,B. Emplacement sur unchromosomePolymorphisme : presente au moins deux formesdifferentes (alleles Aa).Homozygote : paire d’alleles identiques (A

A ou aa ), sinon

heterozygote (Aa ).

Haplotype : sequence des alleles portes par chacun deschromosomes (Ab

aB par exemple).Genotype : sequence des paires d’alleles (nonordonnees) portes par les chromosomes homologues (A

aBb

par exemple).

Phase: information suffisante pour determiner les deuxhaplotypes a partir du genotype.

Page 17: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Bases

Loci, genes, marqueurs : A,B. Emplacement sur unchromosomePolymorphisme : presente au moins deux formesdifferentes (alleles Aa).Homozygote : paire d’alleles identiques (A

A ou aa ), sinon

heterozygote (Aa ).

Haplotype : sequence des alleles portes par chacun deschromosomes (Ab

aB par exemple).Genotype : sequence des paires d’alleles (nonordonnees) portes par les chromosomes homologues (A

aBb

par exemple).Phase: information suffisante pour determiner les deuxhaplotypes a partir du genotype.

Page 18: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Recombinants et Non recombinants

Marqueurs A,Bune cellule diploıde portant les haplotypes AB/ab,on peut avoir les gametes porteuses des haplotypesAB, ab,Ab, aB

Les deux premiers sont parentaux ou non recombinants. Lesdeux autres recombinants (nombre impair de cross-overs).

Page 19: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Taux de recombinaison

Taux de recombinaison ≤ 12

Le taux de recombinaison ρAB entre les deux marqueurs A etB est la proportion de recombinants.

ExampleEntre 3 genes Y (yellow),W (white),M (miniature) de ladrosophile, on observe ρY,W = 1.3%, ρW,M = 32.6% etρY,M = 33.8%. On peut penser que les marqueurs sont dansl’ordre Y −W −M

Du fait des doubles crossing-overs, pour un ordre Y −W −M :

ρY,M < ρY,W + ρW,M (non additif)

Page 20: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Distance genetique

DefinitionLa distance genetique dAB entre deux marqueurs A et B est lenombre moyen de crossing-overs entre les deux marqueurs parmeiose.

ProprietesAdditif1cM (centiMorgan) correspond a un crossover sur unhaplotype pour 100 meioses.Les cross-overs ne sont pas facilement observables.

Page 21: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Distance genetique et recombinaison

Taux de recombinaison : estimable a partir de donnees sur ladescendance de parents bien choisis.

Distance genetique : s’appuie sur un modele de larecombinaison.

InterferenceLe taux de double recombinaison est habituellement inferieur acelui attendu sous hypothese d’independance.

1.3%× 32.6% = 0.43% attendu pour la doublerecombinaison Y −W −M.0.045% observe.

Page 22: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Fonction de distance - map functions

Entre deux marqueurs. La premiere fonction de distances’appuie sur un modele de recombinaison simplifie (sansinterference, deux chromatides).

Fonction de Haldane - sans interference (1919)

ρ =12(1− e−2d) d = −1

2log(1− 2ρ)

Beaucoup d’autres fonctions pour l’interference:

Fonction de Kosambi - interference (1944)

ρ =12

tanh(2d) d =12

tanh−1(2ρ)

Pour de faibles distances/taux de recombinaison, d ≈ ρ.

Page 23: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Comment ?

Cartographie genetique

Comment ?1 Accumulation d’observations du genotype sur un ensemble

de marqueurs et sur un bon nombre de meiosesParents bien caracterises (phase), heterozygotie.Observation sur la descendance

2 Reconstruire les distances et l’ordre des marqueurs.

Des situations varieesTaille de l’echantillon, temps de generation, mortalite deslignees, nombre de marqueurs, facilite des croisements(plantes, animaux, humain).Observation de certains marqueurs/alleles parfois impossible(manquants).

Page 24: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Estimer le taux de recombinaison

Back-cross: estimer ρ entre 2 marqueurs

Un individu peut avoirdeux marqueurs homozygotes(AA,BB) ou heterozygotes (Aa,Bb) :non recombinant (NR).un heterozygote, un homozygote(Aa,BB ou AA,Bb) : recombinant(R).

Vraisemblance - probabilite des donneesSi ρ est le taux de recombinaison (a estimer), la probabilited’observer les donnees de typage Data (la vraisemblance) est :

Prob(Data|ρ) = ρR(1− ρ)NR

Page 25: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Estimer le taux de recombinaison

Back-cross : estimer ρ entre 2 marqueurs

Vraisemblance - probabilite des donnees

Prob(Data|ρ) = ρR(1− ρ)NR

Maximum de vraisemblanceLa valeur estimee ρ de ρ choisie est celle qui maximise laprobabilite d’observer les donnees (estimateur convergent).

Par un passage au logarithme et une etude de la derivee onobtient :

ρ =R

R + NR

Page 26: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Estimer le taux de recombinaison

En pratique

Individus non types sur un marqueur. Donneesmanquantes.On n’observe pas toujours les genotypes. Si un allele A est“dominant”, A est compatible avec AA,Aa en back-cross.Erreurs de typages

La vraisemblance de donnees incompletes est compliquee. Dememe que celle lorsque les marqueurs ne sont pascodominants, ou lorsque le pedigree est plus complexe que leback-cross.Pour la maximiser on utilise des algorithmes d’optimisationdedies (par exemple EM - Expectation Maximisation).

Dempster et al.,JRSS, 1977

Page 27: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Premieres etapes pour la construction

Nettoyage des donnees : distorsion

Marqueur distorduAllele sur-represente dans la descendance / a la frequenceattendue (gene lie a la reproduction/croissance,rearrangements ou probleme d’echantillonage)

Test de χ2 de Pearson Tχ2

Sous l’hypothese nulle: { les donnees observees sont tirees dela distribution theorique attendue }.Pour un risque α = 0.05, χ2

1ddl = 3.84si Tχ2 > 3.84 on rejette l’hypothese de non distortion.

Page 28: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Premieres etapes pour la construction

Nettoyage des donnees : “marqueurs confondus”

Jeux de donnees modernestypage de plusieurs dizaines de milliers de marqueursdistance minimale inter-marqueurs tres faiblepas de recombinaison/cassure obervee : meme genotypes(ou genotypes compatibles avec les donneesmanquantes).

=⇒ Supprimer ou fusionner des marqueurs

Page 29: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Grouper les marqueurs

Construction des groupes de liaison

Groupes de liaisonGroupes de marqueurs qui appartiennent a un memechromosome (lies).

Hypothese 0: { 2 marqueurs A et B ont un assortimentindependant (non lies, taux de recombinaison de 1

2 ) }.Hypothese 1: { les 2 marqueurs A et B sont lies (taux derecombinaison < 1

2 ) }.

LOD score - 2 marqueursOn utilise le LOD score pour tester la liaison.LOD = − log10

(maximum de la vraisemblance si ρ=1/2

maximum de la vraisemblance

)Tradition : LOD > 3 utilise pour conclure a la liaison.

Page 30: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Ordonner les marqueurs

Construction de la carte

CartographierPour chaque groupe de liaison (partie dechromosome), determiner l’ordre desmarqueurs et les distances (taux derecombinaisons) qui separent deuxmarqueurs adjacents

Carte satureeautant de groupes que de chromosomes,tous les marqueurs de la carte sont lies aun groupe.

Page 31: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Ordonner les marqueurs

Trouver une bonne carte

Un probleme combinatoirePour n marqueurs, il y a n!/2 ordres de marqueurs definissantdes cartes differentes. 10!

2 = 1.8106.

Impossible d’enumerer les ordres.Probleme d’optimisation difficile (meme dans ses versionsles plus simples).

Page 32: Cartographie gen´ etique´Cartographier Construction de cartes Comment ? Taux de recombinaison Taux de recombinaison 1 2 Le taux de recombinaison ˆ ABentre les deux marqueurs Aet

Cartographier Construction de cartes

Ordonner les marqueurs

Logiciels de cartographie

vegetaux: MapMaker, CarthaGene, JoinMapanimaux: CRIMAP,homme: MapMakerhybrides irradies: RHMAP, RHO, CarthaGene

Voir http://linkage.rockefeller.edu/soft/