Bio-informatique Concepts et matrices des substitutions

Preview:

Citation preview

Bio-informatique Concepts et matrices des substitutions

Emese Meglécz Emese.Meglecz@imbe.fr

• Modèles et concepts évolutifs – Mutations, duplications, divergence

– Homologie, orthologie, paralogie, etc …

• Alignements de paires de séquences – Matrices de substitutions

– Dot plots (dottup, dotmatcher)

Contenu du cours

Modèles et Concepts Evolutifs

Différence entre Similarité et Identité

• % Identité – Proportion de résidus (acide aminés ou nucléotides) identiques entre

les séquences

• % Similarité – Proportion de résidus similaires (pas forcement identiques) entre les

séquences

Identities = 14/26 (54%),

Positives = 15/26 (58%),

VCGMWLDGDIAAVDMFTHVEIDDGEV

V G W+ GDI MFTH DD EV

VAGIWVAGDIRGGPMFTHTAYDDFEV

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences nucléiques aléatoires ?

Similarité

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences nucléiques aléatoires ? – 4 bases : A, C, G et T

– % Identité attendu entre séquences aléatoires: 1/4 = 25%

Similarité

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences protéiques aléatoires ?

Similarité

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences protéiques aléatoires ?

– 20 acides aminés

– % Identité attendu entre séquences aléatoires: 1/20 = 5%

Similarité

Etudes des événements évolutifs ou phylogénie : Duplication

• Une duplication est une mutation qui génère un dédoublement d'une partie de l'ADN génomique. Elle peut recouvrir l'ensemble du génome (formation de polyploïdes), un chromosome entier, ou un fragment d’ADN plus ou moins grand.

• Les duplications peuvent entraîner l’apparition de copies multiples d'un ou plusieurs gènes, provoquant ainsi une certaine redondance de l'information génétique.

• Dans certains cas, l'une des copies du gène acquiert, par accumulation de mutations, de nouvelles caractéristiques qui lui permettent d'assumer une nouvelle fonction. Ce mécanisme, appelé duplication divergence, est à l'origine de la diversification des fonctions biologiques.

9

Etudes des événements évolutifs ou phylogénie : Spéciation

• Processus évolutif qui résulte en la formation d’espèces distinctes à partir d’une espèce unique.

• Les événements de duplication et spéciation suscitent l’apparition de copies multiples à partir d’une seule séquence, soit au sein d’une même espèce (duplication), soit au sein des espèces distinctes dérivées de la spéciation. Ces séquences, dont la similarité résulte d’une séquence ancestrale commune, sont dites homologues.

10

Etudes des événements évolutifs ou phylogénie : Transfert horizontal

• Un processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. – Bactéries → bactéries

• Ex : Gènes de résistance entre bactéries

– Bactéries ↔ eucaryote (plantes ou animaux)

– Eucaryote → eucaryote

11

• Deux séquences qui descendent d’un ancêtre commun divergent.

• La divergence peut résulter d’une duplication ou d’une spéciation.

• Evénements de mutations – Substitutions

– Délétions + Insertions = indel

Duplication et spéciation

a1 a2

divergence

présent

temps

a

duplication

Séquence ancestrale

b c

divergence

présent

temps

a

Spéciation

Espèce ancestral mutation

• La similarité entre deux séquences peut s’interpréter par trois hypothèses alternatives: – Homologie: la ressemblance s’explique par le fait que les deux

séquences divergent d’un ancêtre commun (évolution simple). • Ex : Tous les mammifères ont 4 membres car leur ancêtre commun avait 4 membres

– Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.

• Ex : Colibri et le moro sphinx (insecte) on une trompe pour sucer le nectar des fleurs

– Similarité due au hasard

Similarité, homologie, analogie

• Deux séquences sont dites homologues si elles possèdent un ancêtre commun

• L’existence d’un ancêtre commun est inférée à partir de la similarité

Événement évolutif

(spéciation, duplication)

séquence1 séquence2

Ancêtre commun

Définition de l’homologie

• Inférence – Avant d’affirmer que deux séquences sont homologues, nous devrions

pouvoir retracer leur histoire jusqu’à leur ancêtre commun.

– Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie.

– Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités, …).

– L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.

Homologie de 2 séquences

• L’homologie n’est pas quantifiable – Deux séquences sont homologues ou elles ne le sont pas

– Possèdent ou non des caractères provenant d’un ancêtre commun

– Raisonnement binaire (vrai ou faux)

• La similarité est quantifiable – On peut dire de deux séquences qu’elles sont similaires à 50% ou 75%

• Généralement on infère l’homologie sur base de similarité élevée entre les séquences

Homologie ≠ Similarité

Homologie ≠ Similarité (2)

• On observe un certain niveau de similarité entre deux séquences (% identité, % similarité).

• Sur cette base, on évalue des scénarios évolutifs: – cette similarité peut provenir d’une évolution convergente (analogie);

– d’une évolution divergente à partir d’un ancêtre commun (homologie);

– du hasard.

• Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.

• Convergence ou simple hasard pour de courtes séquences (quelques résidus) – Similarité et identité élevées (45% et 31%) => signe de homologie

– Longueur de l’alignement courte, ne couvre pas la totalité de la séquence => signe de similarité due au hasard

Similarité sans homologie

Score: 31,2 Expect:2,5 Identities:14/45(31%)

Positives:23/45(51%) Gaps:2/45(4%)

Query 25 FVNQHLCGSHLVEALYLVCGERGFFYTP--KTRREAEDLQVGQVE 67

FV HLCG ++ +++ + FF P + R +A L + Q E

Sbjct 49 FVTTHLCGGSILNNFHVITAAQCFFSNPSGRFRVQAGKLTLNQFE 93

• Existence de régions de faible complexité – régions riches en quelques aa

– Cas de la fibroïne [GSGAGA]n

Similarité sans homologie (2)

• Globine gamma humaine vs myoglobine humaine

• Le taux d'identité est de 26% (<30% critère simpliste), on conclut que ces séquences ne sont pas homologues.

• La e-valeur (mesure de similarité contre le hasard) est très significative. Un tel niveau de similarité ne peut donc s'expliquer par le simple jeu du hasard.

GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links)

Score = 48.5 bits (114), Expect = 6e-06,

Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%)

Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85

GE L RL +P T FD F +L S + + +K HG VLT+LG +K +

Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68

Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSRY 146

L++ H K + + + + ++ VL +F + Q + K + ++S Y

Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNY 129

Homologie avec faible similarité

Wajcmana et Kiger, 2002

Homologie sans ou peu de similarité

• Cenancestor (Most Recent Common Ancestor): l'ancêtre commun le plus récent des taxons d’intérêt

• Orthologie: paire de séquences homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation

• A, B et C sont orthologues

Les catégories d’homologies : Orthologie

A (chat) B (souris) C (rat)

Myoglobines

Spéciations

• Paralogie: paire de séquences homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique

• Les fonctions de paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction)

• B et C sont paralogues

A (chat) B (souris) C (souris)

Insuline Insuline I Insuline II

Spéciation

Duplication

Les catégories d’homologies : Paralogie

• B et C sont paralogues

• A et C ou A et B sont orthologues

• La duplication crée généralement une

redondance fonctionnelle, qui peut

éventuellement ouvrir le champ à une

spécialisation de l’un des paralogues,

voire à l’émergence de nouvelles fonctions.

• Attention, contrairement à une idée

répandue, l’orthologie ne permet pas

forcément de conclure à une

conservation fonctionnelle.

• Si la duplication B-C donne lieu à une divergence fonctionnelle de l’une des deux copies (par exemple C), A et C n’en resteront pas moins orthologues (leur dernier ancêtre commun précède une spéciation), même si leurs fonctions sont distinctes.

A (chat) B (souris) C (souris)

Insuline Insuline I Insuline II

Spéciation

Duplication

Paralogie ou Orthologue

• Xénologie: relation entre les deux séquences homologues dont l'histoire, depuis leur dernier ancêtre commun, implique le transfert horizontal (interspécifique) du matériel génétique.

Espèce A Espèce B

Ancêtre de B Ancêtre de A

Les catégories d’homologies : Xénologie

Exercice d’homologie

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1

B2

C1

C2

C3

Exercice d’homologie

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1

B2

C1

C2

C3

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1 O

B2

C1 O

C2

C3

Exercice d’homologie

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1

B2

C1

C2

C3

A1 AB1 B1 B2 C1 C2 C3

A1 X O O O O O

AB1 X X X X X X

B1 O X P O P P

B2 O X P P O O

C1 O X O P P P

C2 O X P O P P

C3 O X P O P P

Exercice d’homologie

A1 AB1 B1 B2 C1 C2 C3

A1 X O O O O O

AB1 X X X X X X

B1 O X P O P P

B2 O X P P O O

C1 O X O P P P

C2 O X P O P P

C3 O X P O P P

Orthologie peut être une relation de 1 à N

A1 [orthologue]-> B1 A1 [orthologue]-> B2

L’orthologie est réciproque.

A1 <-[orthologue]-> B1 L’orthologie n’est pas transitive

A1 <-[orthologue]-> B1 A1 <-[orthologue]-> B2 B1 <-[paralogue]-> B2

Exercice d’homologie

A1 AB1 B1 B2 C1 C2 C3

A1 X O O O O O

AB1 X X X X X X

B1 O X P O P P

B2 O X P P O O

C1 O X O P P P

C2 O X P O P P

C3 O X P O P P

A1 AB1 B1 C1 B2 C2 C3

Spéciation

Duplication

Transfert horizontal

A, AB, B, C représentent les espèces 1, 2, 3 les copies des gènes

Isomorphisme des arbres (topologie)

A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1

Isomorphisme des arbres (topologie)

A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1

Les deux arbres sont identiques !

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 1

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 1

Spéciation

Duplications

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2 paralogues

Seq1 et Seq3 orthologues

Seq1 et Seq4 orthologues

Seq2 et Seq3 orthologues

Seq2 et Seq4 orthologues

Seq3 et Seq4 paralogues

Exercice 1

Spéciation

Duplications

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 2

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 2

Spéciation

Duplications

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2 orthologues

Seq1 et Seq3 paralogues

Seq1 et Seq4 paralogues

Seq2 et Seq3 paralogues

Seq2 et Seq4 paralogues

Seq3 et Seq4 orthologues

Exercice 2

Spéciation

Duplications

Recommended