38
1 Plan Concepts de base • Principes Distances • Similitude et distances • Distances évaluées et observées • Modèles • Tests Procédures • UPGMA • NJ

1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

Embed Size (px)

Citation preview

Page 1: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

1

Plan

Concepts de base• Principes

Distances• Similitude et distances• Distances évaluées et observées• Modèles• Tests

Procédures• UPGMA• NJ

Page 2: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

2

L’évolution est-elle parcimonieuse?

210212214216218220222224226228230

123 124 125 126 127 128 129 130 131 132 133

Lg

moy

enne

ave

c le

s au

tres

do

nnée

s

Lg des arbres avec la -globine

Page 3: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

3

Arbres obtenus pour et globines

Souris

Lapin

Chien

Singe

Homme

Chimpanzée

Kangourou

Mouton Vache Cheval

Cochon

Arbre obtenu à partir des globines

Singe

Homme

Chimpanzée

Souris

Chien

Lapin

Kangourou

Cheval

Cochon

Mouton

Vache

Arbre obtenu à partir des globines

Différences symétriques entre les arbres

Page 4: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

4

Taxonomie numérique

• Relations de distance et non généalogiques

• Des hypothèses supplémentaires permettent des inférences phylogénétiques

•La distance reflète le sens et la vitesse de l’évolution

•Le phénogramme résume les relations taxinomiques

•Différence mesurée entre paires de taxa, c’est une mesure globale

•Tous les caractères ont le même poids

•Information maximum

Page 5: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

5

Distance et similitude

K

nnS bbaa

ij

Indice de concordance simple

de Sokal et Michener (1958)

aa

bbij nK

nS

Indice de similitude de Jaccard (1908);cas des

RFLP par ex.

ijij Sd 1Plus deux séquences se ressemblent plus elles

sont proches.

Page 6: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

6

Distances métriques et ultramétriques

0ij si i<>j (positivité)

0ij si i=j (la distance de l’UE à elle même est nulle)

jiij (commutativité)

Distances métriques 1(Propriété de l’inégalité triangulaire )

jkikij

Distances ultramétriques (donc les 2 plus grandes distances sont égales 2)

Distances additives

jkikij

ji

k

2

j

i

k

1

),max( jkikij avec jk=ik

Page 7: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

7

Correction de distances: le problème(0)On observe le même état de caractère sur deux taxons actuels.Cela peut résulter de différents événements.

ou

État ancestral B

État actuelTaxon 1

A

État actuelTaxon 2

A

changement

État ancestral A

État actuelTaxon 1

A

État actuelTaxon 2

A

A

A Aou

A

A Aou

etc.… etc.…

B

A A

B

A A

Page 8: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

8

Correction de distances (1)

K

nnD baab

obs

Avec K= nb de sites observés

2 éléments influent sur l’état actuel observé•État A ou B de l’ancêtre commun : A Pb=f, B pb=1-f•Probabilité de changement visible entre l’ancêtre et l’actuel

(1-)* (1-f)*(1-)* f*(1-)* A et B

(1-)* f*(1-)* (1-f)*(1-)* B et A

(1-f)*(1-)2+(f)* 2(1-f)*(1-)2(f)* 2B et B

f*(1-)2+(1-f)* 2(1-f)* 2f*(1-)2A et A

Probabilité de l’observation

État de l’ancêtre k : B, Pb 1-f

État de l’ancêtre k : A, Pb f

États de i et j

i j

Ancêtre k

)1(2 obsD pour chaque position

Page 9: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

9

Correction de distance (2):Hypothèses

•Les changements sont rares et leur moyenne aussi•La moyenne des changement est constante

!r

enP

nr

r

La distribution des changements suit une loi de Poisson:

avec r=nb de changements sur une branche n=moyenne de changements par branche

•La moyenne des changements le long d’une branche est fonction du temps écoulé le long de cette branche. Si t=temps écoulé le long d’une branche m=nb de changements par u de temps

n=mt

et

!r

emtP

mtr

r

Page 10: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

10

Correction de distance (3)

Quand verra-t-on une différence entre l’ancêtre et le taxon actuel (évaluation de Si le nombre réel de changements est impair: r = 1,3,5,7,…

...531 PPP

22

20 mtmtmt

mt eeeee

!r 1,,impairr

r

mt mte

2!5!3!1:

531 xx eexxxquesaitonor

7531 PPPP

mte 212

1

Page 11: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

11

Correction de distance (4)Quand verra-t-on une différence entre les deux taxa actuels

mt

mt

mt

obs ee

eD 4

2

2 12

1

2

11

-

mtmt

obs

eeD

22

2

11

2

12)1(2

-

Comment exprimer la distance réelle (ou une estimation)?

mtDrel

2Comment à partir de la distance observée déduire la distance réelle estimée?

obsDLogmt 214

obs

mt De 214

mt

obs eD 12

1 4

obsest DLogDmt 21

2

12

Page 12: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

12

Séquences nucléotidiques

 Il y a 12 possibilités de changements : 

transition

transversion4 transitions possibles et 8 transversions possibles.

AGC T

A et G Purines

C et T Pyrimidines

Page 13: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

13

Correction de distance (5)

Dans le calcul précédent on n’a tenu compte que de deux états de caractère.

Pour l’ADN il y en a 4 ce qui complique le calcul.

Avec A=C=G=T et tous les changements équiprobables (JC), la correction devient

Avec A=C=G=T et les transitions équiprobables, les transversions également, mais la fréquence transition différente de transversion

(K2p), la correction devient

)1(

3

41ln

4

3ijij Sd

QQPdij 21)21(ln2

1

Page 14: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

14

Correction de distance: les modèles

Modèle A/G/C/T Pb SI Pb Ve

Jukes et Cantor A=G=C=T=25%

Kimura 2p A=G=C=T=25%

Tamura 3p A+T=1-, G+C=

Tajima et Nei 1p AGCT

Hasegawa HKY85 2p

AGCT

Tamura et Nei 3p

AGCT 1(Pyr) et 2(Pur)

Modèle à 8 p AGCT 1, 2, 3 et 4

1, 2, 3 et 4

Page 15: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

15

Tests statistiques des modèles (1)Test de l’invariant unique 

Sous le modèle de JC les paires AG et TC (transitions=P) sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2P-Q=0. On va donc estimer l’écart de JC à sa valeur théorique 0 avec

)2( ij

n

jiij QPJC

)

1

2

)(

Ni

i NiV

xxqui a pour variance

2)(z

JCV

JC

représente le degré de signification souhaité et z la valeur seuil au-delà de laquelle la courbe de la probabilité a la surface /2.

Et on compare

Page 16: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

16

Tests statistiques des modèles (2) Test de stationnarité

Dans les modèles •Tamura, •Tajima, •HKY85 •à 8 paramètres,

à l’équilibre la probabilité g du nucléotide x dans la séquence 1,2, … ou m est la même :. C’est ce que l’on va tester.

xmxx ggg ...21

Page 17: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

17

Tests statistiques des modèles (3) Test des invariants multiples

Si la condition de stationnarité est satisfaite, quel est le modèle le plus simple qui rende compte des données? Il y a 10 couples de changements possibles (les changements réciproques étant de même probabilité) : AA, AT, AC, AG, TT, TC, TG, CC, CG, GG avec

,..., 21 XATXAA Pour chaque modèle il est possible pour Xi d’écrire une équation de la forme

s

ss bXa 0)(ou s indique le sème nucléotide, a et b les paramètres de chaque modèle Le modèle de Kimura revient alors à

172 aa 193 aaet tous les autres a et b sont nuls soit

0 GCGTACAT XXXX

Page 18: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

18

UPGMA 1

Tetrahymena

Ginkgo

Epinard Sureau Poireau

Mouche Bonite Lapin Rat Cheval

Tetrahymena 0

Ginkgo 68 0

Epinard 72 19 0

Sureau 66 15 17 0

Poireau 61 15 12 9 0

Mouche 69 44 46 50 42 0

Bonite 68 45 48 51 42 23 0

Lapin 68 40 45 48 40 21 17 0

Rat 69 39 44 47 39 20 16 2 0

Cheval 68 43 48 50 42 22 18 6 6 0

Rat

Lapin

1

1

Page 19: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

19

UPGMA 2

6

016,520,539,547,544,539,568,5L+R

L+R

018224250484368Cheval

0234251484568Bonite

04250464469Mouche

09121561Poireau

0171566Sureau

01972Epinard

068Ginkgo

0Tetrahymena

ChevalBoniteMouchePoireauSureau EpinardGinkgoTetrahymena

Rat

Lapin

1

1Cheval

2

3

Lapin 68 40 45 48 40 21 17

Rat 69 39 44 47 39 20 16

Page 20: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

20

UPGMA 3Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite L+R+C

Tetrahymena 0

Ginkgo 68 0

Epinard 72 19 0

Sureau 66 15 17 0

Poireau 61 15 12 9 0

Mouche 69 44 46 50 42 0

Bonite 68 45 48 51 42 23 0

L+R+C 68,33 40,67 45,67 48,33 40,33 21 17 0

Rat

Lapin

1

1Cheval

2

3

Sureau

Poireau

4,5

4,5

Page 21: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

21

UPGMA 4Tetrahymena Ginkgo Epinard S+P Mouche Bonite L+R+C

Tetrahymena 0

Ginkgo 68 0

Epinard 72 19 0

S+P 68 15 14,5 0

Mouche 69 44 46 50 42 0

Bonite 68 45 48 51 42 23

L+R+C 68,33 40,67 45,67 44,33 21 17 0

Rat

Lapin

1

1Cheval

2

3

4,5 Sureau

Poireau4,5Epinard

2,75

7,25

Page 22: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

22

UPGMA 5

Tetrahymena Ginkgo S+P+E Mouche Bonite L+R+C

Tetrahymena 0

Ginkgo 68 0

S+P+E 69,33 16,33 0

Mouche 69 44 46 42 0

Bonite 68 45 47 42 23

L+R+C 68,33 40,67 44,78 21 17 0

4,5 Sureau

Poireau4,5Epinard

2,75

7,25

Ginkgo

0,915

8,165

Rat

Lapin

1

1Cheval

2

3

Page 23: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

23

UPGMA 6

Tetrahymena S+P+E+G Mouche Bonite L+R+C

Tetrahymena 0

S+P+E+G 69 0

Mouche 69 45,5 0

Bonite 68 46,5 42 0

L+R+C 68,33 43,75 21 17 0

Rat

Lapin

1

1Cheval

2

3

Bonite

5,5

8,5

4,5 Sureau

Poireau4,5Epinard

2,75

7,25

Ginkgo

0,915

8,165

Page 24: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

24

UPGMA 7

Tetrahymena S+P+E+G Mouche R+L+C+B

Tetrahymena 0

S+P+E+G 69 0

Mouche 61 45,5 0

R+L+C+B 68,5 44,43 21,5 0

4,5 Sureau

Poireau4,5Epinard

2,75

7,25

Ginkgo

0,915

8,165

Rat

Lapin

1

1Cheval

2

3

Bonite

5,5

8,5

Mouche

2,25

10,75

Page 25: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

25

UPGMA 8Tetrahymena S+P+E+G R+L+C+B+M

Tetrahymena 0

S+P+E+G 69 0

R+L+C+B+M 67 44,64 0

4,5 Sureau

Poireau4,5Epinard

2,75

7,25

Ginkgo

0,915

8,165

Rat

Lapin

1

1Cheval

2

3

Bonite

5,5

8,5

Mouche

2,25

10,75

14,155

11,57

Page 26: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

26

UPGMA 9

Tetrahymena S+P+E+G+R+L+C+B+M

Tetrahymena 0

S+P+E+G+R+L+C+B+M 67,89 0

4,5 Sureau

Poireau4,5Epinard

2,75

7,25

Ginkgo

0,915

8,165

Rat

Lapin

1

1Cheval

2

3

Bonite

5,5

8,5

Mouche

2,25

10,75

14,155

11,57

Tetrahymena

12,02

33,94

Page 27: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

27

Unweighted Pair-Group Method of Arithmetic average

-

D

839D

-

C

4

-

B

7

5

-

A

C

B

A

Matrice de distances Dbd = 3On répartit cette distance

également sur les 2 branches

B

D

1,5

1,5

Page 28: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

28

Neibor-joining (1)

i

j

n

m

l

k

x yD représente une

distance observéeB représente une

distance estimée

jik

ykxyjxixij BBBBSLa longueur de l’arbre correspondant s’exprime :

(1)

Page 29: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

29

NJ (2)

ykxyixik BBBD

De la même manière pour les distances de j à tous les autres différents de i

et il y a n-2 distances de ce type donc

ylykkl BBD soit pour toutes les distances entre les n-2 otus de l’étoile :

jxixij BBD (2)

jik

ykxyixjik

ik BBBnD ))(2( (3)

jik

ykxyjxjik

jk BBBnD ))(2( (4)

ykjilk

kl BnD )3(,,

(5)

Page 30: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

30

NJ (3)

jxixij BBD (2)

jik

ykxyixjik

ik BBBnD ))(2( (3)

jik

ykxyjxjik

jk BBBnD ))(2( (4)

ykxyjxix BnBnnBBQ )32()2(2)21)((

ykjilk

kl BnD )3(,,

(5)

ykxyij BnBnDnQ )1()2(2)1( (6)

Page 31: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

31

NJ (4)

On tire de (6)

)2(2

)1()1(

n

BnDnQ

B

n

jikykij

xy

(9)

ykxyij BnBnDnQ )1()2(2)1( (6)

ykykij

ijij Bn

BnDnQDS

)2(2

)1()1(

)2(2

)1()2(2)1()2(2

n

BnnQDnnS ykij

ij

)2(2

)3()142(

n

BnQDnnS ykij

ij

En substituant dans 1 les valeurs données par 2 et 7

BykBBBS xyjxixij (1)

Page 32: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

32

)2(2

)3(

)2(2

)3(

n

DRRQQDn

n

DQDnS ijjiijklij

ij

)2(2

2)2(

n

DRRQDnS ijjiij

ij

Puis en utilisant la valeur de Byk exprimée dans 7 et en remplaçant ensuite Dkl par sa valeur donnée en 8

NJ (5)D’après l’équation (5)

n

ijiji DRdistances de l’OTU i

à toutes les autres

n

jiijj DRdistances de l’OTU j

à toutes les autres

)3(,,

n

D

B jilkkl

jikyk

(7)

ijjijilk

kl DRRQD ,,

(8)

Page 33: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

33

Neighbor-Joining (6)

i

j

ancêtre

D ianc2

Dij

horloge

)2(2

2

N

RRQ ji

Correction de l’horloge

)2(2

2

2

n

RRQDS jiij

ij

Page 34: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

34

Méthodes agglomératives

•Distances métriques et additives

•Voir la formule

•Arbre non raciné

•Distances ultramétriques

•Vitesse constante sur toutes les branches

•Arbre raciné

NJUPGMA

Page 35: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

35

Arbres à 7 taxons obtenus avec NJ ou UPGMA

Cyathea le

Gnetum gne

Metasequoi

Magnolia s

Encephalar

Cedrus deo

Ginkgo bil

1

1

1

26

NJ

UPGMA

Cyathea le

Gnetum gne

Magnolia s

Metasequoi

Cedrus deo

Encephalar

Ginkgo bil

1

5

2

4

13

Page 36: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

19/11/02 J2_2002_ DESS

Monocotylédones

Pla

ntes

terr

estr

es

Chlorophycées

Bryophytes

Ptéridophytes

Gymnospermes

Dicotylédones 1

Dicotylédones 2

Spe

rmat

ophy

tes

Plantes terrestres

Page 37: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

37

FIN (distances)

Page 38: 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

38

Comparaison des deux méthodes de calcul d’arbre

Méthodes de distance Méthodes de parcimonie

*Calcul d’une distance globale *Un seul arbre retourné par le programme *Pas de test de robustesse de l’arbre unique (excepté le bootstrap)  *Pas de retour aux caractères pour pouvoir les reconsidérer

 *Rapide, même avec un grand nombre de taxa

*Examen des caractères les uns après les autres*La méthode peut retourner plusieurs arbres également parcimonieux*Il y a un test de robustesse des noeuds (mesure de l’homoplasie dans l’arbre par le calcul du rapport de la longueur minimale de l’arbre à sa longueur réelle.*Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations

*Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa