25
D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 1 PHYLOGENIES MOLECULAIRES I. Introduction. POURQUOI REALISER UNE PHYLOGENIE Deux domaines d'application majeurs : Reconstruire l'histoire évolutionnaire de taxons, caractères ou de gènes. Analyse de caractères et de vitesses d'évolution La phylogénie constitue alors le cadre conceptuel permettant d'étudier et comprendre comment ces objets biologiques ont changé au cours du temps. C'est la première étape d'une étude comparative. QU'EST CE QU' UNE PHYLOGENIE MOLECULAIRE ? C'est la reconstruction de l'histoire évolutionnaire d'objets biologiques (organismes, gènes …) par comparaison de séquences d'acides nucléiques ou protéiques. L'hypothèse de travail est plus des objets partagent un ancêtre proche, plus leurs séquences doivent se ressembler. Donc : plus il faut d'étapes pour passer (cf l'édition) d'une séquence à une autre, plus leur dernier ancêtre commun est lointain, et inversement. Pour effectuer cette analyse, il faudra donc que les séquences comparées soient orthologues et il vaudra mieux que la pression de sélection soit plus ou moins restée la même au cours du temps dans les différentes lignées. La comparaison de séquences d'ADN. 1. Dans les régions codantes, et pour des objets proches, les changements synonymes possible facilement peuvent apporter beaucoup d'informations. 2. On peut utiliser soit les régions codantes soit les régions non codantes, suivant la profondeur des arbres recherchés. 3. Les séquences les plus utilisées sont en fait les gènes des ARNr. La comparaison des séquences de protéines . 1. Un code à 20 caractères qui augmente le rapport signal sur bruit (homoplasies). Les mmolécules utilisées. 1. Les séquence des gènes des d'ARN ribosomiques (ARNr). 2. Les séquences IGS et ITS des ARNr. 3. Les même séquences dans la mitochondries. 4. Des régions hyper variables du génome mitochondrial. 5. Les séquences de cytochrome C 6. Les séquences de la ribulose 1,5-bisphosphate carboxylase 7. Les séquences du facteur d'élongation alpha (tuf). 8. ……… Le "Tree of life" http://tolweb.org/tree/phylogeny.html

Les arbres phylogénétiques - ac-aix-marseille.fr

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 1

PHYLOGENIES MOLECULAIRESI. Introduction.

POURQUOI REALISER UNE PHYLOGENIE

Deux domaines d'application majeurs :Ø Reconstruire l'histoire évolutionnaire de taxons, caractères ou de gènes.Ø Analyse de caractères et de vitesses d'évolution

La phylogénie constitue alors le cadre conceptuel permettant d'étudier et comprendre commentces objets biologiques ont changé au cours du temps. C'est la première étape d'une étudecomparative.

QU'EST CE QU'UNE PHYLOGENIE MOLECULAIRE ?C'est la reconstruction de l'histoire évolutionnaire d'objets biologiques (organismes, gènes …) parcomparaison de séquences d'acides nucléiques ou protéiques. L'hypothèse de travail est plus desobjets partagent un ancêtre proche, plus leurs séquences doivent se ressembler.Donc : plus il faut d'étapes pour passer (cf l'édition) d'une séquence à une autre, plus leur dernierancêtre commun est lointain, et inversement.Pour effectuer cette analyse, il faudra donc que les séquences comparées soient orthologues et ilvaudra mieux que la pression de sélection soit plus ou moins restée la même au cours du tempsdans les différentes lignées.

Ø La comparaison de séquences d'ADN.1. Dans les régions codantes, et pour des objets proches, les changements synonymes possible

facilement peuvent apporter beaucoup d'informations.2. On peut utiliser soit les régions codantes soit les régions non codantes, suivant la profondeur

des arbres recherchés.3. Les séquences les plus utilisées sont en fait les gènes des ARNr.

Ø La comparaison des séquences de protéines.1. Un code à 20 caractères qui augmente le rapport signal sur bruit (homoplasies).

Ø Les mmolécules utilisées.1. Les séquence des gènes des d'ARN ribosomiques (ARNr).2. Les séquences IGS et ITS des ARNr.3. Les même séquences dans la mitochondries.4. Des régions hyper variables du génome mitochondrial.5. Les séquences de cytochrome C6. Les séquences de la ribulose 1,5-bisphosphate carboxylase7. Les séquences du facteur d'élongation alpha (tuf).8. ………

Le "Tree of life"http://tolweb.org/tree/phylogeny.html

Page 2: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 2

LES TERMES DECRIVANT UN ARBRE

LES DIFFERENTS TYPES D'ARBRES

Ø Sous forme graphique. Note : L'axe vertical ne comporte aucune information.

Ø Non raciné

Ø Au format "Newick" (((B,C),A),D)

Page 3: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 3

RESOLUTION D'UN ARBRE : PREMIER OBJECTIF D'UNE PHYLOGENIE.

LE RAPPORT NOMBBRE DE TAXONS / NOMBRE D'ARBRES POSSIBLES

POSITIONNER LA RACINE DE L'ARBRE : SECOND OBJECTIF D'UNE PHYLOGENIE.

Très souvent l'analyse des résultats de la phylogénie requiert que soitpositionnée la racine de l'arbre.Dans l'exemple ci-contre, le positionnement de la racine met enévidence un clade B,C,D qui ont donc un ancêtre commun.La place de la racine à un autre endroit change donc l'interprétationdes résultats.NOTE : Chercher la place de la racine est une des tâches les plusdifficile en phylogénie moléculaire !

Page 4: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 4

Ø Le nombre de places possibles pour la racine :

Ø Deux mode de racinement pour un arbre.

1/ On peut positionner la racine grâce à ungroupe externe : sachant (par d'autresdonnées) que les mammifères sont apparusaprès les oiseaux, l'inclusion d'un oiseaudans la phylogénie permet de mettre enévidence un clade Ane-Lion, avec le Lapincomme taxon externe à ce clade

Quand on n'a aucune possibilité de déciderquel taxon peut servir de groupe externe,on place souvent la racine au milieu del'arbre ; ceci fait implicitement usage de lanotion d'horloge moléculaire.

Page 5: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 5

ROTATION DE BRANCHES

NOTE : Contrairement au changement de place de la racine, la rotation debranche (branch swapping) n'a aucune influence sur l'interprétation desrésultats !

II. Quelques exemples d'applications.Ø Quelles sont les espèces proches de l'homme ?Ø Le médecin a t il infecté ses patients ?Ø Quelles sont les origines d'un élément transposable ?Ø …

QUELLES SONT LES ESPECES PROCHES DE L'HOMME ?

Les données moléculaires comme lesgènes de la mitochondrie, la plupart desgènes nucléaires et les hybridationsADN/ADN indiquent un clade : homme,chipanzé, bonono.Divergence Homme-Singe : 5 Millionsannées

Les données de la paléontologiesuggéraient un clade Gorille, Chimpanzé,Bonobo, Orangutan.La divergence avec l'homme étaitestimée à environ 12 Millions années.

Page 6: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 6

LE MEDECIN A T IL INFECTE SES PATIENTS ?

Des virus du SIDA isolés de différents patients, du médecin et de personnes non reliés à eux ontété séquencés et analysés par phylogénie moléculaire.1. Il existe une population très diverse de virus chez le médecin è polyinfection ?2. Il a transmis le virus aux patiens A,B,C,E,G, mais non à D et F.

La réponse vient d'une analyse cladistique des résultats.

OU EST APPARUE LA LIGNEE DES SINGES ?

Les flèches è indiquent les endroits où des espèces ont du migrer pour changer de continent.C'est les scénario B qui est le plus probable.

Page 7: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 7

LA PHYLOGENIE DE L'ESPECE HUMAINE.

Arbre établi à partir de séquence d'ADN mitochondrial.

Ø NOTE sur les phylogénies humaines.

Page 8: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 8

L'ORIGINE DE LA VIE.

RAPPEL : SIMILARITE ET RELATION EVOLUTIONNAIRE

Ø Définitions :Caractères partagés présents chez le groupe externe : Plésiomorphies.Caractères partagés absents chez le groupe externe : Synapomorphies = Apomorphies.Caractères dus à une convergence : Homoplasies.

Dans l'arbre ci-contre :

Les taxons A et C sont très similaires (seulement 3différences) alors que C et B ont 7 différences.

Mais ! Les taxons C et B forment un clade quiexclue le taxon A.

D'un point de vue évolutionnaire, on peut fairel'hypothèse que B et C partageront certainesfonctions qui seront absentes dans le taxon A.

Page 9: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 9

ARBRES DE GENES ET ARBRES D'ESPECES.La phylogénie moléculaire produit des arbres de gènes et pas des arbres d'espèces !

Le problème le plus sérieux est celui qui suit une dupplication de gènes avec perte d'un des deuxgènes de façon indenpantes dans les différentes lignées :

Solution : Des logiciels d'examen de vos résultats (GeneTree par Page).

III. Les méthodes de reconstruction. GénéralitésTout d'abord, il est crucial de savoir que les méthodes de reconstruction de phylogénie nepeuvent fournir un résultat correct que si les séquences sont correctement alignées !

Enfin toutes les méthodes reposent sur les hypothèses suivantes :• Pas de transfert latéral ou de recombinaison• Les séquences sont homologues (ou alors on teste en connaissance de cause)• Chaque position de l'alignement comporte des résidus homologues• L'échantillonage est correctement effectué (correct ?)• Les positions évoluent indépendamment les unes des autres !!!

Si l'on a bien un alignement optimal, il existe alors de plusieurs méthodes de reconstruction, quel'on peut schématiquement diviser en méthodes basées sur les distances et méthodes basées sur lescaractères.

Ø Les méthodes de distancesElles commencent par calculer les distances d'édition, comme nous l'avons vu précédemmment,puis utilisent la matrice triangulaire de distance pour reconstruire un arbre. Il sera donc importanti) de choisir une bonne méthode de calcul des distances et ii) de choisir une bonne méthode dereconstruction d'arbre.

Ø Les méthodes basées sur les caractères.Elles travaillent directement sur les séquences alignées, et tente de trouver un scénarioévolutionnaire qui minimise le nombre total de substitutions nécessaires pour passer d'uneséquence à une autre en parcourant l'arbre phylogénétique. Elles ont l'avantage de proposer lesséquences ancestrales.

Page 10: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 10

On utilise généralement deux types de méthodes : la parcimonie et le maximum de vraisemblance.

AVANTAGE & INCONVENIENTS DE CHAQUE METHODE.Ø Maximum de vraisemblanceSouvent considérée comme la "meilleure méthode", c'est à dire la plus à même de trouver l'arbrevrai. Par contre les calculs sont extremement longs, on l'utilise rarement pour des phylogenies deplus de cent séquences, surtout avec l'option G (global rearangments).Ø ParcimoniePour beaucoup, c'est "LA méthode" par excellence. Relativement rapide en temps calcul, on peutl'utiliser pour traiter de relativement gros jeux de données ; on peut également faire du boostrap entemps raisonnableØ DistancesLongtemps décriées car elles ne font pas explicitement utilisation des principes de la théorie del'évolution (on peut les utiliser pour classer n'importe quel type d'objets), les nouveauxdéveloppements (neighbor-joining …) semblent maintenant aussi efficace que les méthodesbasées sur les caractères.Les méthodes de distance ont l'avantage d'être extremement rapides : on peut les utiliser pour fairedes arbres de plusieurs milliers de séquences. Enfin, et contrairement aux méthodes basées sur lescaractères, elles ne sont pas sensibles au rapport (nombre de caractères utilisés) / (nombre deséquences analysées) ! En effet avec les méthodes basées sur les caractères, lorsque le nombrede caractères analysés devient approximativement inférieur à la moitié du nombre deséquences analysées, la reconstruction devient rapidement incorrecte.

Dans la pratique on tentera de calculer un arbre avec les trois méthodes, et on comparera lesrésultats. S'ils sont en accord, alors on postulera avoir retrouvé le vrai arbre, sinon …

CALCUL DES DISTANCES

La façon la plus simple de calculer une distance est celle expliquée précédemment dans le chapitresur l'alignement deux à deux des séquences. Deux remarques :

Ø Ainsi que mentionné précédemment, on n'a pas de règles définitives pour ajuster les paramètres de ladistance d'édition.

Ø Cette mesure est un reflet de la différence entre les séquences, mais beaucoup moins de leur relationdans l'évolution : tenir compte des différences entre transitions et transversion par exemple estobligatoire pour des séquences non codantes, mais peut être moins impératif pour des séquencescodantes, pour lesquels c'est le 3ème nucléotide du codon qui sera plus libre de muter.

Ø Cette distance ne tient pas compte des homoplasies !

Page 11: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 11

Ø Deux séquences de nucléotides prises au hasard et simplement comparées (sans aucune édition) onttoujours 25% de nucléotides appariés, pourvu qu'elles soient suffisamment longues.

Pour pallier ce problème, plusieurs solutions ont été proposées :Ø La correction de Jukes et Cantor (1969).La proposition fut de corriger la distance de la manière suivante : D=-3/4ln(1-(4P/3))Dans laquelle p est la distance d'édition classique (mais sans prendre en compte les gaps). Larelation entre D (distance génétique) et P (le pourcentage de différence entre les séquences) estmontré dans la figure ci dessous.

Cette Figure montre i) l'effet de la correction s'accroit d'autant plus que les séquences sontdifférentes, ii) avec P > 70% on atteint le seuil de saturation au delà duquel la correction devientimpossible, iii) avec P < 20%, l'effet de la correction est quasi-linéaire.

Ce résultat montre donc qu'on ne devrait pas tenter d'analyser phylogénétiquement des séquencesqui dépasse ou même avoisinent cette valeur.

Ø La correction de Kimura à deux paramètres.L'objectif est de tenter de restituer au mieux la distance réelle, en prenant en compte leshomoplasies possibles dans les séquences, et en tenant compte des différences entre transitions (Q)et tranversions (P).

Ø Les nouvelles corrections.De très nombreuses méthodes de corrections sont maintenant disponibles, qui tentent de prendreen compte également les biais de composition des séquences, des taux de substitutions nonuniformes (dans des branches, ou des lignées, ou selon les sites…)Voir également le logiciel DNArates (Olsen) qui tente de calculer la vitesse d'évolution par site entenant compte d'une phylogénie préliminaire; et une option dans PAUP qui fonctionne sur lemême principe.

Tous les logiciels en ligne ne permettent pas d'utiliser l'ensemble des méthodes. On peutsimplement dire que à moins d'être un vrai spécialiste en phylogénie moléculaire, l'utilisation de la

Page 12: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 12

correction 2-paramètres de Kimura est généralement amplement suffisante. Des erreurs debraucoup plus grande ampleur résultent de la non sélection des domaines à analyser, un objectiftrès difficile à réaliser pour les non spécialistes.

L'ESPACE DES DISTANCES.Ø Les distances dans un espace métrique :

Ø Espace Ultra-métrique :Les quatre conditions précédentes PLUS

Implication 1: Pour trois objets, deux des distances sont égales.Implication 2: Il existe une horloge moléculaire stricte !

Distances additives.On rajoute la condition :

Pour que des distances puissent être analysées en terme d'arbre phylogénétique, il fautqu'elles soit métrique ou ultramétriques ET qu'elles soient additives.

Explication :

Les méthodes de phylogénie sont assurées detrouver l'arbre VRAI.

Page 13: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 13

LA RECHERCHE DE LA TOPOLOGIE OPTIMALE.Lors de l'analyse de N séquences, tous les algorithmes essayent de retrouver parmi les xxxtopologies possibles celle (ou celles) qui permet de représenter le plus fidèlement les donnéesbiologiques (selon le critère d'optimisation utilisé).Ces algorithmes se divisent en deux catégories :

Deux représentations 3D du problème de la recherche heuristique :

Conclusion : essayer toujours de changer l'ordre dans lequel le programme va lire les séquence.Regrouper par exemple les séquences très éloignées dans le premier arbre obtenu.

Note : certains programmes changent l'ordre d'entrée des séquences par tirage aléatoire.

Ø Les algorithmes exacts.On a la garantie de trouver la meilleure solution, par deuxapproches possibles :

1. La recherche exhaustive : on examine tour àtour tous les arbres !

2. La recherche "Branch and Bound" : on éliminedes ensembles de topologies qui ne pourront pascontenir l'arbre optimal

Ø Les algorithmes approchés (heuristique).Ces algorithmes trouvent soit le meilleur arbre, soit unetopologie qui est voisine de la topologie optimale.

Page 14: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 14

L'HORLOGE MOLECULAIRE.Le concept d'horloge moléculaire est basé sur l'hypothèse que l'accumulation progressive desmutations au cours du temps ne dépend que du taux d'erreur de la DNA polymérase et de lapression de sélection. Donc :1. pour des régions non codantes, l'horloge tourne à son rythme maximal2. Pour des régions codantes, la vitesse de l'horloge dépend des contraintes de la pression de

sélection sur cette protéine.

Les première données obtenues sur les séquences de protéines et la comparaison du nombre dedifférences entre protéines avec la date de divergence estimées d'après les fossiles semblaientconfirmer ces hypothèses :

Dans la réalité les taux d'accumulation des mutations :1. Peuvent être différents d'un organisme à un autre.2. Peuvent varier au cours du temps dans une lignée3. Ne sont pas identiques d'un résidu à un autre

• Calculés d'après la divergence• Humain-chimpanzé = 1.3 x10-9 substitution/ site/an• Humain – OW singe = 2.2x10-9 substitution/site/an• Souris-Rat = 7.9x10-9 substitution/site/an.

Ces problèmes peuvent :1. Affecter l'efficacité des méthodes de reconstruction.2. Empêcher de dater précisément les divergences.

LE BOOTSTRAP.Le bootstrap est un dérivé des simulations Monte-Carlo permettant d'estimer la robustesse d'unephylogénie. En fait on va tester comment la phylogénie retrouvée est sensible à des augmentationsde bruit de fond dans les séquences.Dans la pratique, considérons que nous avons un jeu de séquences avec 1 000 résidus. Dire qu'onva faire n réplications de boostrap implique qu'on va générer n jeu aléatoires de séquences. Pourchaque jeu, on va tirer 1 000 une colonne au hasard afin de générer un jeu de séquences alignéescontenant bien 1000 résidus. Dans chaque jeu, certaines colonnes sont donc représentées plusieursfois, tandis que d'autres ne sont pas présentes.On utilise ces 1 000 jeux de données pour générer 1 000 matrices de distances puis 1 000 arbres.

Page 15: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 15

On calcule ensuite un arbre consensus de ces 1 000 arbres et on reporte sur chaque branchecombien de fois elle a été retrouvée au sein des 1 000 arbres.Seules les branches avec un fort % sont considérées robustes.

IV. Les méthodes de reconstruction. Détails

UPGMA.Ne plus utiliser cette méthode qui est dépassée et produit de nombreux artefacts !Je présente ici la façon la plus simple de calculer un arbre car elle est simple à comprendre etillustre bien comment marche les méthodes de distances.

Soit le jeu de données suivant de n séquences (ici n=4):Sequence 1 AAAAASequence 2 AAAAGSequence 3 AACGCSequence 4 ATGGTNoter que les différentes colonnes contiennent toutes les alternatives de substitutions !

On peut alors calculer une matrice de distances (brutes !) des D(i,j) :1 2 3 4

1 02 1 03 3 3 04 4 4 3 0

On identifie la paire la plus proche : c'est 1 &2On réuni ces deux objets en un seul (virtuel) que nous nommons 5On recalcule la matrice de distances sur n-1 objets, selon la formule :

D(5,i) = [D(1,i) + D(2,i)] / 2On obtient donc la nouvelle matrice :

5 3 45 03 2 04 4 3 0

Et on recommence tant que la matrice contient plus de 3 lignes et colonnes.A la fin on a un arbre à trois branches qu'on redéveloppe en remontant les calculs :

Dans ce cas (exceptionnel) les distances entre objets dans l'arbre sont exactement égales à cellesde la matrice de départ.

PARCIMONIE

Prenons le même jeu de départ :

Sequence 1 AAAAASequence 2 AAAAGSequence 3 AACGCSequence 4 ATGGT

Page 16: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 16

L'objectif va maintenant être parmi tous les arbres possibles de sélectionner celui qui explique leplus simplement, le plus parcimonieux, les séquences observées.On va donc chercher à passer d'une séquence à une autres avec le moins possible de mutations.Les arbres possibles sont les suivants :

La première colonne ne fournit aucune information phylogénétique :

La seconde non plus car une seule mutation explique chacun des trois arbres :

La troisième position n'est plas plus informative : tous les arbres s'expliquent avec deux mutations:

Par contre la 4ème position permet de trancher :

Seul le premier arbre s'explique avec une seule mutation, alors qu'il en faut deux pour les autres.Si la position ancestrale était un A, alors une mutation de A vers G dans la branche centralepermet d'expliquer les observations expérimentalesPour les espèces 1 & 2 le nucléotide est une plésiomorphie (caractère identique à celui présentchez l'ancêtre).Pour les espèces 3 & 4 le nucléotide observé est une apomorphie (un nouveau caractère dérivé,spécifique au clade).

La parcimonie donne la même topologie que la méthode de distance, mais en utilisant vraiment unmodèle basé sur la théorie de l'évolution !Les colonnes non informatives, peuvent être utilisée pour affiner le calcul de la longueur desbranches.Quand de nombreux sites sont informatifs on cherche l'arbre qui en moyenne contient le moinsd'étapes. Si beaucoup de caractères informatifs sont présents on obtient généralement denombreux (parfois de très nombreux) arbres.Le spécialiste les étudiera soigneusement, les autres se contentent généralement de calculer unconsensus.

Page 17: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 17

Ø Traitements annexes de parcimonie :La parcimonie renvoie non seulement tous les arbres équivalents les plus parcimonieux, maiségalement les arbres de moins en moins parcimonieux.Le spécialiste ira regarder ces arbres successifs qui lui indiquent quels sont les groupes forts, lesgroupes à problème et comment augmente progressivement la longueur et le nombre d'arbres.Cette répartition est très informative sur la qualité du jeu de données de séquences…Il pourra également tester une hypothèse en déplaçant une séquence ou un groupe de séquencedans l'arbre et en examinant combien de mutations supplémentaires sont nécessaires pour passerde l'arbre le plus parcimonieux à l'arbre proposé.Si ce nombre d'étapes est très faible et que des données externes suggèrent cette topologie on diraalors que les données moléculaires sont en accord avec ou ne permettent pas de réfuter la théorieexistante.

MAXIMUM DE VRAISEMBLANCE (MAXIMUM LIKELIHOOD).Les méthodes de maximum de vraisemblance évaluent les arbres possibles en terme de probabilitéqu'un modèle d'évolution des résidus permette d'expliquer avec une meilleure probabilité unetopologie plutôt que les autres. L'arbre trouvé est renvoyé avec une probabilité que sa topologieexplique les données observées.Pour les nucléotides, on aura par exemple une probabilité différente entre l'obention d'unetransistion et d'une transversion ; pour les acides aminés les probabilités peuvent soit êtr plusfréquentes dans le 3ème codon, soit résultant d'une transition, soit à des remplacements d'acidesaminés équivalents (cf les matrices PAM et Blossum)…

QUELLE METHODE CHOISIR ?Ø Réponse : Aucune !La méthode de maximum de vraisemblance est souvent considérée comme la plus fiable de toutes;J'ai personnellement observé des cas où NJ donnait le vrai arbre et pas ML.Il faut utiliser les trois méthodes, vérifier qu'elles donnent le même résultat (arbre JUSTE)et calculer un boostrap pour vérifier quelles branches sont ROBUSTES.

V. L'identification de problèmes courants.Ø Une des séquences "dépasse" dans l'arbre.

Ø Une branche n'est pas à "sa place".Dans le paradigme évolutionnaire, on connaît un certain nombre de clades. Si par exemple dans unarbre contenant des séquences de mammifères, d'amphibiens, de reptiles… la branche d'unmammifère ne se trouve pas avec les autres mammifères.1. Une contamination a eu lieu (PCR par exemple) ;2. Une mauvaise identification du prélèvement a été faite ;3. Une mauvaise identification de la séquence a été faite (paralogue…) ;4. Une recombinaison a eu lieu (réelle ou durant la PCR) ;5. …

Causes habituelles :1. Séquence non homologue incluse par erreur.2. Séquence mal alignée (localement par exemple).3. Inclusions de zone trop divergentes.4. Séquence avec de TRES nombreuses erreurs.5. Hypermutation (pseudogène).6. Le label de la feuille contient des catactères qui

interfèrent avec l'interprétation de l'arbre par leprogramme de visualisation è )(:@…

Page 18: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 18

Ø L'arbre a une "drôle de tête" !

VI. LA SELECTION DES DOMAINES.

ELIMININER LES DOMAINES (OU LES SEQUENCES) POUR LESQUELS CERTAINES SEQUENCESSONT MANQUANTES.

ELIMINER LES DOMAINES TROP DIVERGENTS : NON ALIGNABLES, HOMOPLASIES …

1. Fortement paralogue ;2. Différentes méthodes donnent des résultats très

différents ;3. …

Seul un spécialiste en phylogénie est en généralecapable de ce diagnostic. Très souvent il s'agit d'unproblème d'inclusion de groupes externes mal choisis,avec des taux d'évolution anormaux, des groupes tropéloignés …

Page 19: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 19

VII. Sequence logo

Page 20: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 20

Page 21: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 21

Page 22: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 22

Page 23: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 23

VIII. Les logiciels de Phylogénie sur le Web

A TELECHARGER ET INSTALLER.Ø PHYLIP de Felsenstein.Le classique par excellence, par le maître du domaine. On peut tour faire avec PHYLIP, c'est trèsfacile à installer, tout marche bien partout (c'est du C) on peut avoir les codes sources ou lesexécutables, mais … à la ligne de commande !Il manque peut être les derniers mode de calcul des distances.Ø MEGAPour windows avec un environnement fenêtré ; agréable à utiliser mais ne supporte pas les trèsgros jeux de données. Pas cher mais … Payant. Pas vraiment compatible avec les autres logiciels.Ø PHYLOWINUNIX/Linux seulement. Réalisé à Lyon et disponible sur pbil. Un accès graphique sur le serveurpbil existe.Ø FastDNAMLPour remplacer DNAML de PHYLIP si vous avez des gros jeux de données.Ø PAUPTrès complet, très graphique, très puissant en parcimonie et très facile à utiliser sur un Mac. Je n'aipas testé les autres versions. Payant.A combiner (pour les spécialistes) avec MacClade.

SUR DES SERVEURS WEB.Ø The HIV-WEB Treemaker interfaceInterface graphiques vers les programmes décrits plus hauts.Ø Voir une liste sur Infobiogen, sur le site de Joe Felsenstein …

IX. Les logiciels de dessin et manipulation d'arbres.

A TELECHARGER.Ø NjplotUn must (sur pbil), simple, puissant, convivial, sur toute plateformes…Un peu limités en fonctions mais tellement agréable.Sous Windows vous aurez besoin d'Acrobat (ou autres) pour éditer un peu le format ps de sortieavant publication … Sous Mac le format de sortie est du pict.Ø TreedynIL fait tout ! ou il le fera. Un peu instable encore et une documentation qui n'est pas encore toout àfait à même de vous indiquer tout ce qui peut être fait avec les arbres …Ø Une floppée d'autres logiciels partout sur le Web !

Page 24: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 24

Distance

Distance JK

Distance Kimura 2p

Page 25: Les arbres phylogénétiques - ac-aix-marseille.fr

D:\Cours 2004\Polys2004\Phylogenie moleculaire\Les arbres phylogénétiques.doc 25