297
THÈSE DE DOCTORAT DE l’UNIVERSITÉ PIERRE ET MARIE CURIE Spécialité : Informatique École Doctorale Informatique, Télécommunications et Électronique (Paris) Présentée et soutenue publiquement par Guénola DRILLON le 25 février 2013 Pour obtenir le grade de DOCTEUR de l’UNIVERSITÉ PIERRE ET MARIE CURIE Analyse combinatoire des réarrangements chromosomiques et reconstruction des génomes ancestraux chez les eucaryotes devant le jury composé de : Dr. Hugues Roest Crollius Rapporteur Dr. Éric T annier Rapporteur Pr. Guillaume Beslon Président du jury Pr. Alain Denise Examinateur Pr. Bernard Dujon Examinateur Pr. Alessandra Carbone Directrice de thèse Dr. Gilles Fischer Directeur de thèse Université Pierre & Marie Curie - Paris 6 Tél. Secrétariat : 01 42 34 68 35 15 rue de l’école de médecine Fax : 01 42 34 68 40 75270-PARIS CEDEX 06 E-mail : [email protected]

Guénola DRILLON Analyse combinatoire des réarrangements

Embed Size (px)

Citation preview

  • THSE DE DOCTORAT DElUNIVERSIT PIERRE ET MARIE CURIE

    Spcialit : Informatique

    cole Doctorale Informatique, Tlcommunications et lectronique (Paris)

    Prsente et soutenue publiquement par

    Gunola DRILLONle 25 fvrier 2013

    Pour obtenir le grade de

    DOCTEUR de lUNIVERSIT PIERRE ET MARIE CURIE

    Analyse combinatoire des rarrangements chromosomiques etreconstruction des gnomes ancestraux chez les eucaryotes

    devant le jury compos de :

    Dr. Hugues Roest Crollius RapporteurDr. ric Tannier RapporteurPr. Guillaume Beslon Prsident du juryPr. Alain Denise ExaminateurPr. Bernard Dujon ExaminateurPr. Alessandra Carbone Directrice de thseDr. Gilles Fischer Directeur de thse

    Universit Pierre & Marie Curie - Paris 6 Tl. Secrtariat : 01 42 34 68 3515 rue de lcole de mdecine Fax : 01 42 34 68 40

    75270-PARIS CEDEX 06 E-mail : [email protected]

  • Dieu dit : Que les eaux grouillent dun grouillement dtres vivants et que des oiseaux volentau-dessus de la terre contre le firmament du ciel et il en fut ainsi.

    Dieu cra les grands serpents de mer et tous les tres vivants qui glissent et qui grouillent dansles eaux selon leur espce, et toute la gent aile selon son espce,

    et Dieu vit que cela tait bon.

    Gn 1:20-21

  • Remerciements

    Nombreuses sont les personnes que je souhaite remercier en cette fin de thse...En tout premier lieu, je souhaite exprimer ma reconnaissance mes deux rapporteurs, Hugues

    Roest Crollius et ric Tannier, qui mont fait lhonneur dvaluer ce travail de thse. Merci eux davoir pris le temps de relire ces nombreuses pages. Et merci pour leurs remarques quimont permis de finaliser proprement cette rdaction. Merci galement Guillaume Beslon,Alain Denise et Bernard Dujon qui ont accept de faire partie de mon jury. Je sais combien leurtemps tous est compt et je leur en suis dautant plus reconnaissante. Je tiens galement les remercier pour la gentillesse quils ont tous eu mon gard en cette priode difficile, et rallonge, qua t la rdaction de cette thse.

    Un grand merci mes deux directeurs de thse, Alessandra Carbone et Gilles Fischer. Mercipour ce sujet, merci pour cette co-direction. Je me souviens, comme si ctait hier, de notre pre-mire entrevue mon retour dcosse (plus prcisment, ma descente davion). La rponse nestait pas faite attendre, et javais commenc le mois suivant. Merci pour ces quatre annes etdemie vos cts qui mont permis de mieux dcouvrir la recherche, ainsi que la belle compl-mentarit de la biologie et de linformatique.

    Merci Alessandra, pour toutes les fois o tu mas largement encourage aller prsentermon travail. Des tats-unis au Portugal, en passant par lAllemagne et la France. A des math-maticiens et des informaticiens comme des biologistes. Toutes ces rencontres ont t richeset mont permis de mouvrir ces diffrents milieux. Merci pour ton enthousiasme, pour tonoptimisme. Merci pour ta rigueur scientifique dont jai beaucoup appris.

    Merci Gilles, pour ta grande confiance, pour ton coute. Merci pour nos longues discussionsscientifiques qui chaque fois me permettaient de redmarrer, et ce, dans la bonne direction.Merci pour le climat de respect mutuel qui rgnait entre nous, on pouvait ainsi camper sur nosopinions respectives et en rediscuter avec plaisir tous les 6 mois. Merci pour ta grande disponi-bilit, ta grande pdagogie et ta bienveillance.

    Je remercie tous les membres de mes deux quipes de recherche, Gnomique Analytique etBiologie des Gnomes, sans qui cette thse naurait pas t aussi agrable. Jai une pense touteparticulire pour ceux qui ont t pour moi comme un grand frre et une grande sur (pourtantce nest pas ce quil me manque !), Anthony et Linda, me prcdant de quelques mois en tout.Merci pour votre exemple et votre prcieux soutien. Vous avez t l au commencement, laPiti-Salptrire ; et aprs votre soutenance, jai eu peur de ne pas survivre votre dpart. Maislquipe est devenu un labo et de trois nous sommes pass plusieurs dizaines. Un merci toutparticulier Anne qui a trs bien repris lindispensable flambeau laiss par les deux autres (etqui le garde). Merci galement Claire, notre gestionnaire, sans qui la vie serait moins facile etmoins agrable. Merci Hugues, Ingrid, Hlne, Alexandre, Nicolas, Juliana, Bogdan, Raphalet Elodie. Merci tous pour ces moments partags. Merci galement Fred, Thierry, Martin,Mathilde, Angela, Antonio, Jawad, Vittore et tout les autres quil est toujours trs agrable de

  • croiser midi ou dans les couloirs.Merci galement tous mes ex-colocs, et ils sont nombreux ! ... avoir partag ma vie quo-

    tidienne, pendant quelques mois ou quelques annes depuis le commencement de cette thse.Merci en particulier aux femmes qui mont entoure : Anne et Juliette, Alinor, Jeane avec quijai partag ma chambre, Rene avec qui jai beaucoup chang, Anny, Paulette avec ses 84 bou-gies, Annie si facile vivre, Sophie, Dorine, Fatou, Clmence, Claudine qui nous a si souventfait manger, Claire, Jeanne et Nathalne avec qui je me suis si bien entendue. Merci aux gar-ons des tages du dessous et du dessus : Jean-Claude qui ma si souvent serre dans ses bras,Michel qui ma invit bien des fois boire le caf, Guillaume, Nicolas et Steven avec qui jai pupartager amiti et quais de Seine, Luc, Flix et Ludovic, Daniel et son cigare, Danouz et sa gen-tillesse, Bruno et Patoche, Thibault et Raymond, Antoine, Steeve et son soutien inconditionnel,... Merci Thimothe et Juliette, sans qui les dbuts auraient t bien diffrents. Merci galement tous ceux qui habitaient plus loin mais qui ont galement t bien prsents : Louis-Alexandreet Benjamin, Karim et Nordine, Florence, Nasa et Olivier, Batrice, Arthur, Eugnie, Daphne etMathilde, Pierre et Juliette, Yves, Loc et Damien, Bruno, Sacha, Hubert, Ivan... et tant dautres.Merci tous pour votre amiti ! Un grand merci tienne et Martin qui mont permis de vivrependant trois ans cette exprience tellement riche (et dhabiter, accessoirement, sur lle de lacit, face la rosace nord de Notre-Dame) qui a quilibr ma vie et qui ma sans hsitationpermis de vivre au mieux cette thse.

    Merci galement ma famille, pour leur encouragement, leur confiance inbranlable, mmesi jimagine que tout cela leur paraissait bien loin... mais quel bonheur denfin faire des tudesquaucun de mes frres ou surs navait fait auparavant (bien que je ne sois pas le premierdocteur). Vous tiez nombreux vous tre dplacs pour pouvoir assister ma soutenance etjen ai t trs touche. Un dernier grand Merci ma maman, ainsi qu ma cousine Caro et ma nice Marie, pour leur contribution la correction orthographique de cette thse.

  • Table des matires

    Introduction Gnrale 13

    I INTRODUCTION 17

    1 Introduction la biologie des gnomes 191.1 Structure des gnomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.1.1 La molcule dADN . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.1.2 Chromosomes et gnomes . . . . . . . . . . . . . . . . . . . . . . . . 211.1.3 Gnes et protines . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.1.4 lments transposables et squences rptes . . . . . . . . . . . . . . 24

    1.2 Fonctionnement et volution des gnomes . . . . . . . . . . . . . . . . . . . . 241.2.1 Miose et mitose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.2.2 Mutation et homologie . . . . . . . . . . . . . . . . . . . . . . . . . . 251.2.3 Rarrangements et principe de parcimonie . . . . . . . . . . . . . . . . 261.2.4 Blocs de syntnie et points de cassure . . . . . . . . . . . . . . . . . . 281.2.5 Syntnie et gnomique comparative . . . . . . . . . . . . . . . . . . . 30

    1.3 Diffrences structurelles et fonctionnelles majeures entre les gnomes de levureset de vertbrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2 Introduction aux diffrentes problmatiques abordes 352.1 Identification des blocs de syntnie . . . . . . . . . . . . . . . . . . . . . . . . 35

    2.1.1 Les diffrentes mthodes . . . . . . . . . . . . . . . . . . . . . . . . . 352.1.2 Des blocs de syntnie en vue des reconstructions ancestrales . . . . . . 38

    2.2 Reconstruction de larbre phylogntique . . . . . . . . . . . . . . . . . . . . 392.2.1 Quest-ce quun arbre phylogntique ? . . . . . . . . . . . . . . . . . 392.2.2 Les diffrents types de donnes pour infrer une phylognie . . . . . . 422.2.3 Les diffrentes mthodes de reconstruction . . . . . . . . . . . . . . . 452.2.4 Limites des approches prcdentes . . . . . . . . . . . . . . . . . . . . 49

    2.3 Identification des rarrangements chromosomiques . . . . . . . . . . . . . . . 50

    7

  • 2.3.1 Lidentification des points de cassure lis . . . . . . . . . . . . . . . . 502.3.2 La r-utilisation des points de cassure . . . . . . . . . . . . . . . . . . 572.3.3 Les diffrents modles dvelopps . . . . . . . . . . . . . . . . . . . . 602.3.4 La ncessit dune nouvelle approche . . . . . . . . . . . . . . . . . . 66

    2.4 Reconstruction des gnomes ancestraux . . . . . . . . . . . . . . . . . . . . . 662.4.1 Les diffrents modles dvelopps . . . . . . . . . . . . . . . . . . . . 672.4.2 Les bases dune nouvelle approche . . . . . . . . . . . . . . . . . . . . 71

    II LES BLOCS DE SYNTNIE 73

    3 Algorithme didentification des blocs de syntnie 753.1 Mthode didentification des blocs de syntnie . . . . . . . . . . . . . . . . . . 75

    3.1.1 Identification des RBH . . . . . . . . . . . . . . . . . . . . . . . . . . 763.1.2 Identification des blocs de syntnie . . . . . . . . . . . . . . . . . . . 763.1.3 Compltion des blocs de syntnie . . . . . . . . . . . . . . . . . . . . 793.1.4 Dfinition du signe des blocs de syntnie . . . . . . . . . . . . . . . . 81

    3.2 Implmentation de lalgorithme SynChro . . . . . . . . . . . . . . . . . . . . . 823.2.1 Donnes en entre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.2.2 Donnes en sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    3.3 Avantages et amliorations possibles . . . . . . . . . . . . . . . . . . . . . . . 86

    4 Analyse compare de la syntnie entre les levures et les vertbrs 894.1 Espces et phylognie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    4.1.1 Choix des espces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.1.2 Arbres phylogntiques associs . . . . . . . . . . . . . . . . . . . . . 904.1.3 Choix dune chelle volutive commune . . . . . . . . . . . . . . . . . 92

    4.2 La syntnie et ses limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.2.1 Saturation du signal chez les levures . . . . . . . . . . . . . . . . . . . 944.2.2 Signal biais chez les vertbrs . . . . . . . . . . . . . . . . . . . . . . 954.2.3 Perte de la syntnie ou perte des relations dhomologie ? . . . . . . . . 98

    4.3 Diffrents taux de rarrangements . . . . . . . . . . . . . . . . . . . . . . . . 1004.3.1 Une grande varit de taux au sein mme des sous-phylums . . . . . . 1014.3.2 Une grande variabilit entre levures et vertbrs . . . . . . . . . . . . . 102

    4.4 Diffrents modes dvolution : micro-syntnie vs mso-syntnie . . . . . . . . 105

    III LARBRE PHYLOGNTIQUE 109

    5 Algorithme de reconstruction phylogntique 111

  • 5.1 Principe de la mthode de reconstruction des arbres phylogntiques . . . . . . 1125.1.1 Exemple pour 4 gnomes et m blocs communs . . . . . . . . . . . . . 1135.1.2 Exemple pour n gnomes et m blocs communs . . . . . . . . . . . . . 1145.1.3 Exemple pour n gnomes et des blocs spcifiques chaque comparaison 116

    5.2 Dune comparaison deux deux une comparaison multiple . . . . . . . . . . 1175.2.1 Le cas des blocs successifs ou chevauchants . . . . . . . . . . . . . . . 1185.2.2 Le cas des blocs inclus . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.2.3 Le cas des blocs tlomriques . . . . . . . . . . . . . . . . . . . . . . 127

    5.3 Algorithme de reconstruction des arbres phylogntiques : PhyChro . . . . . . 1275.3.1 Identification des paires de groupes incompatibles . . . . . . . . . . . 1275.3.2 Dfinition de deux distances entre gnomes din et dout . . . . . . . . . 1285.3.3 Reconstruction de larbre phylogntique . . . . . . . . . . . . . . . . 129

    6 Analyse des reconstructions phylogntiques chez les levures et les vertbrs 1336.1 Reconstruction des arbres partir des squences protiques . . . . . . . . . . . 133

    6.1.1 Mthodologie utilise . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.1.2 Comparaison aux donnes publies . . . . . . . . . . . . . . . . . . . 135

    6.2 Reconstruction des arbres partir des adjacences incompatibles des blocs desyntnie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1356.2.1 Arbres phylogntiques reconstruits . . . . . . . . . . . . . . . . . . . 1356.2.2 Les modifications/amliorations possibles . . . . . . . . . . . . . . . . 1386.2.3 Longueur des branches et validit des nuds . . . . . . . . . . . . . . 1396.2.4 Validation de certaines positions laide dadjacences incompatibles de

    gnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416.2.5 Conclusion sur cette mthode de reconstruction . . . . . . . . . . . . . 144

    IV LES RARRANGEMENTS CHROMOSOMIQUES 145

    7 Algorithme didentification des rarrangements chromosomiques 1477.1 Aperu des macro-rarrangements par liaison de points de cassure . . . . . . . 148

    7.1.1 La validation dun maximum dadjacences ancestrales . . . . . . . . . 1487.1.2 Estimation du nombre de rarrangements et du taux de r-utilisation des

    points de cassure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1507.1.3 Traitement des points de cassure ambigus . . . . . . . . . . . . . . . . 157

    7.2 Construction des cycles pour des gnomes contenant des blocs et des paquets desyntnie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1577.2.1 Contexte et comprhension biologique . . . . . . . . . . . . . . . . . . 1577.2.2 Dfinition dun paquet de syntnie . . . . . . . . . . . . . . . . . . . . 1597.2.3 Illustration simple des diffrents cycles associs un paquet de syntnie 162

  • 7.2.4 Avantages dutiliser les paquets de syntnie . . . . . . . . . . . . . . . 1627.2.5 Algorithme de validation des cycles les plus parcimonieux : ReChro . . 166

    8 Analyse compare des caractristiques des rarrangements entre les levures et lesvertbrs 1718.1 Le taux de r-utilisation des points de cassure . . . . . . . . . . . . . . . . . . 172

    8.1.1 Calcul de la composante due lalatoire . . . . . . . . . . . . . . . . 1728.1.2 Interprtation de la composante due la fragilit de certains points de

    cassure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1768.1.3 Une surestimation du taux de r-utilisation chez les vertbrs . . . . . . 178

    8.2 Inter-dpendance des rarrangements, causs par lutilisation des mmes pointsde cassure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1808.2.1 Apparition de trs grands cycles chez les levures . . . . . . . . . . . . 1808.2.2 Le modle dErds-Renyi et le processus de percolation . . . . . . . . 181

    V LES GNOMES ANCESTRAUX 185

    9 Algorithme de reconstruction des gnomes ancestraux 1879.1 Principe de reconstruction dun gnome ancestral . . . . . . . . . . . . . . . . 187

    9.1.1 Choix des arguments . . . . . . . . . . . . . . . . . . . . . . . . . . . 1889.1.2 Lalgorithme : AnChro . . . . . . . . . . . . . . . . . . . . . . . . . . 191

    9.2 Dtermination des adjacences ancestrales . . . . . . . . . . . . . . . . . . . . 1939.2.1 Les cycles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1939.2.2 Les chemins de longueur impaire . . . . . . . . . . . . . . . . . . . . 1979.2.3 Les chemins de longueur paire . . . . . . . . . . . . . . . . . . . . . . 199

    9.3 Reconstruction des scaffolds ancestraux version G1 et version G2 . . . . . . . . 2009.3.1 Des adjacences ancestrales aux scaffolds ancestraux . . . . . . . . . . 2019.3.2 Des suites de blocs de syntnie aux suites de gnes . . . . . . . . . . . 201

    9.4 Identification des micro-rarrangements par tri par inversion . . . . . . . . . . 2039.4.1 Construction de micro-blocs de syntnie . . . . . . . . . . . . . . . . . 2049.4.2 Dltion des blocs et des gnes dupliqus . . . . . . . . . . . . . . . . 2049.4.3 Tri par inversion de ces blocs . . . . . . . . . . . . . . . . . . . . . . . 207

    10 Analyse des gnomes ancestraux reconstruits chez les levures et les vertbrs 21310.1 Analyse de lensemble des reconstructions . . . . . . . . . . . . . . . . . . . . 214

    10.1.1 Dfinition des gnomes ancestraux . . . . . . . . . . . . . . . . . . . . 21410.1.2 Rcapitulatifs de lensemble des reconstructions . . . . . . . . . . . . 21610.1.3 Choix des meilleures reconstructions . . . . . . . . . . . . . . . . . . 222

    10.2 Comparaisons aux rsultats des mthodes existantes . . . . . . . . . . . . . . . 227

  • 10.2.1 Lanctre pr-duplication chez les levures (S2) . . . . . . . . . . . . . 22710.2.2 Lanctre des Protoplodes chez les levures (S6) . . . . . . . . . . . . . 23310.2.3 Lanctre des boroeuthriens chez les vertbrs (A6) . . . . . . . . . . 235

    Conclusions Gnrales et Perspectives 239

    Bibliographie 243

    Articles 257

    Rsum 297

  • 12

  • Introduction Gnrale

    volution des gnomes

    Le gnome est lensemble de linformation hrditaire dun organisme. Comme un manuelde survie, cette information permet un organisme et ses cellules de se dvelopper, de vivre ensubvenant leurs besoins et de se reproduire. Elle est dite hrditaire, car elle est intgralementcopie/duplique puis transmise de gnration en gnration, de cellule-mre cellule-fille. Elleest extrmement prcise. Une erreur lors de la duplication peut parfois tre fatale lorganisme,ou la cellule, qui la reoit. Et si elle nest pas fatale, elle peut alors tre dsavantageuse. Il existedonc toute une batterie de mcanismes de contrle et de rparation pour assurer une transmissionfidle de la structure des chromosomes et de linformation gntique quils contiennent.

    Dun autre ct, si les mcanismes de contrle taient infaillibles, les gnomes seraient figs,incapables de sadapter des changements environnementaux, comme une hausse des tempra-tures, une pnurie de certains nutriments, etc. Car si certaines mutations sont dsavantageusesou neutres, sans aucun effet, il en existe aussi qui apportent un avantage. Cest ce qui pourraitexpliquer, par exemple, le fait que certains gnes, mutagnes (augmentant le nombre de muta-tions dans la population) et utiliss en dernier recours lors de dommages non-rparables fait lADN [Lemontt, 1971], aient t gards au cours de lvolution ; comme si la perte de quelquesindividus, en change dune transmission moins fidle, tait plus avantageuse quune populationavec une plus faible diversit gntique.

    Lvolution des gnomes correspond donc cet quilibre entre transmission fidle et crationde diversit gntique. Depuis la thorie de lvolution de Darwin, de nombreux progrs ont traliss dans ce domaine, mais ces diffrentes forces contrlant la structure des gnomes sontencore mal connues et de nombreuses dcouvertes restent faire.

    Mutations ponctuelles et rarrangements chromosomiques

    La biologie volutive sest pendant longtemps intresse aux mutations ponctuelles, ce sontdes mutations de lADN qui peuvent affecter les gnes. Elles taient vues comme les principalesforces volutives, en effet, les gnes taient quant eux vus comme la principale informationhrditaire. Ce nest que rcemment, que lon a pris conscience que la structure des gnomes,de leurs chromosomes, constitue galement une information hrditaire importante. La posi-tion des gnes (placs cte cte ou priodiquement), leurs nombres de copies, la position des

    13

  • 14 Introduction Gnrale

    origines de rplication, la position des histones, etc... sont autant dinformations, gntiques etpigntiques, transmises de gnration en gnration. Et cette structure, qui nest pas affec-te par les mutations ponctuelles, peut ltre par des rarrangements chromosomiques. Ce sontdes macro-mutations, pouvant parfois concerner des parties entires de chromosomes, des chro-mosomes entiers ou des gnomes entiers, ces dernires peuvent alors se trouver soit supprimes,soit dupliques ou encore dplaces sur un autre (ou le mme) chromosome. Ces rarrangementschromosomiques sont des vnements rares, mais lorsque lon compare entre elles des espcesapparentes, on constate quand mme un niveau incroyable de rorganisation des cartes chromo-somiques. Le travail au cours de cette thse sintresse ces rarrangements chromosomiques.

    Une combinatoire complexe

    Aujourdhui, les donnes gnomiques sont disponibles en trs grande quantit (d aux nou-velles technologies de squenage), elles ont une trs bonne rsolution (au nuclotide prs), ellessont dune grande fiabilit (moins dune erreur pour mille nuclotides), elles cotent de moinsen moins cher et elles sont de plus en plus rapides obtenir. A titre dexemple, il y a aujourdhui183 gnomes deucaryotes totalement squencs [GOLD : www.genomesonline.org], environ480 autres en grande partie squencs et au moins 700 autres dont le squenage est en cours,alors que le gnome humain est squenc depuis moins de dix ans (aprs un travail qui a durquinze annes environ). On est donc beaucoup plus mme, aujourdhui, de rflchir toutes cesquestions quon ne ltait il y a 5 ans. Ce nouveau champ de possibilits transparait galementau travers de projets, comme celui des 1000 gnomes humain par exemple, qui sintressent ladiversit intra-spcifique.

    Mais cette quantit astronomique de donnes implique obligatoirement un travail interdisci-plinaire. De plus, ltude de la structure des gnomes et des rarrangements chromosomiquesimplique une approche globale. Contrairement au raisonnement lchelle du gne, le raisonne-ment lchelle du gnome demande un niveau dabstraction suprieur et implique une combi-natoire plus complexe. Donc si la problmatique est biologique, les mathmatiques et linforma-tique sont indispensables pour (i) traiter efficacement la grande quantit de donnes disponibles,(ii) traiter la complexit de la combinatoire des rarrangements chromosomiques et (iii) russir formaliser les diffrentes problmatiques biologiques.

    Quatre questions biologiques, quatre mthodes informatiques, quatre rsultats biologiques

    Cette thse cherche donc mieux comprendre les mcanismes des rarrangements chromo-somiques, ainsi que leurs causes et leurs effets sur la structure des gnomes. Pour cela, elleessaie, dans chacune de ses parties (si on omet la partie introductive), de rpondre aux quatregrandes questions suivantes : (Partie II) Quelle organisation des chromosomes a t conserve,au cours de lvolution, entre les diffrents gnomes ? (Partie III) Est-ce que linformation conte-nue dans ces adjacences ancestrales non affectes par les rarrangements peut nous permettre de

    www.genomesonline.org

  • Introduction Gnrale 15

    reconstruire lhistoire volutive de ces gnomes ? (Partie IV) Quels rarrangements ont eu lieu ?Quelles rgions ont t impliques dans ces rarrangements ? (Partie V) Quelle tait la structuredes gnomes ancestraux ?

    Pour y rpondre, nous avons dvelopp quatre approches algorithmiques : SynChro, Phy-Chro, ReChro et AnChro. Ces quatre mthodes sont distinctes mais galement intrinsquementlies, comme lillustre la Figure 1 et comme le sont dailleurs les questions auxquelles elles es-saient de rpondre. Ces mthodes, ainsi que leurs rsultats, sont dtailles dans les quatre partiesde cette thse.

    Actual Genomes

    Ancestral Genomes

    II - SynChro III - PhyChro

    IV - ReChro V - AnChro

    Genome C

    Genome A

    Genome B

    Genome B

    Genome A

    Genome C

    Genome A

    Genome B

    Genome C

    Genome C

    Genome A

    Genome B

    Ancestral

    Genome

    1 translocation

    1 translocation

    .

    A

    B C

    AB

    C

    1

    2

    3

    1

    7

    8

    4

    5

    6

    2

    3

    4

    5

    6

    2

    8

    4

    5

    6

    7

    8

    1

    2

    3

    4

    5

    6

    7

    8

    4

    5

    6

    2

    3

    1

    7

    8

    1

    7

    3

    4

    5

    6

    2

    8

    1

    7

    3

    Genome

    Genome

    A

    B C

    AB

    C

    1 translocation 2 translocations1 translocation

    1

    7

    8

    4

    5

    6

    2

    3

    ?

    Figure 1 Schmatisation de limbrication des quatre programmes SynChro, PhyChro, ReChro et AnChro.Les quatre programmes ont des sorties intermdiaires propres, mais lensemble permet, partir des gnomes desespces actuelles, de reconstruire les gnomes de leurs derniers anctres communs.

  • 16 Introduction Gnrale

  • Partie I

    INTRODUCTION

    17

  • Chapitre 1

    Introduction la biologie des gnomes

    Sommaire1.1 Structure des gnomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.1.1 La molcule dADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.1.2 Chromosomes et gnomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.1.3 Gnes et protines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.1.4 lments transposables et squences rptes . . . . . . . . . . . . . . . . . . 24

    1.2 Fonctionnement et volution des gnomes . . . . . . . . . . . . . . . . . . . . . . . 24

    1.2.1 Miose et mitose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    1.2.2 Mutation et homologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    1.2.3 Rarrangements et principe de parcimonie . . . . . . . . . . . . . . . . . . . . 26

    1.2.4 Blocs de syntnie et points de cassure . . . . . . . . . . . . . . . . . . . . . . 28

    1.2.5 Syntnie et gnomique comparative . . . . . . . . . . . . . . . . . . . . . . . 30

    1.3 Diffrences structurelles et fonctionnelles majeures entre les gnomes de levures etde vertbrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    Ce premier chapitre introduit quelques notions de biologie indispensables la comprhen-sion des diffrentes problmatiques abordes au cours de cette thse. En effet, pour comprendreles dfis que sont les reconstructions des rarrangements chromosomiques et des gnomes an-cestraux, il est important de comprendre la structure des gnomes. Plus de dtails pourront tretrouvs dans les livres suivant [Li, 1997; Pevzner, 2000; Alberts et al., 2002; Lynch, 2007; Fertinet al., 2009].

    Les diffrences structurelles et fonctionnelles, entre les gnomes de levures et de vertbrs,seront galement abordes. En effet, toutes les mthodes dveloppes aux cours de cette thseont t appliques ces deux sous-phylums deucaryotes. De plus, pour certains rsultats, desanalyses compares ont t ralises entre les levures et les vertbrs (Chapitre 4 & 8).

    19

  • 20 Chapitre 1. Introduction la biologie des gnomes

    BA

    AT

    CG

    AT

    AT

    C G

    A T

    C G

    C G

    CG

    A T

    CG

    A T

    CG C

    AT AT

    AT

    C GC

    C

    C GG

    ATA

    A TA T

    A TA T

    CGCG

    A TA T

    ATAT

    CGG

    5'

    3'5' 5'

    3'

    3'

    3'

    5'

    Cytosine

    Thymine

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O_

    O_

    O_

    O_

    O_

    _O

    NH2

    OH

    OH

    NH

    H2N

    HN

    NH2

    H2N

    HN

    H2N

    NH

    NH2

    3'

    Extrmit 5'

    Extrmit

    3'

    5'

    Figure 1.1 (A) La structure chimique de lADN : une double hlice compose de deux brins antiparallles :5 3 et 3 5. Chaque brin est un polymre de nuclotides relis entre eux par des liaisons phosphodiesters.(B) Rplication semi-conservative durant laquelle la molcule dADN se copie intgralement grce la com-plmentarit des bases, chaque nouvelle copie est constitue dun brin parental (bleu) et dun brin no-synthtis(vert).

    1.1 Structure des gnomes

    1.1.1 La molcule dADN

    Un nuclotide est une molcule organique compose de trois parties : une base azote, unsucre et un groupement phosphate. Le type du nuclotide est dtermin par sa base azote. Ilexiste cinq bases azotes diffrentes et donc cinq nuclotides diffrents : ladnine (A), la cyto-sine (C), la guanine (G), la thymine (T) et lUracile (U).

    Ces bases se dcomposent en deux classes : les bases pyrimidiques (cytosine, uracile et thy-mine) et les bases puriques (adnine et guanine). La thymine et luracile sont complmentairesde ladnine (grce la formation de deux liaisons hydrogne) et la cytosine est complmentairede la guanine (grce la formation de trois liaisons hydrogne).

    Une molcule dacide dsoxyribonuclique (ADN) se compose de quatre nuclotides, eux-mmes composs dune des quatre bases azotes A, T, G et C, dun dsoxyribose et dun grou-pement phosphate (Figure 1.1A). Sa structure est une double hlice compose de deux brins.Chaque brin est un polymre de nuclotides relis entre eux par une liaison phosphodiester : lepremier nuclotide prsente un groupement phosphate libre sur son cinquime carbone et il estreli au niveau de son troisime carbone au phosphate du deuxime nuclotide et ainsi de suitejusquau dernier nuclotide de la chaine qui prsente un groupement hydroxyle au niveau de sontroisime carbone. Chaque brin dADN est donc polaris de 5 3. Deux brins antiparalllesforment une double hlice grce la complmentarit des nuclotides A-T et G-C (Figure 1.1A).

  • 1.1. Structure des gnomes 21

    La complmentarit des bases permettent la molcule dADN en double hlice de se r-pliquer en deux ADN identiques avant chaque division cellulaire. Durant cette rplication, lesdeux brins dADN se sparent et sont rpliqus, ce qui conduit deux nouvelle molcule dADNchacune constitue dun ancien brin, issu de la molcule parentale, et dun nouveau brin, issu dela rplication en respectant la complmentarit des bases (A-C et G-T) (Figure 1.1B). LADNpermet donc de stocker, maintenir et transmettre linformation gntique dun organisme.

    Les nuclotides sont galement les units de base des acides ribonucliques (ARNs). Ce sontdes molcules trs proches chimiquement de lADN et elles sont dailleurs en gnral synthti-ses dans les cellules partir dune matrice dADN dont elles sont une copie. Il existe, cependant,des diffrences importantes : (i) dans les ARNs, le sucre des nuclotides est un ribose ( la placedu dsoxyribose de lADN), ce qui rend lARN chimiquement plus instable ; (ii) luracile estutilis la place de la thymine et (iii) lARN est le plus souvent trouv dans les cellules sousforme de simple brin.

    1.1.2 Chromosomes et gnomes

    Le gnome est lensemble du matriel gntique, dun individu ou dune espce, cod dansson ADN, lexception de certains virus dont le gnome est port par des molcules dARN.Dun organisme lautre, lorganisation du gnome peut diffrer. Il peut tre compos dune ouplusieurs molcules dADN, ce qui aura un impact important sur la complexit du problme dela reconstruction des rarrangements chromosomiques et des gnomes ancestraux.

    Chez les procaryotes (bactries et arches), le gnome se situe dans le cytoplasme des cel-lules. Il est gnralement contenu dans une molcule dADN circulaire (appel chromosome).Mais il existe de nombreuses exceptions : certaines espces peuvent avoir plusieurs chromo-somes circulaires, ou un unique chromosome linaire, ou encore un chromosome linaire et unchromosome circulaire [Hinnebusch et Tilly, 1993]. Il peut aussi exister une composante extra-chromosomique contenue dans des plasmides et des pisomes.

    Chez les eucaryotes, on distingue : (i) lADN nuclaire compos de plusieurs chromosomeslinaires, contenu dans le noyau des cellules (lment qui caractrise les cellules eucaryotes) ;(ii) lADN non-nuclaire, contenu dans des organites, i.e. le chromosome mitochondrial, contenudans les mitochondries (chez la quasi totalit des eucaryotes), et le chromosome chloroplas-tique, contenu dans les chloroplastes des organismes photosynthtiques (algues et plantes). Chezquelques eucaryotes (par exemple la levure) sont aussi prsents des plasmides (de taille rduite).Lorsque lon parle du gnome dun eucaryote (animal, plante, champignon, etc.), on sous-entendsouvent le gnome nuclaire. En particulier, cest bien les gnomes nuclaires ancestraux quoncherche reconstruire durant cette thse.

    Chez les eucaryotes, les chromosomes linaires sont caractriss, chez la plupart des orga-nismes, par un centromre et deux tlomres. Le centromre partage le chromosome en deuxbras (gauche et droit) et il est indispensable au bon droulement des divisions cellulaires. Les

  • 22 Chapitre 1. Introduction la biologie des gnomes

    Espce Taille Nombre de Gnes Rfrence

    Escherichia coli (Bactrie) 4,6 Mb 4 300 [Blattner et al., 1997]Saccharomyces cerevisiae (Champignon) 12,1 Mb 6 000 [Goffeau et al., 1996]Paramecium tetraurelia (Protozoaire) 72,0 Mb 40 000 [Aury et al., 2006]Arabidopsis thaliana (Plante) 157,0 Mb 25 000 [Bennett et al., 2003]Drosophila melanogaster (Animal) 180,0 Mb 15 000 [Adams et al., 2000]Homo sapiens (Animal) 3 400,0 Mb 22 000 [the IHGSC, 2001]Paris japonica (Plante) 150 000,0 Mb ? [Pellicer et al., 2010]Amoeba dubia (Protiste) 670 000,0 Mb ? [Li, 1997]

    Table 1.1 Quelques exemples de la varits des gnomes.

    tlomres sont les deux extrmits dun chromosome.Le nombre de chromosomes contenus dans la cellule dun organisme est variable en fonc-

    tion des espces que lon considre. Par exemple, lhomme compte 23 paires de chromosomeslinaires alors quEscherichia coli, bactrie intestinale, ne possde quun chromosome circulaire.

    Mais la taille du gnome se mesure surtout en nombre de nuclotides, ou bases. La plupartdu temps, on parle de pb, pour paire de bases, puisque la majorit des gnomes est constituede doubles brins dADN. On emploie souvent les multiples kb (pour kilo-base) ou Mb (mga-base), qui valent respectivement 1 000 et 1 000 000 bases. La taille du gnome peut varier dequelques kb chez les virus plusieurs centaines de milliers de Mb chez certains eucaryotes. Laquantit dADN, contrairement ce qui a t longtemps suppos, nest pas proportionnelle lacomplexit dun organisme. Certaines fougres par exemple, ont des gnomes plus de 10 foisplus grands que le gnome humain (comme la plante herbace Paris japonica [Pellicer et al.,2010]). A ce jour, le plus grand gnome connu est celui de lamibe Amoeba dubia qui comporteprs de 670 milliards de paires de bases, soit prs de 200 fois la taille du gnome humain [Li,1997]) (Table 1.1).

    1.1.3 Gnes et protines

    Le gnome est constitu de rgions codantes et de rgions non-codantes. Les rgions co-dantes sont transcrites en ARN messagers puis traduites en protines alors que les squencesnon-codantes ne sont jamais traduites, voire mme non transcrites (mme si de rcentes tudesvoquent une transcription de la majeure partie du gnome : cest ce quon appelle la transcrip-tion pervasive [Jacquier, 2009; Clark et al., 2011]).

    Linformation gntique est principalement contenue dans les gnes (Figure 1.2). On peutdistinguer deux classes de gnes : les gnes codant pour des protines et les gnes dARN non-codant.

    Une protine est une macromolcule biologique compose dune, ou plusieurs, chane dacides

  • 1.1. Structure des gnomes 23

    gene 1

    gene 2

    gene 3 gene 4C AG

    T T

    T A

    A C CG

    G

    ZOOM

    strand

    complementary

    strand

    Segment of DNA

    ++

    -

    +

    5'

    3' 5'

    3'

    Figure 1.2 Zoom sur une molcule dADN double brin. Ce segment contient quatre gnes, chaque gne a uneposition le long de la squence dADN et une orientation (dfinie par le sens de lecture 5 3 associ au brin surlequel le gne est localis).

    amins lis entre eux par des liaisons peptidiques (chane polypeptidique). Sa synthse se fait endeux tapes : (i) la transcription, o la squence dADN codant le gne associ la protineest transcrite en ARN messager (par complmentarit) ; (ii) la traduction, o lARN messagerest traduit en protine. La traduction fait appel ce quon appelle le code gntique : chaquetriplet de nuclotides, ou codon, correspond un acide amin. Il est important de noter quil y adgnrescence du code gntique, vu quil nexiste que 20 acides amins pour 64 (43) codonsdiffrents. Chaque gne (codant pour une protine) peut donc tre dfinit soit par sa squence denuclotides, soit par sa squence dacides amins. Certains gnes peuvent contenir des introns.Ils sont prsents dans la squence dADN correspondant au gne. Ils sont transcrits au niveaudun ARN dit pr-messager mais celui-ci subit ensuite un mcanisme dpissage o cours du-quel les introns sont limins de cet ARN pr-messager pour donner un ARN mature. LARNmature est ensuite traduit en protine. Chez lhomme, les introns sont dix cent fois plus grosque les exons (les parties codantes des gnes) [Hawkin, 1988].

    Les gnes non-codants sont, quant eux, transcrits en ARN qui peuvent agir comme cataly-seur ou rgulateur.

    Le gnome contient toutes les informations ncessaires au fonctionnement et au dveloppe-ment dun organisme. Chaque cellule en contient lintgralit, mais seulement un petit nombrede gnes est transcrit suivant les besoins de la cellule.

    Chaque gne a une position le long du chromosome et une orientation (Figure 1.2). Lorien-tation dun gne est dtermin par le brin sur lequel il est cod. Un gne est toujours cod de 5vers 3 mais il peut tre cod sur lun ou lautre brin. Lors du squenage, un des deux brins de lamolcule dADN est arbitrairement fix comme tant le brin positif et tous les gnes cods sur cebrin ont donc une orientation positive et les gnes cods sur le brin complmentaire ont donc uneorientation ngative. On parle aussi parfois dorientation des gnes vis vis de leur centromre,les gnes peuvent alors tre orients vers ou depuis leur centromre, cette orientation est absolueet ne dpend pas du choix arbitraire du brin positif.

    Le nombre de gnes dans le gnome des organismes vivants varie beaucoup moins que lataille des gnomes (Table 1.1). Chez la plupart des organismes vivants, il est compris entre 1 000et 40 000. Il nest pas non plus corrl la complexit apparente des organismes. La paramcie,

  • 24 Chapitre 1. Introduction la biologie des gnomes

    organisme cili unicellulaire, possde ainsi un gnome contenant plus de gnes que celui delhomme [Aury et al., 2006].

    Il est important de noter que dans notre volont de retracer lhistoire volutive des gnomes(les rarrangements quils ont subis) et de reconstruire leurs gnomes ancestraux, on ne sin-tressera ici quaux gnes codant pour des protines et non pas lintgralit des squencesdADN. Cest donc le nombre de gnes codant, leur ordre et leur orientation, et non pas la tailledu gnome qui dans notre cas impactera sur la complexit du problme.

    1.1.4 lments transposables et squences rptes

    Dautres lments du gnome sont importants, surtout si lon sintresse aux rarrangementschromosomiques car ils peuvent les favoriser, ce sont les lments transposables ou transposons.Ce sont des squences dADN qui peuvent se dplacer et se multiplier de manire autonomedans le gnome. Ils sont un des constituants les plus importants des gnomes eucaryotes [Wess-ler, 2006]. Ils constituent une part de ce quon appelle les squences rptes. Ces squencesrptes et disperses le long du gnome peuvent servir de matrice aux vnements de recombi-naison entre squences dADN et donc, comme on va le voir dans la section suivante, induire laformation de rarrangements chromosomiques.

    1.2 Fonctionnement et volution des gnomes

    1.2.1 Miose et mitose

    Il existe deux types de divisions cellulaires chez les eucaryotes : la miose et la mitose.La miose permet une cellule diplode, contenant des paires de chromosomes homologues

    (2n chromosomes), de produire quatre cellules haplodes, contenant chaque chromosome en unseul exemplaire (n chromosomes). La miose produit ce quon appelle des gamtes. Chez lesvgtaux et les champignons ces gamtes sont parfois appeles des spores. Au moment de lamiose, des recombinaisons entre chromosomes homologues ont lieu (chacun menant soit uncrossing-over, i.e. un change rciproque entre deux chromosomes dune extrmit dun deleur deux bras ; soit un non-crossing-over, i.e. un change non-rciproque dun petit segmentdADN). Ces recombinaisons permettent un brassage de linformation gntique, ainsi quunebonne sgrgation des chromosomes homologues lors de la division miotique indispensable une division cellulaire quilibre.

    La mitose dsigne une division cellulaire somatique. Aprs la rplication totale de chacundes chromosomes, la cellule mre se divise en deux cellules filles identiques, chacune contenantune copie de chaque chromosome. Les cellules haplodes comme les cellules diplodes subissentdes divisions mitotiques. Le centromre joue un rle important lors de ces divisions, il permetaux deux copies du chromosome issues de la rplication, de rester attaches avant la division cel-lulaire (do la forme en x des chromosomes sur un caryotype) ncessaire la bonne sgrgation

  • 1.2. Fonctionnement et volution des gnomes 25

    des chromosomes.

    1.2.2 Mutation et homologie

    A chaque rplication du gnome, des erreurs de copie peuvent avoir lieu. Ces erreurs, oumutations ponctuelles, peuvent tre de trois natures : insertion dun nuclotide, dltion dunnuclotide ou substitution dun nuclotide. Lorsquelles se produisent dans les gnes, certainesmutations peuvent tre ltales, comme la dltion ou linsertion dun ou deux nuclotides aumilieu dun gne essentiel, ce qui provoque un dcalage du cadre de lecture et la formation duneprotine non-fonctionnelle. Mais elles peuvent aussi tre neutres (d la redondance du codegntique entre autre), voire avantageuses. Et dans ces cas-l, elle aura une certaine probabilitde se fixer dans la population. Au sein dune mme espce, chaque individu aura donc plus oumoins les mmes versions de chaque gne, cest ce quon appelle les allles.

    Mais si deux groupes dindividus se sparent et quils accumulent un nombre importantde mutations pendant un grand nombre de gnrations, il peut arriver que par la suite, ils nepuissent plus se croiser cause dincompatibilits entre certaines mutations du premier groupeavec dautres du deuxime. Il y a alors spciation. Et dans ce cas-l, comme il y a alors deuxespces, on ne parle plus dallles mais de gnes orthologues, provenant dun mme gne ances-tral.

    Les gnes peuvent aussi se dupliquer, grce diffrents mcanismes que lon ne dtaillerapas. On a alors deux ou plusieurs copies dun mme gne qui peuvent se trouver soit cte ctele long dun mme chromosome, soit plus gnralement dans le gnome. Au sein dune mmeespce, tous les individus nont pas forcment le mme nombre de copies de chaque gne (cestce quon appelle les CNVs : Copy-Number Variations) [Redon et al., 2006]. Ces copies peuventaccumuler des mutations de manire indpendante et les protines associes pourront mme,aprs un certain temps, ne plus avoir la mme fonction. Ces copies tant issues dun mme gneancestral, on les appellera gnes paralogues. Les gnes paralogues et les gnes orthologues sontdes gnes homologues.

    Mme si les gnes peuvent avoir des taux dvolution diffrents, de manire gnrale lesgnes homologues entre espces proches (par exemple homme-souris) seront plus similairesentre eux que les gnes homologues entre espces plus lointaines (homme-poisson) qui aurontaccumul plus de mutations. Il est donc plus ou moins difficile de retrouver les gnes homologuesentre deux espces.

    Pour savoir si deux gnes sont homologues, on calcule, partir de lalignement de leurssquences dADN (ou dacides amins), un pourcentage de similarit en fonction du nombre dedltions/dinsertions et de substitutions prsentes entre les deux squences de nuclotides (oudacides amins) sur la longueur totale des squences. Pour un fort pourcentage de similarit,lhomologie est vidente mais, arriv un certain seuil (environ 30% de similarit en acidesamins), il devient moins vident de savoir si la similarit observe vient dune origine commune

  • 26 Chapitre 1. Introduction la biologie des gnomes

    (gnes homologues), ou si elle est due une convergence des squences, ou encore au hasard. Ladtection dhomologie nest donc pas une chose facile. Or pour la reconstruction des gnomesancestraux, il est indispensable dtre capable didentifier les gnes orthologues car ils sont labase des reconstructions.

    1.2.3 Rarrangements et principe de parcimonie

    Si les chromosomes restaient colinaires tout au long de lvolution, il serait alors possiblede dtecter les gnes orthologues en prenant en compte, non plus seulement la similarit dessquences, mais galement la position des squences le long des gnomes. Or les gnomes nesubissent pas seulement des mutations ponctuelles, mais galement des macro-mutations, desrarrangements chromosomiques, qui changent lordre, le nombre et lorientation de larges seg-ments de chromosome. Il est donc rarement possible didentifier les chromosomes homologuesentre deux espces, except entre espces vraiment proches.

    En ralit, chaque chromosome dune espce ressemble plus une mosaque de segmentsde diffrents chromosomes de lautre espce (Figure 1.3). Ces fragments de chromosome repr-sentent des segments dADN orthologues entre les deux espces. Ils peuvent contenir de deux quelque dizaines de gnes, voire quelques centaines de gnes pour des espces partageant unegrande proximit phylogntique. Ces rgions vont tre importantes pour identifier les ortho-logues entre deux espces. Si deux gnes sont similaires en squences et ont conserv le mmevoisinage (ils sont entours de gnes galement similaires entre eux) alors on a de fortes chancesdavoir faire des orthologues.

    Il existe diffrents rarrangements chromosomiques responsables de diffrentes variationsstructurelles des gnomes. Il est actuellement admis quils se produisent la suite dune ou de

    Figure 1.3 Les rgions homologues entre le gnome de lhomme et celui de la souris. [http://www.ornl.gov/sci/techresources/Human_Genome/publicat/tko/06_img.html]

    http://www.ornl.gov/sci/techresources/Human_Genome/publicat/tko/06_img.htmlhttp://www.ornl.gov/sci/techresources/Human_Genome/publicat/tko/06_img.html

  • 1.2. Fonctionnement et volution des gnomes 27

    plusieurs cassures double brin de lADN et que les mcanismes de rparation de ces lsions sontimpliqus dans la formation des rarrangements [Pfeiffer et al., 2000]. Ces cassures peuventtre dues des agents exognes (comme les rayons gamma ou rayons X), rsulter dun accidentrencontr lors de la rplication ou encore tre gnres par les topoisomrases.

    Il existe des rarrangements intra-chromosomiques, tels que les dltions (pertes), dupli-cations (gains) dun gne ou dun groupe de gnes. Linversion, quant elle, nimplique niperte, ni gain de gnes directement, juste une inversion de la squence dADN implique quipeut contenir de 0 quelques centaines de gnes. Les gnes appartenant cette squence seretrouvent alors avec une orientation et un ordre inverss (Figure 1.4A).

    Il existe aussi des rarrangements inter-chromosomiques, tels que la fusion bout--bout dedeux chromosomes en un seul, la fission dun chromosome en deux. Il existe aussi la translo-cation rciproque (plus rpandue que les deux prcdentes), comme linversion, elle impliquela recombinaison de deux squences dADN mais appartenant deux chromosomes diffrents,ce qui conduit la cration de deux nouveaux chromosomes (Figure 1.4B). noter quunetranslocation crant un chromosome avec deux centromres et laissant lautre chromosome sanscentromre, a trs peu de chance dtre conserve au cours de lvolution. En effet le centro-mre est indispensable toute division cellulaire et cette translocation risque dtre ltale pour la

    break

    recombinaison

    Genome A

    Genome B

    INVERSION

    21 3

    1 -2 3

    chromosome I

    chromosome II

    Genome Achromosome 1

    chromosome 2

    Genome B

    TRANSLOCATION

    1 12

    23 34

    4

    A

    B

    Figure 1.4 (A) GenomeA et GenomeB sont deux gnomes composs dun seul chromosome divis en trois blocsde syntnie (les flches de couleurs) contenant chacun des gnes (les petites flches noires). GenomeA se diffrenciede GenomeB par une inversion ( gauche). Une inversion peut sexpliquer biologiquement par une recombinai-son entre deux squences rptes inverses, aprs au moins une casssure de lADN double brin ( droite). (B)GenomeA et GenomeB sont composs de deux chromosomes diviss en quatre blocs de syntnie. GenomeA se dif-frencie de GenomeB par une translocation. Une translocation est galement due une recombinaison entre deuxsquences dADN mais appartenant deux chromosomes diffrents, ce qui entrane lapparition de deux nouveauxchromosomes.

  • 28 Chapitre 1. Introduction la biologie des gnomes

    cellule. Seules les translocations impliquant lchange rciproque dextrmits de chromosomesans centromre risquent donc dtre conserves au cours de lvolution. Si lun des deux seg-ments changs est trs petit, voire inexistant, on appelle cette translocation une translocationnon-rciproque (pour plus de dtails voir [Alberts et al., 2002], pages 453-466).

    Les rarrangements sont des vnements risqus dans le sens o ils peuvent avoir des cons-quences importantes sur la viabilit des cellules et leur fertilit en miose. Lorsquils entrainentune perte ou un gain de matriel gntique (par dltion et duplication respectivement), la sous ousur-expression des gnes associs peut causer des problmes de dosage gnique (de nombreusesmaladies gntiques sont lexpression de tels rarrangements). Les rarrangements quilibrs(sans perte, ni gain) peuvent, quant eux, modifier le niveau dexpression des gnes flanquantles points de cassure (cest ce quil se passe pour la leucmie [Rowley, 1973]) ou perturber desprocessus cellulaires qui dpendent de la structure des chromosomes, comme la miose. Unetrop grande accumulation de rarrangements peut rendre la reconnaissance entre chromosomeshomologues difficile et compromettre la bonne sgrgation des chromosomes. Et mme si leschromosomes homologues se reconnaissent, une recombinaison homologue au niveau dun seg-ment invers (ou de deux chromosomes transloqus) peut entrainer la formation dhaplodesdsquilibrs. Il existe galement des cas de maladie gntique chez lhomme, o ni le gne, nila rgion promotrice, nont t altres et o pourtant, lexpression du gne a t altr par unrarrangement chromosomique proximit [Kleinjan et van Heyningen, 1998].

    Pour toutes ces raisons, et pour toutes celles dont on na pas encore ide, les rarrangementschromosomiques qui arrivent se fixer dans les populations au cours de lvolution sont rares.Il rsulte de cette proprit, que si deux espces donnes partagent une adjacence de deux gnes(ordonns et orients de la mme manire), elles partagent vraisemblablement cette organisationdepuis leur spciation, elles lont vraisemblablement hrite de leur dernier anctre commun. Sices deux adjacences ntaient pas ancestrales, cela impliquerait quil y ait d avoir deux rar-rangements indpendants, au cours de lvolution de chacun des deux gnomes, qui auraient eucomme mme rsultat ladjacence partage par ces deux espces. Mme si il est tout a fait pos-sible quun mme rarrangement ait eu lieu deux fois indpendamment, ce scnario est beaucoupmoins probable que celui qui suppose que ladjacence partage est ancestrale et quelle a donct transmise verticalement aux deux gnomes actuels. Le principe de parcimonie consiste ngliger ces petites probabilits et considrer uniquement lexplication (de la configurationactuelle des gnomes) la plus probable, i.e. celle qui implique le moins de rarrangements.

    1.2.4 Blocs de syntnie et points de cassure

    lorigine, la syntnie dcrivait le fait pour deux gnes dtre localiss sur le mme chro-mosome (du grec syn = ensemble et taenia = ruban). Puis avec lapparition de la gnomiquecomparative, le terme syntnie partage est apparu. Et au lieu de dcrire, le fait que plusieursgnes soient sur le mme chromosome dans diffrentes espces, le concept de syntnie parta-

  • 1.2. Fonctionnement et volution des gnomes 29

    G Chromosome I

    breakpoints

    1 2 3 4 5

    G Chromosome 2

    1

    -2

    3

    4 -5

    G Chromosome 1

    G Chromosome 4

    G Chromosome 3

    1

    2

    2

    2

    2

    Figure 1.5 Segment du chromosome I du gnome G1. Les gnes (les petites flches noires) sont groupes parblocs de syntnie (les grandes flches transparentes) en fonction de leurs adjacences chez G1 et G2. Chaque blocde syntnie de G2 est reprsent en face de son bloc homologue appartenant G1, sans tenir compte de son relemplacement, il est simplement projet sur le chromosome auquel il appartient. Les gnes homologues sont lis parun trait. Pour chaque bloc, lordre local des gnes est prserv chez G1 et G2. Un bloc n dans G1 (o n = 1, 2, 3, 4, 5)a dans G2 soit la mme orientation (n), soit lorientation inverse (n). Les points de cassure sont indiqus entre lesblocs, le long du chromosome I, par de petites flches verticales.

    ge a t abusivement utilis pour dcrire la prservation de lordre des gnes homologues lelong de segments de chromosomes dans diffrentes espces. Aujourdhui, une grande partie desarticles parlant de syntnie sous-entend un ordre de gnes conserv ou tout au moins une proxi-mit conserve et non pas simplement une co-localisation sur un mme chromosome. Puisquilnexiste pas de terme consacr pour rendre compte de cette proprit, nous nous permettronsgalement de faire cet abus de langage dans la suite de cette thse.

    Les blocs de syntnie seront donc dfinis comme des groupes de gnes dont lordre a tconserv le long des chromosomes chez deux (ou plusieurs) gnomes. Chaque bloc a une orien-tation correspondant un ordre de gnes donn. Si ces gnes sont retrouvs dans lordre inversedans un autre gnome (soit cause dune inversion, soit simplement d un choix arbitrairediffrent du brin positif lors de lassemblage du gnome), le bloc identifi aura une orientationngative (Figure 1.5).

    On peut, de la mme manire que pour les gnes, parler dorientation vis--vis du centromre.Dans ce cas-l, on sintressera lordre des gnes vis--vis de leur centromre. Cette orientationa lavantage didentifier clairement les inversions, seules les inversion peuvent changer le signedun bloc (il ne dpend plus dun choix arbitraire), lexception des inversions pricentriques(incluant le centromre) et sil y a bien eu conservation des centromres dans les deux gnomes(ce qui implique aucune fusion ou fission de chromosomes). Ces dernires peuvent tre gale-ment vues comme une translocation rciproque entre deux bras dun mme chromosome, ce quijustifierait le fait que le signe des blocs reste inchang.

    La rgion du chromosome se trouvant entre deux blocs de syntnie conscutifs est appele unpoint de cassure de syntnie (breakpoint en anglais) (Figure 1.5). Notez que ce point de cassurereprsente plutt une rgion, qui peut parfois tre trs grande, contenir des gnes etc., ce nestpas un point entre deux nuclotides proprement parler. Chaque point de cassure est caractris

  • 30 Chapitre 1. Introduction la biologie des gnomes

    par ces deux blocs de syntnie (orients) le dlimitant. Par convention, on appelle aussi point decassure la fin dun chromosome, la rgion entre le dernier (premier) bloc de syntnie et la fin(dbut) du chromosome.

    1.2.5 Syntnie et gnomique comparative

    En ce basant sur le principe de parcimonie, les blocs de syntnie reprsentent bien les rgionscommunes, dans les gnomes actuels, hrites de leur dernier anctre commun. Ces blocs sontdonc trs utiles pour ltude de lvolution des gnomes, mais aussi pour ltude des gnomesactuels. Les nouvelles technologies de squenage (depuis une dizaine dannes), en prenantlascendant sur les mthodes traditionnelles de cartographie, ont permis une utilisation relleet efficace de cette information. La forte augmentation de la quantit de littrature relative lasyntnie reflte trs bien cette volution (Figure 1.6). En effet, avec une quantit toujours plusgrande de gnomes squencs disponibles, les tudes utilisant la syntnie se sont multiplieset se sont ouvertes ltude dautres gnomes que ceux des vertbrs (Figure 1.6). Chez lesplantes et chez les bactries par exemple, de nombreux logiciels ont notamment t dvelopps[Vandepoele et al., 2002; Simillion et al., 2004; Peng et al., 2009; Ling et al., 2009] pour tudierla syntnie. Ltude de la syntnie est ainsi passe du domaine exprimental au domaine de labioinformatique.

    Bien que le nombre de publications traitant de la syntnie chez les levures soit rest anec-dotique (Figure 1.6), les toutes premires comparaisons bases sur des donnes de squenage,ont t dveloppes sur des gnomes de levures [Hartung et al., 1998; Keogh et al., 1998; Ozier-Kalogeropoulos et al., 1998; Langkjr et al., 2000]. Ces tudes ont particip au lancement dunnouveau domaine appel la gnomique comparative cherchant comprendre les mcanismesdvolution des gnomes travers lanalyse comparative des chromosomes despces proches.Le programme Gnolevures [Souciet et al., 2000] est le premier projet de squenage largechelle entre espces apparentes visant dchiffrer les mcanismes dvolution des gnomes.Entre autres, le programme Gnolevures a cherch comprendre les mcanismes de rorgani-sation des cartes chromosomiques travers ltude de la conservation de la syntnie [Llorenteet al., 2000].

    Chez les vertbrs, la gnomique comparative sest galement dveloppe avec le squen-age du gnome compact du poisson, Tetraodon nigroviridis [Roest Crollius et al., 2000], pouraider lannotation du gnome humain [The International Human Genome Sequencing Consor-tium, 2001]. En effet, les blocs de syntnie peuvent servir lannotation structurelle des g-nomes en transfrant les annotations fonctionnelles dun gnome annot vers un nouveau g-nome (exemple chez les plantes [Vandepoele et al., 2002], chez les bactries [Ling et al., 2009]).Certaines erreurs de squenage peuvent aussi parfois rendre difficile lidentification de certainsgnes, or si lon sait o chercher (parce quon a identifi la rgion homologue grce dautresgnes en syntnie), on peut alors plus facilement les retrouver.

  • 1.2. Fonctionnement et volution des gnomes 31

    Figure 1.6 Lutilisation de terme syntnie dans la littrature. La courbe Synteny (losanges bleus) correspondau nombre total de publications citant le mot synteny soit dans le titre, soit dans le rsum identifi dans PubMedentre 1970 et 2009. La courbe synteny in vertebrates (triangles verts) correspond la fraction de ces publicationsqui contient en plus un des termes suivants : mammal, mouse, human, primate, fish, cattle, rodent, dog, rat ouencore vertebrate (toujours dans le titre ou le rsum). La courbe synteny in yeasts (ronds rouges) correspond lafraction des publications totales qui contient en plus un des termes suivants : yeast, Saccharomyces, Candida ouencore Kluyveromyces, suivi dune curation manuelle pour enlever les publications citant la levure pour des raisonsmthodologiques (telles que les Yeast Artificial Chromosome). La courbe violette reprsente le nombre de gnomescompltement squencs (eukaryotes, bactries et arches) publis et rfrencs dans la base de donnes GenomeOnLine (http://www.genomesonline.org/). [Drillon et Fischer, 2011]

    Ltude de la syntnie a galement t un outil de choix pour permettre des avances concep-tuelles majeures au niveau de notre comprhension de lvolution des gnomes telles que lesrelation dorthologies et dhomologies et les importantes contributions des vnements de du-plication, que celles-ci soient segmentales ou compltes. En effet, certaines espces ont subi aucours de leur volution une duplication entire de leur gnome (appel Whole Genome Dupli-cation : WGD), chaque chromosome se retrouve alors en deux exemplaires (on peut trouver desexemples chez les poissons [Jaillon et al., 2004], les levures [Kellis et al., 2004] et les plantes[Vision et al., 2000]). Paramecium tetraurelia, qui a 40 000 gnes, a dailleurs subi trois WGDsuccessives [Aury et al., 2006]. Cest notamment ltude de la syntnie qui a permis de confirmerces vnements, en comparant par exemple des gnomes dupliqus des gnomes non-dupliqus[Kellis et al., 2004; Dietrich et al., 2004].

    Les gnes dupliqus au cours dun vnement de WGD sont appels ohnologues, en rf-

    http://www.genomesonline.org/

  • 32 Chapitre 1. Introduction la biologie des gnomes

    rence Susumu Ohno [Ohno, 1970] (au lieu de paralogues). Il est intressant au sein dun mmegnome dtre capable de retrouver ces ohnologues, l encore, la syntnie entre gnomes du-pliqus et non-dupliqus, ou encore la colocalisation de gnes lintrieur dun mme gnomedupliqu, peut savrer trs utile. Certains logiciels ont t conus spcialement pour a, car latche nest pas facile, un vnement de WGD implique souvent la perte rapide dun des deuxohnologues (au hasard) et les deux rgions ne contiennent plus alors quun gne sur deux [Si-million et al., 2008]. Mais plus gnralement, la syntnie peut tre utile ltude des histoiresvolutives des familles de gnes (gains par duplication / pertes) [Wang et al., 2012].

    La syntnie permet galement la dtermination de taux relatifs des rarrangements chromo-somiques dans des lignes individuelles de levures et de vertbrs [Sankoff et Nadeau, 1996;Souciet et al., 2009; Zhao et Bourque, 2009], la reconstruction de gnomes ancestraux [Maet al., 2006; Alekseyev et Pevzner, 2009], ainsi que la reconstruction darbres phylogntiques(les relations de parent) partags par diffrentes espces [Zheng, 2010]. Ltude de la structureet de la rpartition des points de cassure de syntnie permet daccder aux mcanismes des rar-rangements chromosomiques et des modles dvolution des gnomes. Et cest, vraiment, dansce contexte que ce situe la Partie II de cette thse (Les blocs de syntnie, page 75), o un releffort a t ralis vis vis de la reconstruction et de la visualisation des blocs de syntnie. Cesten effet sur eux que reposent les trois parties suivantes.

    Beaucoup de travaux ont t faits sur lanalyse des gnes contenus dans ces blocs pour mieuxcomprendre la structure des gnomes. On a clairement identifi que chez les vertbrs, les gnesconservs en syntnie chez de multiples espces, sont des gnes essentiels des processus fon-damentaux du dveloppement et lorganisation biologique [Woolfe et al., 2004; Larkin et al.,2009]. Certains gnes restent galement en syntnie parce quils sont lis, soit par le fait quele promoteur (squence non-codante contrlant la transcription dun gne) de lun se trouve lintrieur de lautre [Kikuta et al., 2007], soit par le fait quils partagent le mme promoteurbidirectionnel [Rdelsperger et Dieterich, 2010]. La conservation en syntnie de certains gnespeut galement tre le signe dune relation entre leurs protines associes, qui ncessitent parexemple dtre transcrites simultanment [Marcotte et al., 1999].

    Les points de cassure chez les vertbrs sont, quant eux, souvent facteurs de diversits (nou-velles combinaison de gnes, nouveaux lments rgulateurs) et contribuent ladaptation desorganismes [Larkin et al., 2009]. Chez les primates, ce sont souvent des gnes spcialiss dans larponse aux stimuli externes (immunit, rponse olfactive) [Rdelsperger et Dieterich, 2010]. Ila galement t regard si lexpression des gnes changaient en fonction de leur proximit avecdes points de cassure mais les rsultats ne sont pas vraiment probants [Muoz et Sankoff, 2011].

  • 1.3. Diffrences structurelles et fonctionnelles majeures entre les gnomes de levures et de vertbrs 33

    1.3 Diffrences structurelles et fonctionnelles majeures entre les gnomesde levures et de vertbrs

    Les levures et les vertbrs ont des gnomes trs diffrents : en taille (les gnomes des ver-tbrs sont en moyenne 200 fois plus gros, Table 1.1), en nombre de gnes, en nombre et tailledintrons, en nombre dlments transposables et de squences rptes, en densit de gneset de proportion dADN codante et non-codante (voir [Dujon, 2010] et [Volff, 2006], pour unerevue sur larchitecture des gnomes de levure et de vertbrs, respectivement). De plus, desdiffrences majeures des proprits fonctionnelles qui peuvent avoir un profond impact sur ladynamique des gnomes existent galement entre levures et vertbrs.

    Tout dabord, la reproduction sexue est le seul mode de reproduction des vertbrs, ce quiimplique que les rarrangements chromosomiques qui peuvent tre transmis la prochaine g-nration, et finir par atteindre la fixation dans la population, sont seulement ceux qui ont lieu lorsdes divisions miotiques (cration des gamtes) ou ultrieurement lors de lamplification mito-tique des gamtes (rplication). La reproduction des levures sauvages est plus complexe, elleinclut des reproductions clonales et sexues ainsi que la consanguinit. La levure domestique,quant elle, est principalement caractrise par une expansion clonale rapide lorsque les condi-tions environnementales sont favorables. La proportion de reproduction sexue varie entre lesdiffrentes lignes. Beaucoup de lignes semblent tre compltement asexues tandis que pourcelles qui subissent la miose, les croisements se produisent principalement entre les ascosporesprovenant de la mme ttrade (consanguinit), limitant ainsi les croisements entre individus. Ona calcul que les espces Saccharomyces subissent 1 cycle sexuel pour 1000 divisions asexues etque les vrais croisements auraient lieux seulement 1 fois toutes les 50.000 100.000 gnrationsasexues [Ruderfer et al., 2006; Tsai et al., 2008].

    Il est galement bien connu que les taux de mutations varient entre les organismes [Drakeet al., 1998; Nishant et al., 2009]. partir des donnes de squenage de ces dernires annes,le taux de substitution entre gnrations est estim 1.1108 par base pour un gnome haplodehumain (pour une gamte) [Roach et al., 2010] et environ 3 1010 par base par division pourSaccharomyces cerevisiae (que ce soit des cellules diplodes ou haplodes) [Lynch et al., 2008;Nishant et al., 2010]. Ce qui fait une probabilit de mutation par base 36 fois plus importantechez lhomme. Cette diffrence est probablement due au fait que chez la levure une divisioncellulaire correspond une seule gnration asexue alors que chez lhomme, chaque gnrationcorrespond plusieurs divisions cellulaire (qui se produisent dans la ligne germinale). Et chezce dernier, cest mme encore plus compliqu : chez la femme, le nombre de divisions cellulairesdans la ligne germinale par gnration est limit 30 divisions cellulaires (lovogonie sarrtetrs tt, lors de la vie ftale) et chez lhomme, la spermatogense a lieu tout au long de la vie etcest prs de 200 divisions chez un homme de 20 ans [Arnheim et Calabrese, 2009].

    Enfin, une autre grande diffrence fonctionnelle entre levures et vertbrs, cest le tempsde gnration qui diffre de plusieurs ordres de grandeur (quelques heures chez les levures par

  • 34 Chapitre 1. Introduction la biologie des gnomes

    rapport quelques mois, voire quelques annes chez les vertbrs). Cela implique que pour unmme nombre dannes, le nombre de gnrations est beaucoup plus lev chez les levures quechez les vertbrs. Mme si il est vrai que le temps de gnration moyen pour les populationsde levures vivant dans des environnements naturels est beaucoup plus long que quelques heures,car elles doivent, en effet, souvent faire face des conditions critiques de croissance (telles quede longues priodes de famine, de faibles tempratures, etc).

  • Chapitre 2

    Introduction aux diffrentesproblmatiques abordes

    Sommaire2.1 Identification des blocs de syntnie . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    2.1.1 Les diffrentes mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    2.1.2 Des blocs de syntnie en vue des reconstructions ancestrales . . . . . . . . . . 38

    2.2 Reconstruction de larbre phylogntique . . . . . . . . . . . . . . . . . . . . . . . 392.2.1 Quest-ce quun arbre phylogntique ? . . . . . . . . . . . . . . . . . . . . . 39

    2.2.2 Les diffrents types de donnes pour infrer une phylognie . . . . . . . . . . 42

    2.2.3 Les diffrentes mthodes de reconstruction . . . . . . . . . . . . . . . . . . . 45

    2.2.4 Limites des approches prcdentes . . . . . . . . . . . . . . . . . . . . . . . . 49

    2.3 Identification des rarrangements chromosomiques . . . . . . . . . . . . . . . . . 502.3.1 Lidentification des points de cassure lis . . . . . . . . . . . . . . . . . . . . 50

    2.3.2 La r-utilisation des points de cassure . . . . . . . . . . . . . . . . . . . . . . 57

    2.3.3 Les diffrents modles dvelopps . . . . . . . . . . . . . . . . . . . . . . . . 60

    2.3.4 La ncessit dune nouvelle approche . . . . . . . . . . . . . . . . . . . . . . 66

    2.4 Reconstruction des gnomes ancestraux . . . . . . . . . . . . . . . . . . . . . . . . 662.4.1 Les diffrents modles dvelopps . . . . . . . . . . . . . . . . . . . . . . . . 67

    2.4.2 Les bases dune nouvelle approche . . . . . . . . . . . . . . . . . . . . . . . . 71

    Ce chapitre introduit les diffrents principes, mthodes et objets de combinatoire, relatifs auxdiffrentes parties de cette thse.

    2.1 Identification des blocs de syntnie

    2.1.1 Les diffrentes mthodes

    Beaucoup de logiciels permettent de reconstruire, de visualiser, danalyser les blocs de synt-nie. Ils ont t dvelopps ces dix dernires annes, pour rpondre une demande toujours plus

    35

  • 36 Chapitre 2. Introduction aux diffrentes problmatiques abordes

    importante et toujours plus varie. En effet, la gnomique comparative a connu un vrai dvelop-pement grce aux nouvelles techniques de squenage et une quantit de gnomes squencstoujours plus grande. Et aujourdhui, lanalyse de la syntnie est une tape indispensable nim-porte quelle analyse de gnome.

    Les exigences, au niveau des relations de syntnie, ne peuvent pas tre les mmes pour tousles gnomes. Elles vont dpendre directement de la proximit des gnomes tudis (voire deleurs contraintes volutives propres). Il y a donc toute une continuit de mthodes allant delalignement des gnomes (au niveau de lADN) lidentification de petits groupes de gnessans conservation dordre. Plus les gnomes sont conservs et plus les blocs de syntnie sontfaciles retrouver, ce nest ensuite quune question de prcision sur la taille minimale dunbloc, la taille dinsertion maximale, etc. En revanche, lorsque les gnomes sont plus distants,lenjeu des algorithmes est de dterminer si les petits blocs identifis sont vraiment issus duneconservation ancestrale ou sils sont juste dus au hasard. Il faut alors faire appel aux probabilits.

    Alignement de lADN

    En 1984, la notion de segments conservs entre deux gnomes, reprsentant des squencesde nuclotides relativement proches entre elles, est introduite [Nadeau et Taylor, 1984]. Lordredes gnes contenus lintrieur de ces segments est strictement conserv. Une nouvelle notionplus souple est introduite bien plus tard : cest le concept de bloc de syntnie. La squence en-tire du segment na pas besoin dtre conserve, il suffit que des petits segments (par exemple,les squences des gnes), appels ancres, soient conservs dans le mme ordre dans les deuxgnomes [Tesler, 2002] (ce concept a t implment dans GRIMM-Synteny [Pevzner et Tesler,2003]). On peut ensuite assouplir le critre sur lordre des ancres en permettant quelques dif-frences. Lide tant quun bloc de syntnie peut tre converti en un segment conserv par demicro-rarrangements comme de petites inversions, insertions, dltions ou duplications (dontla longueur est dfinie par un paramtre ajustable suivant ce qui nous intresse ; dans cette thse,ce paramtre sera exprim en nombre de gnes et variera de 1 6).

    La reconstruction des segments conservs, comme celle des ancres, repose sur un alignementdADN, ce qui nest possible quentre espces trs proches, comme les amniotes ou les droso-philes [Dubchak et al., 2009], mais pas chez les levures car ces espces couvrent une chellevolutive beaucoup plus grande. Si lADN peut tre align, alors il est en effet possible de re-construire les blocs de syntnie pour des gnomes non annots comme le propose SyMAP [So-derlund et al., 2011]. Chez les vertbrs, 1338 blocs de syntnie communs plusieurs espces(homme, souris, rat, chien, opossum et poulet) ont t reconstruits partir de lalignement mul-tiple des gnomes complets [Ma et al., 2006]. Un paramtre t (gale 50 kb dans ltude) dfinit la fois la taille minimale des blocs considrs et la taille maximale des inversions, insertions,dltions tolres lintrieur des blocs. Les blocs sont ensuite fusionns sils sont adjacentsdans tous les gnomes.

  • 2.1. Identification des blocs de syntnie 37

    Alignement des gnes

    Pour des gnomes plus distants, il faut baser la reconstruction des blocs de syntnie sur lho-mologie des gnes, au niveau de leurs squences protiques. Cest dailleurs souvent une donneen entre quil faut fournir aux logiciels qui reconstruisent les blocs de syntnie. Cest le cas deCinteny [Sinha et Meller, 2007] qui, par ailleurs, propose une visualisation des blocs soit locale,soit globale mais pas de visualisation intermdiaire (intressante en particulier pour visualiserles points de cassure). Les blocs ne pouvant pas tre dupliqus, il nest pas possible de comparerdes gnomes dupliqus des gnomes non-dupliqus. Pour les levures, le Yeast Genome OrderBrowser [Byrne et Wolfe, 2005] est une interface qui permet de trs bien visualiser/comparer lesgnomes dupliqus et les gnomes non-dupliqus de levures (mais uniquement ceux pr-rentrsdans la base de donnes).

    Plus rcemment, Cyntenator [Rdelsperger et Dieterich, 2010] a t dvelopp pour recons-truire des blocs de syntnie communs 17 gnomes de vertbrs. Par alignement de gnes, ilreconstruit progressivement les blocs communs aux diffrents gnomes. Il faut lui donner en en-tre larbre phylogntique des espces ainsi que les relations dhomologie (ou le rsultat desalignements pour tous les gnes de toutes les comparaisons deux deux possibles). MCScanX[Wang et al., 2012] cherche galement reconstruire les blocs de syntnie partags par plusieursgnomes. Il a t appliqu 15 gnomes de plantes (en moins de 120 heures). Il propose denombreuses analyses comme ltude de lhistoire des familles de gnes, des points de cassure,des duplications en tandem, etc.

    Groupe de gnes co-localiss

    Lorsque les gnomes sont plus distants, il est important de dfinir la probabilit quun groupene soit pas d au hasard. Cette dernire peut dpendre du nombre total de gnes dans les g-nomes, du nombre de paires dhomologues, de lordre des gnes plus ou moins conservs lin-trieur de ces groupes, etc. [Rose Hoberman et Durand, 2005]. Certaines probabilits dpendentmme de la taille des familles de gnes impliqus dans les groupes identifis [Raghupathy etDurand, 2009]. ADHoRe [Vandepoele et al., 2002; Simillion et al., 2004], OrthoCluster [Zenget al., 2008; Ng et al., 2009] ou encore MCMuSeC [Ling et al., 2009] sont tous des logiciels quiservent identifier des petits blocs de syntnie entre espces loignes. Ils ne valident que lesblocs qui ont une forte probabilit de reprsenter une vraie ancestralit/conservation dun pointde vue volutif.

    La premire application possible de ces approches est donc la comparaison de gnomes dis-tants (voire dupliqus). Cest la cas dOrthoCluster qui a t appliqu deux nmatodes etdADHoRe qui permet de retrouver des micro-blocs de syntnie hautement dgnrs mais en-core conservs lintrieur ou entre diffrentes espces de plantes [Vandepoele et al., 2002;Simillion et al., 2004], ou de levures [Dujon et al., 2004]. Il est, en revanche, beaucoup plus dif-ficile de retrouver les blocs orthologues entre plusieurs espces lorsque les blocs sont dupliqus

  • 38 Chapitre 2. Introduction aux diffrentes problmatiques abordes

    car il faut tre capable didentifier les diffrentes copies [Peng et al., 2009].Une deuxime application possible est de sintresser aux petits groupes de gnes qui se

    trouvent co-localiss dans un grand nombre de gnomes (une vue plus globale de lorganisationdes gnomes). MCMuSeC a, par exemple, permis didentifier des groupes de gnes communs 133 gnomes bactriens. Les gnomes bactriens contiennent des oprons, ce sont des gnes,successifs le long du chromosome, co-transcrits (le long dun unique ARN pr-messager com-mun). Ces groupes de gnes sont donc fortement contraints et on peut retrouver des groupes degnes co-localiss mme entre espces trs loignes. Lidentification de ces groupes de gnes aainsi permis de prdire la fonction de nombreux gnes peu connus [Ling et al., 2009].

    Il est important de noter le champ dapplication des diffrents algorithmes car la longueurdes gnomes bactriens ( 106 Mb) nayant pas le mme ordre de grandeur que celle des g-nomes eucaryotes ( 109 Mb) (Table 1.1), les algorithmes dvelopps pour certains gnomessont rarement transportables. Cest le cas de MCMuSeC qui compare 133 gnomes bactriens en10 minutes mais qui il faut plus dune semaine pour comparer le gnome de lhomme celuide la souris.

    2.1.2 Des blocs de syntnie en vue des reconstructions ancestrales

    Lors de cette thse, on sintresse la reconstruction des arbres phylogntiques, des rar-rangements chromosomiques et des gnomes ancestraux. Pour y arriver, il y a diffrents moyenspossibles : travailler au niveau des gnes [Muffato, 2010] ou au niveau des blocs de syntniecommuns tous les gnomes tudis [Ma et al., 2006; Chauve et Tannier, 2008; Alekseyev etPevzner, 2009; Zheng, 2010]. Si on travaille au niveau des gnes, on va tre trs sensible auxpetites inversions, dltions, duplications, ce sont des vnements que lon veut pouvoir retracermais pas au dpens de la reconstruction de rarrangements plus larges. A linverse, si on tra-vaille avec les blocs communs toutes les espces, on perd alors en prcision. En effet, traversla reconstruction progressive des blocs communs 17 gnomes de vertbrs, on voit clairementla perte de prcision qui augmente au fur et mesure que les blocs deviennent communs desespces plus distantes [Rdelsperger et Dieterich, 2010].

    Pour ne pas tomber dans lune ou lautre de ces limites, nous avons opt, au cours de cettethse, pour lutilisation de blocs de syntnie dfinis partir de la squence protique des gneset partags seulement par deux gnomes la fois. Par la suite, pour comparer ces diffrentsblocs entre eux, on se servira des gnes, en passant des blocs aux gnes et des gnes aux blocs.Cest cette combinaison, de gnes et de blocs de syntnie, qui permet de comparer beaucoup degnomes, y compris des gnomes trs distants, sans perdre la prcision des blocs de syntniepartags entre paires de gnomes proches. En revanche, cette approche implique une certainecomplexit des algorithmes de reconstruction.

    Lide nest donc pas de dvelopper une nouvelle mthode didentification des blocs de syn-tnie en soit, mais plus den dvelopper une qui serait adapte aux diffrentes reconstructions qui

  • 2.2. Reconstruction de larbre phylogntique 39

    nous intresse par la suite. La mthode SynChro (pour SYNteny along CHROmosomes) a ainsit dveloppe pour rpondre aux critres suivant :

    1. tre peu exigeante au niveau des entres fournir (pas de famille de gne, de paires dor-thologues, etc. mais juste des gnomes annots) ;

    2. tre rapide pour pouvoir tre applique aux gnomes volumineux des vertbrs ;

    3. identifier des blocs les plus reprsentatifs possible de linformation contenue dans les g-nomes, cest dire ayant subis le moins possible de simplification (suppression de gnes)ou de perte dinformation (dcoupage dun bloc en deux), cela implique que les blocspuissent sinclure, se chevaucher et tre dupliqus ;

    4. avoir peu de paramtres mais quil soit possible de faire varier les diffrents niveaux deprcision () ;

    5. identifier des blocs partir des gnes (et non pas lalignement de lADN), dune part pourque les reconstructions soient applicables aux gnomes des vertbrs comme aux gnomesdes levures, et dautre part pour pouvoir accder facilement la dynamique intra-bloc(duplications/pertes de gnes, micro-inversions).

    Il tait aussi important de dvelopper un outil de visualisation de ces blocs qui permettentaussi bien une vue densemble des gnomes comme une vue plus rapproche des points de cas-sure. Il manque cruellement aux mthodes voques prcdemment et cest une des principalesraisons du dveloppement de SynChro. Cette interface a t trs utile lors du dveloppement desdiffrentes mthodes pour bien comprendre la complexit de certains points de cassure et pourpouvoir ainsi la prendre en compte.

    Les dtails de la reconstruction des blocs de syntnie, ainsi que lanalyse et la comparaisondes blocs de syntnie chez les vertbrs et chez les levures, seront prsents dans la deuximepartie de cette thse (Les blocs de syntnie, page 75).

    2.2 Reconstruction de larbre phylogntique

    2.2.1 Quest-ce quun arbre phylogntique ?

    La phylognie est ltude des relations de parent entre diffrents organismes en vue de retra-cer leur histoire volutive. On peut tudier la phylognie dun groupe despces mais galement, un niveau intraspcifique, la gnalogie entre populations ou entre individus.

    On reprsente couramment une phylognie par un arbre phylogntique.

    Dfinition 1 Un arbre phylogntique est un graphe connect acyclique. Chaque nud est reli un autre nud par un unique chemin. Les feuilles reprsentent les espces actuelles, les nudsde larbre reprsentent les anctres communs. Les artes reprsentent les diffrentes histoiresvolutives communes ou propres aux diffrentes espces. Le nombre de nuds est gal au nombredartes plus 1. Un arbre peut tre binaire ou pas, sil est binaire chaque nud est alors reli

  • 40 Chapitre 2. Introduction aux diffrentes problmatiques abordes

    un (si cest un feuille) ou trois autres nuds (si cest un nud interne). Un arbre peut treenracin ou pas. Un arbre est enracin si une des artes est dfinies comme contenant la racinede larbre, i.e. le gnome ancestral dont tous les autres gnomes sont issus.

    La racine dun arbre

    Pour n gnomes, il existe (2n3)!! = (2n3)(2n5) ...31 arbres enracins et (2n5)!!arbres non-enracins [Cavalli-Sforza et Edwards, 1967].

    Pour trois gnomes, il existe une unique topologie possible darbre binaire non-enracin (Fi-gure 2.1A) et trois topologies darbres binaires enracins possibles (en noir dans la Figure 2.1B).Pour pouvoir dfinir la position de la racine, il faut intgrer ce quon appelle un (ou plusieurs)gnome externe (not outgroup dans la Figure 2.1B). Cest un gnome qui ne partage pas ledernier anctre commun des espces dont on cherche reconstruire larbre. Le positionnementdu gnome externe sur une des branches de larbre non-enracin permet de passer de ce dernier un arbre enracin. Il est donc courant dajouter, lors dune analyse phylogntique, un gnomeexterne. Si ce nest pas possible (comme pour la reconstruction de larbre de la vie), on ne pourrapas enraciner larbre avec certitude, mme sil est parfois possible grce des vnement noninversibles (comme le sont les transferts horizontaux) davoir une assez bonne ide de la positionde la racine. Dun point de vue biologique, un arbre enracin contient plus dinformations caril intgre en plus la chronologie des vnements. Parmi les trois arbres enracins possibles pourtrois gnomes (Figure 2.1B), un seul correspond la vritable histoire volutive de ces gnomes.

    Le gnome externe permet, en plus dassurer la topologie de larbre enracin, de position-ner/reconstruire le dernier anctre commun (le rond orange sur la Figure 2.1B) : on ne peut, parexemple, ni positionner, ni reconstruire le dernier anctre commun des vertbrs en ntudiantque des vertbrs (ou alors, seulement ce quils ont encore tous, ou presque, en commun).

    outgroup

    G1

    G2

    G3

    A B

    G1 G2 G3

    outgroup

    G2 G1 G3 G3 G1 G2

    outgroup

    Figure 2.1 Les diffrentes topologies possibles de larbre phylogntique binaire associ 3 gnomes. Lesnuds ronds reprsentent les anctres, les nuds carrs reprsentent les gnomes actuels. (A) La topologie delunique arbre non enracin. (B) Les trois topologies possibles darbres enracins. Cest la position dun gnomeexterne (un gnome ne partageant pas le dernier anctre commun aux autres gnomes) vis--vis des autres gnomesqui permet de passer dune topologie non-enracine une topologie enracine.

  • 2.2. Reconstruction de larbre phylogntique 41

    La longueur des branches

    Jusquici, il na t question que de topologie darbre, mais lautre aspect important dunarbre, en particulier phylogntique, cest la longueur des branches. La longueur des branchespeut reprsenter un nombre dannes. Dans ce cas, pour un arbre enracin, la distance entre ledernier anctre commun et chacune des espces actuelles doit tre la mme (cest le cas desarbres noirs de la Figure 2.1B, en ne comptant, bien sr, que la taille des branches verticales).En revanche, si la taille des branches reprsente ou un nombre de substitutions dune squencedADN ou lacquisition dun caractre ou tout autre type de signal, les espces nvoluant pastoutes de la mme manire, la mme vitesse, elles ne seront pas toutes la mme distancede leur dernier anctre commun. En effet, lhypothse de lhorloge molculaire [Zuckerkandl etPauling, 1962, 1965; Wilson et al., 1977] selon laquelle lvolution est un phnomne constant(les mutations gntiques saccumulant dans un gnome une vitesse globalement proportion-nelle au temps gologique), est en partie remise en question. Avec laugmentation de la quantitde donnes gntiques et le raffinement des mthodes statistiques, il devient de plus en plus clairquil faut assouplir cette hypothse et laborer plutt des modles statistiques plus sophistiqus,dits dhorloge molculaire relche.

    Il faut noter que la longueur des branches peut parfois aider enraciner un arbre : il suffit deplacer la racine de telle sorte que larbre soit le plus quilibr possible (que les diffrentes dis-tances racine-espces soient le plus proche possible entre-elles). Cependant, cest une mthodepeu sre, la racine ne se situant pas toujours le long de la branche la plus longue.

    Les transferts horizontaux

    Penser que les squences actuelles des gnes ne sont que le rsultat dun hritage verticalest une vision un peu simpliste, surtout pour les gnomes procaryotes. Ces derniers sont sujets de nombreux transferts horizontaux de gnes. Un transfert horizontal est un processus par le-quel un organisme intgre du matriel gntique (au niveau de son ADN) provenant dun autreorganisme sans en tre le descendant. Certains gnes ne sont donc pas hrits dun gnome an-cestral mais dune autre espce cousine. Certains arbres phylogntiques sont dailleurs parfoisremplacs par des rseaux phylogntiques. Ce sont des objets plus mme de reprsenter toutela complexit des histoires volutives des gnomes [Doolittle, 2000]. Les transferts horizontauxcomplexifient la reconstruction de la phylognie (lhistoire du gne ne retrace plus la phylogniedes espces) mais galement la reconstruction de lhistoire des rarrangements chromosomiqueset des gnomes ancestraux. Les diffrentes mthodes dveloppes au cours de cette thse ne sontpas adaptes pour faire face de tels vnements et sont donc dveloppes en particulier pourdes gnomes eucaryotes, qui sont des gnomes moins sujets ce genre de transferts.

    Il faut noter que les gnes issus de ces transferts sont gnralement vus comme du bruit etsupprims des diffrentes analyses phylogntiques. Mais ils peuvent galement servir vali-der une topologie plutt quune autre, en calculant par exemple pour chaque arbre le nombre

  • 42 Chapitre 2. Introduction aux diffrentes problmatiques abordes

    de transferts horizontaux quil induit et en choisissant la topologie la plus parcimonieuse, i.e.induisant le moins de transferts [Abby et al., 2012].

    2.2.2 Les diffrents types de donnes pour infrer une phylognie

    Toute reconstruction darbre phylogntique se base sur le principe que les organismes quise ressemblent le plus ont probablement un anctre commun plus rcent que les organismesparaissant plus loigns aux niveau de leur phnotype ou de leurs squences. Les espces quipartagent certaines caractristiques communes et drives sont runies dans le mme clade (sous-arbre), en supposant que leur dernier anctre commun, le nud la racine de ce clade, avaitgalement ces caractristiques, en tant lui-mme lacqureur puis le transmetteur. La ralittant plus complique/ambige, diffrentes mthodes ont t dveloppes comme on va le voir.

    En effet, il peut y avoir des contradictions. Par exemple, si on se base sur des caractristiquesdu phnotype, comme cela a longtemps t le cas avant lacquisition de donnes dordre mol-culaire, le panda gant a une anatomie qui ressemble beaucoup celle de lours et pourtant ilnhiberne pas et son appareil gnital rappelle plus celui dun raton laveur que celui dun ours.Le lien de parent entre le panda gant et lours a ensuite t confirm par le squenage dequelques gnes [Slattery et OBrien, 1995].

    Les donnes sur le phno