99
Université d’Evry Val d’Essonne Ecole doctorale des Génomes aux organismes Laboratoire Statistique et Génome – UMR CNRS 8071 – INRA 1152 – Université d’Evry Val d’Essonne Tour Evry 2 – 523, place des Terrasses – 91034 Evry cedex Soluscience SA – Biopole Clermont-Limagne – 63360 Saint-Beauzire Le domaine protéique, une unité d’homologie pertinente en génomique comparative THESE présentée et soutenue publiquement le 7 Novembre 2006 pour l’obtention du diplôme de DOCTORAT par Sophie Pasek Composition du jury : Daniel Kahn Rapporteur Eduardo Rocha Rapporteur Pierre Netter Examinateur Bernard Prum Examinateur Jean-Loup Risler Directeur de thèse

Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Université d’Evry Val d’Essonne

Ecole doctorale des Génomes aux organismes

Laboratoire Statistique et Génome – UMR CNRS 8071 – INRA 1152 – Université d’Evry Val d’Essonne

Tour Evry 2 – 523, place des Terrasses – 91034 Evry cedex

Soluscience SA – Biopole Clermont-Limagne – 63360 Saint-Beauzire

Le domaine protéique, une unité

d’homologie pertinente en génomique

comparative

THESE

présentée et soutenue publiquement le 7 Novembre 2006

pour l’obtention du diplôme de DOCTORAT

par

Sophie Pasek

Composition du jury :

Daniel Kahn Rapporteur

Eduardo Rocha Rapporteur

Pierre Netter Examinateur

Bernard Prum Examinateur

Jean-Loup Risler Directeur de thèse

Page 2: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Sommaire 1

Sommaire

Sommaire ................................................................................................................................... 1

Table des Illustrations ............................................................................................................... 4

Avertissements et abréviations................................................................................................... 6

Introduction ................................................................................................................................ 7

1 Les domaines protéiques .................................................................................................. 12

1.1 Définition, présentation................................................................................................ 12

1.1.1 Définition biologique ........................................................................................... 12

1.1.2 Formalisation........................................................................................................ 12

1.1.3 Les bases de données de domaines ...................................................................... 13

1.1.4 Le domaine : une unité d’évolution...................................................................... 13

1.2 Homologie : du gène au domaine................................................................................. 14

1.2.1 Définition de gènes homologues .......................................................................... 14

1.2.2 Limites de cette définition.................................................................................... 14

1.2.3 Définition de domaines homologues.................................................................... 15

1.2.4 Relations entre homologie de gènes et homologie de domaines.......................... 15

1.3 Travaux récents sur les domaines................................................................................. 16

1.3.1 Les combinaisons de domaines ............................................................................ 16

1.3.2 Les réseaux d’interactions de domaines............................................................... 17

1.3.3 Les réarrangements de domaines ......................................................................... 17

1.3.4 Mes travaux .......................................................................................................... 18

2 De la synténie de gènes à la synténie de domaines .......................................................... 21

2.1 La synténie de gènes .................................................................................................... 21

2.1.1 Définition générale............................................................................................... 21

2.1.2 Intérêts en biologie ............................................................................................... 22

2.1.3 Définition adoptée ................................................................................................ 23

2.1.4 Limites de cette définition.................................................................................... 24

2.2 La synténie de domaines .............................................................................................. 25

Page 3: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Sommaire2

2.2.1 Définition adoptée ................................................................................................ 25

2.2.2 Comparaison de la synténie de domaines avec la synténie de gènes ................... 27

2.3 Conclusions .................................................................................................................. 29

3 De la fusion de domaines à la fusion de gènes................................................................. 32

3.1 Les réarrangements de domaines ................................................................................. 32

3.1.1 Définitions et état de l’art..................................................................................... 32

3.1.2 Classification des différents types de réarrangements ......................................... 32

3.1.3 Problématique....................................................................................................... 34

3.2 Mécanismes d’évolution des protéines multi-domaines .............................................. 34

3.2.1 La recombinaison intra-domaine.......................................................................... 35

3.2.2 La recombinaison inter-domaine.......................................................................... 36

3.2.3 La fusion/fission de gènes .................................................................................... 37

3.3 La fusion/fission de gènes, un mécanisme majeur de l’évolution des protéines multi-

domaines............................................................................................................................... 38

3.3.1 Cribler des réarrangement de domaines ............................................................... 38

3.3.2 Importance quantitative des différents réarrangements élémentaires .................. 42

3.3.3 Identification d’un mécanisme majeur ................................................................. 43

3.4 Conclusions .................................................................................................................. 45

4 De la redondance en gènes à la redondance en domaines................................................ 48

4.1 La redondance en gènes ............................................................................................... 48

4.1.1 La robustesse génétique et les mécanismes de compensation.............................. 48

4.1.2 Une littérature abondante et polémique ............................................................... 48

4.1.3 Les expériences de robustesse génétique aux mutations nulles chez S.cerevisiae

49

4.1.4 La redondance en gène à travers les travaux de Gu et al. .................................... 50

4.2 La redondance en domaines ......................................................................................... 51

4.2.1 Problématique liée à la duplication partielle de gènes ......................................... 51

4.2.2 Mise en évidence d’un nouveau mécanisme de compensation ............................ 52

4.3 Conclusions .................................................................................................................. 56

Conclusion et perspectives ....................................................................................................... 58

Bibliographie............................................................................................................................ 60

Page 4: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Sommaire 3

Références Internet................................................................................................................... 67

ANNEXE 1 : Les domaines Pfam............................................................................................ 69

ANNEXE 2 : La synténie de gènes / domaines ....................................................................... 70

ANNEXE 3 : Article 1, la synténie de domaines..................................................................... 73

ANNEXE 4 : Article 2, l’évolution des protéines multi-domaines.......................................... 74

ANNEXE 5 : Article 3, la redondance en domaines................................................................ 75

Page 5: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Table des Illustrations4

Table des Illustrations

Figure 1 : Domaines des protéines codées par les gènes trpC, trpF et trpC(F) ..................... 15

Figure 2 : Un cas de réarrangement circulaire entre deux ADN-polymérases du virus de

l’hépatite B ............................................................................................................................... 18

Figure 3 : Un exemple de macrosynténie. Carte des macrosynténies entre le chromosme 9

humain, les chromosomes 2, 4, 13 et 19 de la souris. Les blocs d’une même couleur font

partie d’une même synténie. Chaque bloc est relié à son bloc « orthologue » dans l’autre

espèce par des traits. Image provenant d’ENSEMBL (cf référence internet [2]).................... 22

Figure 4 : Définition de la synténie sur un chromosome X. Chaque gène est représenté par

une flèche pleine. Les noms des gènes sont indiqués en dessous des gènes, leur position au

dessus. ...................................................................................................................................... 23

Figure 5 : Un exemple de synténie de domaines : le système phosphotransférase du fructose.

Cette synténie qui traverse Yersinia pestis, Salmonella typhi, Vibrio cholerae et Escherichia

coli contient 3 gènes faisant partie du système phosphotransférase spécifique du fructose.

Cette synténie présente une duplication chez S. typhi. La seconde occurrence de S. typhi

semble ne pas être spécifique du fructose d’après les annotations.......................................... 26

Figure 6 : Un exemple de synténie de domaines : l’opéron tryptophane. Cette synténie qui

traverse les génomes de Anabaena sp., Bacteroides thetaiotaomicron, Escherichia coli,

Salmonella typhi et Yersinia pestis montre de nombreux rérrangements de type fusion de

gènes. Les locus tag des gènes sont indiqués en dessous de chacun d’entre eux. Pour

Bacteroides thetaiotaomicron et Escherichia coli, on a indiqué en plus le nom de chaque gène

au dessus de celui-ci................................................................................................................. 27

Figure 7 : Sensibilité comparée de la synténie de gènes et de la synténie de domaines. Carte

du chromosome d’E.coli. Les gènes faisant partie d’une synténie sont indiqués en rouge, les

autres en bleu. Le cercle intérieur représente les résultats de DomainTeam (synténie de

domaines) tandis que le cercle extérieur représente ceux de GeneTeam (synténie de gènes).

En vert sont représentés les plus grandes régions synténiques respectivement pour GeneTeam

et DomainTeam. ....................................................................................................................... 28

Page 6: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Table des Illustrations 5

Figure 8 : Les différents types de réarrangements élémentaires ............................................. 33

Figure 9 : Les indels internes et terminaux.............................................................................. 33

Figure 10 : Un mécanisme possible de permutation circulaire. I-CP : intermédiaire de

permutation circulaire, CP : permutation circulaire. Figure extraite de Weiner et al. 2005. 34

Figure 11 : Recombinaison intra-domaine entre deux déterminants hsdS de deux plasmides de

L. lactis. .................................................................................................................................... 36

Figure 12 : Une synténie de domaines à deux occurrences chez H. influenzae et V. cholerae.

Les couples de gènes homologues sont indiqués par des flèches doubles. .............................. 41

Figure 13 : Synténie de domaines entre les génomes 1, 2 et 3 et scénario en 3 étapes (a, b, c)

montrant que la fusion/fission de gènes peut être à l’origine des indels terminaux sans être en

contexte de « fusion/fission évidente ». .................................................................................... 45

Figure 14 : Distribution comparée des gènes dupliqués et des singletons en fonction des 4

classes de délétion. Figure extraite de Gu et al. (2003). Role of duplicate genes in genetic

robustness against null mutations. Nature 421, 63-66............................................................. 51

Figure 15 : Scénario de duplication puis de fission d’un gène illustrant la création d’un gène

dupliqué partiel (i.e. constitué de copies de morceaux d’autres gènes). ................................. 52

Figure 16 : Définition des trois classes de gènes : Dupliqués, dupliqués partiels et singletons.

.................................................................................................................................................. 53

Figure 17 : Distribution comparée des gènes singletons, des dupliqués partiels et des

dupliqués en fonction des 4 classes de délétions (faible, modéré, important, létal). ............... 55

Figure 18 : Distribution comparée des gènes dupliqués proches, des dupliqués distants et des

dupliqués partiels en fonction des 4 classes de délétions (faible, modéré, important, létal)... 56

Tableau 1 : Les données synténiques. 8491 synténies de domaines ayant un score supérieur à

90 ont été retenues. Un gène est dit synténique s’il appartient à une synténie de domaines :

c’est le cas de 59852 gènes soit 70% des gènes des 28 bactéries considérées. Un gène inséré

est un gène situé dans une synténie de domaines, dont les domaines ne font pas partie de la

synténie (domaines insérés). .................................................................................................... 42

Tableau 2 : Distribution des différents types de réarrangements élémentaires de domaines. 43

Page 7: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Avertissements et abréviations6

Avertissements et abréviations

Identifiants : sauf indication contraire, les identifiants utilisés sont :

• Pour les gènes, les noms de locus ou les noms de gènes,

• pour les protéines, les identifiants Uniprot,

• pour les domaines, les numéros d’accession Pfam.

NR : Base de données contenant toutes les séquences non redondantes de GenBank, EMBL,

DDBJ et PDB.

HMM (Hidden Markov Model) : Modèle à chaîne de Markov cachée.

BBH (Bidirectionnal Best Hit) : Meilleur score réciproque. Méthode utilisée pour identifier

les orthologues. On admet que si deux protéines appartenant à deux organismes distincts sont

en BBH, alors les gènes qui codent ces deux protéines sont orthologues.

Famille de domaines : On utilise le terme famille de domaines pour désigner tous les

domaines d’un même type, c’est à dire tous ceux qui portent le même numéro d’accession ou

identifiant.

Page 8: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Introduction 7

Introduction

Etudier les phénomènes évolutifs afin de retracer la phylogénie des espèces et de comprendre

les mécanismes sous-jacents constitue un des enjeux majeurs de la génomique comparative.

Elle tente en effet, d’interpréter la multitude de données disponibles afin de proposer des

modèles d’évolution, de retracer les processus responsables de la conservation/divergence

entre les génomes. Par définition, l’unité utilisée en génomique comparative est le gène. Au

niveau le plus bas, les mutations qui affectent directement les nucléotides formant la séquence

d'ADN du gène sont étudiées (mutations ponctuelles). À un niveau plus élevé, l’étude des

segments chromosomiques constitués de plusieurs gènes permet d’étudier la dynamique

affectant ces segments tels que des duplications, inversions, transpositions, délétions,

insertions, implications dans des transferts horizontaux. Finalement, à très grande échelle, les

génomes entiers (ensembles de gènes) pouvant être dupliqués par des processus d'hybridation,

de polyploïdisation ou soumis à des processus d’endosymbiose et menant souvent à de

nouvelles espèces constituent également un des sujets d’étude de la génomique comparative.

Une étape fondamentale dans l'analyse comparative de génomes est d'établir la

correspondance entre les gènes, i.e. trouver les gènes homologues parmi lesquels on distingue

les orthologues et les paralogues. Deux gènes orthologues dans deux génomes distincts

partagent une histoire évolutive commune : celle qui s’est écoulée avant la spéciation. De

même, deux gènes paralogues dans un même génome partagent une histoire évolutive

commune : celle qui s’est écoulée avant la duplication. En pratique, la recherche des

homologues se fonde sur les résultats de comparaison des séquences des protéines codées par

les gènes. Plus particulièrement, l’identification des orthologues est basée sur la recherche du

meilleur hit réciproque (BBH). Cependant, après spéciation ou duplication, les gènes peuvent

subir de multiples réarrangements tels que des duplications internes, des fusions/fissions de

telle sorte que différentes parties du gène peuvent avoir des histoires évolutives distinctes.

Dans ce cas, l’homologie n’a plus de sens au niveau du gène mais elle en a un au niveau des

différentes parties du gènes. D’autre part, sur le plan structural et fonctionnel, chaque partie

Page 9: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Introduction8

du gène peut assurer une fonction indépendante du reste du gène. C’est le cas par exemple de

certains gènes qui codent pour différentes sous-unités d’un même complexe ou pour des

enzymes multi-fonctionnelles. Ces parties du gène qui constituent des unités d’évolution à

part entière et qui ont une structure et une fonction propre sont appelées modules ou

domaines. La plupart des protéines sont modulaires, c’est à dire constituées de domaines et

cette modularité fausse les résultats de nombreuses méthodes en génomique comparative.

Afin de tenir compte de cette modularité, on se propose de réaborder certains problèmes de

génomique comparative en utilisant comme unité non plus le gène mais le domaine. De même

que le gène, le domaine est une unité qui peut être étudiée à divers niveaux : chaque domaine

peut faire l’objet de mutations ponctuelles, les séquences des domaines peuvent être

dupliquées, inversées, transposées, délétées, insérées ou impliquées dans des transferts

horizontaux, etc. ; un gène peut être considéré comme codant pour un ensemble de domaines

et un groupe de gènes formant un segment chromosomique peut être redécrit comme un

ensemble de domaines.

Dans cette thèse, nous avons revisité trois thématiques classiques abordant ou utilisant

des techniques liées à la génomique comparative en les étudiant sous l’angle des domaines

plutôt que des gènes. Chacun des trois thèmes fait l’objet d’un chapitre. Dans chaque cas,

utiliser le domaine comme unité à la place du gène s’est avéré pertinent et a permis d’apporter

de nouveaux résultats.

Le premier chapitre décrit la synténie de domaines, i.e. l’équivalent en domaines de la

synténie de gènes. La recherche de synténies est une méthode largement utilisée en

génomique comparative. Les régions synténiques identifiées correspondent à des segments

chromosomiques dont le contenu en gènes est conservé entre plusieurs espèces. Les synténies

obtenues permettent tout d’abord d’apprécier le degré de conservation entre les génomes et

constituent ainsi un moyen d’évaluer la dynamique qui s’exerce à travers les multiples

réarrangements tels que les duplications, insertions/délétions, inversions, transpositions,

fusions/fissions, etc. La synténie est également très utilisée pour compléter les annotations

fonctionnelles manquantes. Comme dans la plupart des outils de génomique comparative,

Page 10: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Introduction 9

l’unité de la synténie est le gène et c’est la conservation du contenu en gènes qui est

recherchée. La méthode que nous introduisons utilise le domaine comme unité de la synténie

et recherche la conservation locale du contenu en domaines. Cette méthode présente de

nombreux avantages. Tout d’abord, les profils HMM utilisés pour détecter les domaines sont

plus sensibles que les comparaisons de séquences habituellement utilisées pour détecter les

gènes homologues. Ensuite, elle permet en plus des réarrangements de gènes de détecter les

réarrangements de domaines (duplications, fusions/fissions, etc.). Finalement, elle permet de

s’affranchir de la détection des liens d’orthologie et de paralogie. Nous montrons que les

régions synténiques ainsi trouvées sont plus nombreuses et plus larges qu’en utilisant la

synténie de gènes.

Le second chapitre est consacré à l’évolution des architectures multi-domaines des

protéines bactériennes et aux mécanismes responsables des réarrangements de domaines. Les

mécanismes à l’origine de l’évolution des gènes font l’objet de nombreux travaux. Ceux-ci

utilisent les méthodes classiques de la génomique comparative : alignements de séquences,

recherche des meilleurs hits, etc. Cependant, certains réarrangements n’affectent que certaines

parties des gènes telles que les duplications internes, les permutations circulaires ou les

fusions/fissions et ne sont pas criblés par ces méthodes. Dans ce cas, les réarrangements de

domaines permettent d’étudier l’évolution des gènes. L’étude des synténies de domaines

précédemment décrites nous a permis de cribler des protéines ayant subi des réarrangements

élémentaires de domaines parmi lesquels on a distingué les protéines affectées par une

substitution de domaine de celles affectées par une répétition ou une insertion/délétion de

domaine. Nous avons mis en évidence que parmi ces réarrangements, les insertions/délétions

de domaine sont largement plus représentées et qu’elles interviennent le plus souvent en

position terminale de la séquence protéique. L’analyse des régions synténiques contenant ces

gènes affectés par des insertions/délétions terminales nous a permis de mettre en évidence que

la fusion/fission de gènes constitue un mécanisme majeur de l’évolution des architectures

multi-domaines des protéines bactériennes.

Page 11: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Introduction10

Le troisième chapitre a pour objet la redondance en domaines en tant que mécanisme

de compensation aux mutations nulles. Suite à la délétion d’un gène, certains mécanismes dits

de compensation ont pour conséquence de compenser la perte de l’activité habituellement

assurée par le gène délété. Deux mécanismes de compensation ont été mis en évidence et

largement discutés : (i) le recrutement de voies métaboliques ou réseaux alternatifs et (ii) la

compensation par des gènes paralogues (i.e. dupliqués). Dans ce second cas, lorsqu’un gène

est délété dans un organisme, s’il existe une copie de ce gène dans cet organisme alors la

copie peut compenser la perte d’activité due à la délétion. Ce mécanisme de compensation est

également appelé redondance en gènes. De même qu’une redondance en gènes, il existe une

redondance en domaines. En effet, suite aux réarrangements de domaines évoqués plus hauts,

certains gènes ne constituent pas des copies « complètes » d’autres gènes mais sont constitués

de copies de morceaux d’autres gènes. On appelle ces gènes les « dupliqués partiels ». Nous

avons testé chez Saccharomyces cerevisiae le comportement à la délétion de ces gènes

dupliqués partiels. Cette étude a permis de mettre en évidence un nouveau mécanisme de

compensation appelé la « redondance en domaines ». Nous avons étudié les bases

moléculaires de ce mécanisme et discuté deux mécanismes moléculaires probablement

impliqués dans ce type de compensation. Lorsqu’un gène partiellement dupliqué est délété, il

peut être compensé (i) soit par une protéine plus grande qui contient entre autres les mêmes

domaines (ii) soit par l’interaction entre plusieurs protéines qui contiennent l’ensemble des

domaines requis pour assurer l’activité. Utiliser le domaine comme unité a cette fois permis

de mettre en évidence un nouveau mécanisme de compensation génétique.

Page 12: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Chapitre I : Les domaines protéiques

Page 13: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques12

1 Les domaines protéiques

1.1 Définition, présentation

1.1.1 Définition biologique

Le terme domaine est utilisé pour désigner différentes entités protéiques. Les structuralistes

définissent souvent le domaine comme une unité structurale capable de se replier

indépendamment du reste de la protéine1. En biochimie, les domaines sont fréquemment

décrits comme des régions protéiques dont la fonction a été expérimentalement caractérisée

(indépendamment de la structure). En génomique comparative, les domaines sont considérés

comme des séquences homologues que l’on peut rencontrer dans des contextes moléculaires

différents (Orengo et Thornton, 2005). En général, ces trois définitions sont compatibles et

s’accordent sur ce qu’ils considèrent comme étant un domaine. Ici, j’adopterai une définition

proche de celle utilisée en génomique comparative en définissant le domaine comme une

unité d’évolution indépendante pouvant constituer à lui seul une protéine mono-domaine ou

pouvant s’associer avec d’autres domaines au sein d’un protéine multi-domaine (Vogel et al.,

2005).

1.1.2 Formalisation

La plupart du temps, les domaines sont représentés par des consensus. Dans le cas de ProDom

(Bru et al., 2005), cette représentation est une séquence consensus, pour PROSITE (Hulo et

al., 2006), il s’agit d’un motif représenté sous la forme d’une expression régulière alors que

BLOCKS (Henikoff et Henikoff, 1994) représente ce consensus à l’aide d’alignements sans

1 D’après Eddy, cette définition appartient à la classe de définitions du type « Je le sais quand j’en vois un »

(référence internet[1]).

Page 14: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques 13

trou et Pfam2 (Protein families ; Finn et al., 2006) ou SCOP (Structural classification of

Proteins ; Andreeva et al., 2004) à l’aide d’un profil HMM déduit d’un alignement multiple.

1.1.3 Les bases de données de domaines

Il existe de nombreuses bases de données de domaines qui diffèrent entre elles pour chacun

des critères suivants :

• La définition de domaine,

• Le type de représentation formelle du domaine,

• Le protocole d’alimentation de la base de données (automatique, manuelle, hybride),

• La documentation, les services disponibles,

• La couverture en nombre de séquences.

Concernant les définitions, SCOP a une vision structurale du domaine et calcule ses profils

HMM à partir de séquences protéiques dont la structure est connue.

Pour le protocole d’alimentation, ProDom et BLOCKS sont entièrement automatiques alors

que Pfam et PROSITE sont des approches hybrides avec dans le cas de Pfam, une phase

manuelle de validation de l’alignement multiple servant de « graine » pour le profil HMM

suivie d’une phase automatique de recherche de l’alignement « complet » permettant

d’assurer une mise à jour automatique des données (voir l’annexe 1 pour plus de détails).

Notons qu’il existe bien d’autres bases de données de domaines (CATH (Reeves et al., 2006),

SMART (Simple Modular Architecture Research Tool) ; Letunic et al., 2006, etc.) mais que

le but de ce travail n’est pas de les répertorier.

1.1.4 Le domaine : une unité d’évolution

Riley et Labedan ont défini le module en tant que segment structural d’homologie (Riley et

Labedan, 1997). La base de données SCOP (Structural Classification of Proteins), quant à elle

considère le domaine comme une unité d’évolution, un domaine pouvant être observé seul au

sein d’une protéine mono-domaine ou associé avec d’autres domaines au sein de protéines

2 Pour une description des domaines Pfam, se reporter à l’annexe 1.

Page 15: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques14

multi-domaines (Murzin et al., 1995). On verra dans la partie 1.2 l’importance et les

implications de cette définition. Celle-ci a ensuite été largement reprise dans de nombreux

travaux. Ainsi en 2001, Apic et al. estiment qu’il n’existe probablement qu’un répertoire

limité de domaines qui se dupliquent et se combinent de différentes manières pour former

l’ensemble des protéines d’un génome (Apic et al., 2001 ; Chothia et al., 2003).

1.2 Homologie : du gène au domaine

1.2.1 Définition de gènes homologues

L’homologie désigne une relation d’évolution entre des gènes. On définit des gènes

homologues comme des gènes issus d’un gène ancestral commun. On distingue deux

catégories fondamentales de gènes homologues : les orthologues et les paralogues. S’il s’agit

de gènes issus d’un gène ancestral commun par héritage vertical, on parle de gènes

orthologues. Si ces gènes ont évolué par duplication l’un de l’autre, ils sont alors dits

paralogues (Koonin, 2005).

1.2.2 Limites de cette définition

Certaines relations d’évolution entre gènes sont indétectables par les méthodes usuelles de

comparaison de séquences. En effet, toutes les parties d’un gène n’ont pas la même histoire

(Fitch, 2000), c’est à dire qu’un gène peut coder pour une protéine constituée de domaines

provenant de plusieurs autres gènes. Dans ce cas, c’est chacun des domaines qui partage un

lien d’homologie avec un domaine similaire codé par un autre gène. Considérons l’exemple

du gène de biosynthèse du tryptophane d’E. coli trpC(F) (Figure 1). Ce gène code pour une

enzyme bi-fonctionnelle qui inclut la fonction indole-3-glycerol phosphate synthase assurée

par le domaine IGPS et la fonction anthranilate isomérase assurée par le domaine PRAI. Ce

gène est issu de la fusion des gènes trpC et trpF tels que présents par exemple chez B. subtilis

où le gène trpC code pour une indole-3-glycerol phosphate synthase constituée du domaine

IGPS et le gène trpF pour une anthranilate isomérase constituée du domaine PRAI. Dans ce

cas, si l’on s’interroge sur la relation d’homologie qui existe entre ces trois gènes, la définition

atteint ses limites puisque ce sont les domaines IGPS et PRAI qui sont homologues deux à

deux. On peut citer également les cas de permutations circulaires pour lesquels les outils

Page 16: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques 15

classiques de détection d’homologie (alignement de séquences) sont inadapté (Weiner et

al., 2005 ; cf partie 1.3.3 pour une description de la permutation circulaire).

Figure 1 : Domaines des protéines codées par les gènes trpC, trpF et trpC(F)

Fitch, dans une revue traitant des problèmes liés à la notion d’homologie (Fitch, 2000)

mentionne ce point qu’il nomme ‘The recombination problem’. Il en arrive à la conclusion

que, lorsqu’on veut tenir compte des réarrangements de domaines, le gène n’est pas l’unité

adéquate pour parler d’orthologie ou de paralogie. Dans ce cas, le domaine s’avère être une

unité plus pertinente. Quant à Koonin, il généralise cette conclusion en suggérant de revoir

l’ensemble des processus évolutifs en terme de domaines plutôt qu’en terme de protéines

(gènes) (Koonin, 2000).

1.2.3 Définition de domaines homologues

On définit des domaines homologues comme des domaines issus d’un domaine ancestral

commun. De même que pour les gènes, on parlera de domaines orthologues s’ils sont issus

d’une spéciation et de domaines paralogues s’ils sont issus d’une duplication. Comme pour

les protéines, le répertoire de domaines évolue par duplication puis divergence (mutation).

Une évolution convergente est également envisageable.

1.2.4 Relations entre homologie de gènes et homologie de domaines

On définit l’architecture de domaines d’une protéine comme la suite ordonnée des domaines

qui la composent (de N- vers C-terminal). Ainsi chaque domaine (ou partie du gène) sera

considéré comme une unité d’évolution du gène. Penser l’homologie en terme de domaines

présente plusieurs avantages. Comme on l’a déjà discuté (partie 1.2.2), cela permet:

• De détecter des réarrangements de domaines (fusions, permutations, etc.),

Page 17: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques16

• D’associer plusieurs histoires évolutives à un même gène (fusion de gènes, etc.).

De plus, l’utilisation de profils HMM tels que ceux utilisés par Pfam permet de détecter des

homologies éloignées (séquences divergentes). En effet, les profils HMM sont connus pour

être plus sensibles que les comparaisons de séquences deux à deux (Eddy, 1998) car le profil

est sensible au maintien de la signature du domaine qui accompagne souvent la divergence de

la séquence (i.e. les profils HMM capturent une plus grande diversité de séquence).

1.3 Travaux récents sur les domaines

1.3.1 Les combinaisons de domaines

L’étude des combinaisons de domaines du répertoire protéique actuel est importante tant sur

le plan biochimique pour caractériser la fonction des protéines que sur le plan évolutif pour

reconstruire l’histoire évolutive des gènes qui codent ces protéines. En effet, dans les

protéines multi-domaines, c’est la combinaison des domaines qui détermine la fonction de la

protéine et sur le plan évolutif, toutes les parties d’un gène n’ont pas la même histoire (cf

1.2.2).

Les combinaisons de domaines observées présentent les caractéristiques

suivantes (caractéristiques issues de (Apic et al., 2001 ; Vogel et al., 2005 ; Vogel et al.,

2004a)) :

• L’orientation N-C terminale des combinaisons de domaines est très conservée (90% des

paires de domaines sont toujours dans le même ordre),

• Il existe peu de domaines versatiles (i.e. ayant de nombreux partenaires de combinaison) ;

la plupart des domaines sont en effet observés en combinaison avec un ou deux

partenaires au plus,

• Les combinaisons observées ne représentent qu’une petite partie des combinaisons

possibles ; les mécanismes aboutissant à la création de combinaison de domaines sont

probablement soumis à une forte pression de sélection.

De l’ensemble de ces observations ont été mis en évidence les supra-domaines qui

représentent des combinaisons de deux ou trois domaines qui sont réutilisées dans différents

Page 18: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques 17

contextes protéiques en combinaison avec différents domaines (Vogel et al., 2004a). Ces

éléments ont permis l’établissement du scénario évolutif suivant : la combinaison de

domaines serait un processus aléatoire, certaines combinaisons seraient largement dupliquées

ou disparaîtraient (Vogel et al., 2005). Plus généralement, la création de nouvelles

combinaisons de domaines associée à l’expansion des familles de domaines et certains

mécanismes tels que l’épissage alternatif chez les eucaryotes joueraient un rôle important

dans la complexité croissante des organismes (Vogel et al., 2004b).

1.3.2 Les réseaux d’interactions de domaines

Les domaines protéiques constituent une interface de liaison entre les protéines qui

interagissent ou les protéines d’un même complexe. La nature modulaire des protéines, leur

flexibilité, et leur propriété de liaison ont largement participé à l’évolution des processus

cellulaires (Pawson et al., 2003). Plusieurs travaux ont posé la question des interactions entre

protéines en terme d’interactions entre domaines (Kim et al., 2002 ; Ng et al., 2003 ; Sprinzak

et al., 2001 ; Deng et al., 2002). Ils ont en commun la problématique suivante : étant donnés

une base de données de domaines et des données d’interaction protéine-protéine à grande

échelle, les paires de domaines interagissant fréquemment sont identifiées. Cette identification

permet d’en déduire un modèle de prédiction d’interaction protéine-protéine basé sur la

simple connaissance du contenu en domaines des protéines. De plus, ce modèle précise les

domaines impliqués dans l’interaction. Ces travaux diffèrent cependant dans l’évaluation de la

prédiction des interactions. L’approche la plus courante consiste à attribuer aux paires de

domaines un score proportionnel à leur nombre d’occurrences dans des paires de protéines

interagissant (Kim et al., 2002 ; Ng et al., 2003 ; Sprinzak et al., 2001). D’autres approches

présentent des modèles statistiques d’estimation des probabilités d’interaction entre domaines

tels que Deng et al. (Deng et al. , 2002) et Nye et al. (Nye et al., 2005).

1.3.3 Les réarrangements de domaines

Il existe différents types de réarrangements de domaines qui seront détaillés dans le chapitre

III. Cependant, un réarrangement particulier fait l’objet d’une littérature intéressante : la

permutation circulaire (Lindqvist et Schneider, 1997 ; Uliel et al., 2001 ; Uliel et al., 1999 ;

Weiner et al., 2005). Elle désigne un réarrangement d’une séquence telle que la partie N-

Page 19: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques18

terminale est transférée à l’extrémité C-terminale de la protéine (ou vice versa). La séquence

résultante présente donc un réarrangement non linéaire de la séquence de départ. Soit par

exemple la combinaison ABC qui comprend dans l’ordre les domaines A, B, puis C, la partie

N-terminale A est transférée à l’extrémité C-terminale de la protéine ce qui donne la nouvelle

combinaison BCA. Le cas de deux ADN-polymérases du virus de l’hépatite B illustre ce

réarrangement (cf Figure 2).

Figure 2 : Un cas de réarrangement circulaire entre deux ADN-polymérases du virus de

l’hépatite B

La première polymérase O91514_HBV est constituée de N- en C-terminal des domaines

DNA_pol_viral_N, RVT_1 puis DNA_pol_viral_C alors que la deuxième Q69590_HBV est

constituée des domaines RVT_1, DNA_pol_viral_C puis DNA_pol_viral_N du fait du

réarrangement circulaire de 300 acides aminés (longueur du domaine DNA_pol_viral_N).

Pour cet exemple, l’alignement BLAST (avec les paramètres par défaut) contre la base NR de

O91514_HBV donne une liste des 100 premiers homologues qui ne contient pas

Q69590_HBV d’où la nécessité de mettre au point des procédures dédiées à la détection de ce

type de réarrangements (Uliel et al., 2001 ; Uliel et al., 1999 ; Weiner et al., 2005). La

méthode la plus récente RASPODOM (Weiner et al., 2005) a permis l’analyse de l’histoire

évolutive de ces types de réarrangements et de son lien probable avec la fusion de gènes

(Weiner et al., 2006).

1.3.4 Mes travaux

Dans la suite de ce manuscrit, je présenterai mes travaux concernant les domaines. Je décrirai

trois points généralement étudiés en terme de gènes en les abordant en terme de domaines : la

synténie (Pasek et al., 2005 - Annexe 3), les fusions/fissions (Pasek et al., 2006a - Annexe 4)

et la redondance (Pasek et al., 2006b - Annexe 5). Je m’appliquerai à montrer comment

l’utilisation du domaine comme unité d’homologie a permis d’affiner ces problématiques

Page 20: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Les domaines protéiques 19

habituellement liés aux gènes. Notons que j’ai fait le choix de travailler avec les domaines

de la base de données Pfam (Finn et al., 2006) qui représente un bon compromis entre

exactitude et complétude (cf annexe 1 pour une description de la base de données Pfam) mais

tout autre base aurait pu être utilisée pour mener à bien les travaux décrits ci-après.

Page 21: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Chapitre II : De la synténie de gènes à la

synténie de domaines

Page 22: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines 21

2 De la synténie de gènes à la synténie de domaines

2.1 La synténie de gènes

2.1.1 Définition générale

A l’origine, la synténie désigne la présence simultanée sur le même chromosome de deux ou

plusieurs loci. Aujourd’hui, la notion de synténie est de plus en plus utilisée pour décrire la

conservation du contenu en gènes d’un segment chromosomique entre deux espèces ou plus

(Passarge et al., 1999). On parle aussi de conservation de blocs synténiques ou de groupes de

synténie. Cette notion suppose une conservation de la proximité entre les gènes considérés, la

proximité étant définie relativement à l’ordre des gènes sur le chromosome. Notons que

l'identification d'orthologues potentiels entre les génomes est un préalable à la recherche de

régions synténiques.

On distingue deux types de synténie : la microsynténie et la macrosynténie. Les régions

synténiques des génomes eucaryotes sont souvent définies comme un groupe de deux gènes

ou plus, chacun ayant un orthologue sur le même chromosome dans une autre espèce (cf

figure 3). On parle dans ce cas de macrosynténie (Pevzner et Tesler, 2003 ; Jaillon et al.,

2004). La figure 3 illustre plusieurs macrosynténies entre le chromosome 9 humain et les

chromosomes 2, 4, 13 et 19 de la souris. Considérons par exemple les blocs verts du

chromosome 19 de la souris : les orthologues de ces blocs (reliés par des traits) ne sont pas

contigus sur le chromosome humain. Pour les génomes procaryotes (ou les eucaryotes

inférieurs tels que les levures), on inclut fréquemment une contrainte supplémentaire : la

conservation de la proximité doit être établie sur tous les génomes comparés. On parle alors

de microsynténie ou conservation locale du voisinage génique (von Mering et al., 2003 ;

Bergeron et al., 2002 ; Luc et al., 2003). Dans la suite de ce chapitre, on considèrera

uniquement la microsynténie des génomes procaryotes.

Page 23: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines22

Figure 3 : Un exemple de macrosynténie. Carte des macrosynténies entre le chromosme 9

humain, les chromosomes 2, 4, 13 et 19 de la souris. Les blocs d’une même couleur font

partie d’une même synténie. Chaque bloc est relié à son bloc « orthologue » dans l’autre

espèce par des traits. Image provenant d’ENSEMBL (cf référence internet [2]).

2.1.2 Intérêts en biologie

La structure des génomes bactériens est dynamique : elle est affectée par de nombreux

réarrangements qui modifient l’organisation du chromosome (Casjens, 1998 ; Tillier et

Collins, 2000 ; Omelchenko et al., 2003 ; Rocha, 2004). Etant donnée cette plasticité, toute

conservation locale du voisinage génique est probablement due à une pression de sélection

(Overbeek et al., 1999): par exemple des gènes codant pour des protéines qui interagissent

Page 24: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines 23

physiquement ou qui sont impliqués dans une même voie métabolique ou plus généralement

des gènes soumis à la régulation d’un même promoteur comme les opérons (Marcotte et al.,

1999a ; Marcotte et al., 1999b ; Sali, 1999 ; Galperin et Koonin, 2000 ; Enright et Ouzounis,

2001 ; Suyama et Bork, 2001 ; Korbel et al., 2001 ; Suhre et Claverie , 2004). La détection de

synténies permet donc d’identifier des gènes codant pour des protéines susceptibles d’être

fonctionnellement liés et/ou d’interagir. La synténie permet également d’évaluer et

d’identifier les réarrangements affectant les génomes tels que les transpositions, délétions,

insertions, inversions, fusions et fissions (Sankoff, 2003; Tang et Moret, 2003). Elle constitue

ainsi une mesure phylogénétique.

2.1.3 Définition adoptée

Il existe des définitions plus ou moins souples de la synténie. Certaines considèrent que

l’ordre des gènes et la contiguïté doivent être conservés (Overbeek et al., 1999) mais la

plupart du temps, les définitions autorisent des réarrangements locaux de l’ordre des gènes

tels que insertions, délétions, inversions, transpositions, fusions, etc (Tamames, 2001 ;

Bergeron et al., 2002 ; Calabrese et al., 2003 ; Durand, et Sankoff, 2003 ; Luc et al., 2003).

Dans ce manuscrit, nous nous baserons sur la définition formelle de la synténie telle qu’elle a

été implémentée dans GeneTeam par Bergeron et al. (Bergeron et al., 2002). Le chromosome

est défini comme une séquence ordonnée de gènes (par exemple, les gènes f, u, a et w

représentés figure 4) en considérant uniquement les gènes qui codent pour des protéines et en

attribuant un seul gène à une même séquence nucléique.

Figure 4 : Définition de la synténie sur un chromosome X. Chaque gène est représenté par une

flèche pleine. Les noms des gènes sont indiqués en dessous des gènes, leur position au dessus.

Page 25: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines24

A chaque gène est attribuée une position qui correspond à son ordre d’apparition sur le

chromosome. Ainsi, sur la figure 4, le gène f est à la position 1, u à la position 2, a à la

position 3 et w à la position 4. Notons que les gènes chevauchants (Fukuda et al., 1999) sont

notés contigus relativement à l’ordre de leur position de départ sur le chromosome. La

distance entre deux gènes est défini par la différence entre leur position. Ainsi entre les gènes

w et u, respectivement de position 4 et 2, la distance est de 2 comme illustré figure 4. Pour la

recherche de microsynténies, il est nécessaire de fixer un paramètre appelé delta qui

représente la distance maximale entre deux gènes consécutifs de la synténie. Ainsi, si l’on

considère que le gène a de la figure 4 ne fait pas partie de la synténie qui contient les gènes f,

u et w alors on a autorisé l’insertion d’un gène c’est à dire qu’on a autorisé une distance

maximale d’insertion de 2 représentée par delta. Pour une description de l’algorithme qui

implémente cette définition (Bergeron et al., 2002 ; Luc et al., 2003), voir l’annexe 2.

2.1.4 Limites de cette définition

En pratique, la recherche de synténies nécessite préalablement d’identifier les familles de

gènes orthologues entre tous les génomes comparés. Les principales limitations à la recherche

de synténies sont en réalité liées à cette étape d’identification des orthologues. Les méthodes

traditionnellement utilisées pour identifier les orthologues (comparaison de séquences et

BBHs (Overbeek et al., 1999)) atteignent en effet leurs limites quand les séquences divergent.

Ainsi, plus on veut comparer de génomes et plus il est difficile de construire des familles

d’orthologues entre les génomes ; une seule séquence divergente pouvant briser la chaîne. De

plus, un gène peut être absent d’un des génomes étudiés.

D’autre part, considérer uniquement les orthologues est limitant car une synténie peut-être

dupliquée au sein d’un même chromosome. Pour considérer aussi ces duplications, il faut

ajouter à la recherche des orthologues, celle des paralogues et construire des familles

constituées à la fois d’orthologues et de paralogues. Cependant, dans le cas des gènes qui

codent des protéines multi-domaines il est difficile (ou impossible) de classer le gène dans

une seule famille (Yona et al., 1999). La construction de ces familles suppose donc qu’un

gène peut appartenir à plusieurs familles. Or, dans ce cas, la recherche de synténies donne lieu

à une exploration exponentielle. Aussi, les (rares) outils permettant la recherche de synténies

Page 26: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines 25

dupliquées (de gènes), se limitent pour ces raisons techniques à la comparaison de deux

génomes (He et Goldwasser, 2005).

2.2 La synténie de domaines

2.2.1 Définition adoptée

Au lieu de considérer le gène comme « unité synténique » (Luc et al., 2003), on choisit de

considérer le domaine (Pasek et al., 2005). Chaque gène est divisé en la suite ordonnée de

domaines constituant la protéine pour laquelle il code. A chaque domaine est attribuée une

position sur le chromosome relativement à l’ordre d’apparition sur le chromosome de la

séquence codant le domaine (i.e. relativement à l’ordre des gènes et à l’ordre du domaine dans

le gène tout en tenant compte de son orientation). Notons que lorsque les domaines sont

imbriqués (Bateman et al., 2004), ils sont considérés adjacents relativement à l’ordre

d’apparition de leur position de départ. La distance entre deux domaines est définie par la

différence entre leur position. Le paramètre delta représente la distance maximale autorisée

entre deux domaines consécutifs faisant partie de la synténie. Cette notion est implémentée

dans DomainTeam (Pasek et al., 2005).

La figure 5 représente un exemple de synténie de domaines obtenu avec delta fixé à 3. Cette

synténie traverse quatre organismes (Yersinia pestis, Salmonella typhi, Vibrio cholerae et

Escherichia coli) et est constituée de 5 domaines différents (359, 381, 294, 2379, 2378). Les

numéros indiqués sont des abréviations des numéros d’accession de Pfam avec 359 pour

PF00359, 2378 pour PF02378, etc.

Page 27: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines26

Figure 5 : Un exemple de synténie de domaines : le système phosphotransférase du fructose.

Cette synténie qui traverse Yersinia pestis, Salmonella typhi, Vibrio cholerae et Escherichia

coli contient 3 gènes faisant partie du système phosphotransférase spécifique du fructose.

Cette synténie présente une duplication chez S. typhi. La seconde occurrence de S. typhi

semble ne pas être spécifique du fructose d’après les annotations.

Cette synténie est dupliquée chez S. typhi. La première occurrence contient les mêmes

domaines dans le même ordre que chez Y. pestis sauf que l’ensemble de l’occurrence est dans

le sens inverse (En l’absence du contexte, on ne peut pas préciser s’il s’agit d’une inversion

ou si les génomes ont été séquencés sur des brins différents). Dans la seconde occurrence de

S. typhi, le domaine 294 est dupliqué et inversé. Les deux domaines 294 entourent un

domaine inséré le domaine 1116 . Ce domaine constitue une protéine mono-domaine. Pour

tous ces cas, l’insertion du domaine est équivalent à l’insertion d’un gène et le gène est

spécifié entre « # ». Par rapport aux quatre autres occurrences, on remarque encore une

duplication du domaine 359 et une transposition du domaine 294. D’autre part, l’occurrence

chez V. cholerae présente une duplication du domaine 2379 et celle chez E. coli une

duplication du domaine 294.

Page 28: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines 27

Figure 6 : Un exemple de synténie de domaines : l’opéron tryptophane. Cette synténie qui

traverse les génomes de Anabaena sp., Bacteroides thetaiotaomicron, Escherichia coli,

Salmonella typhi et Yersinia pestis montre de nombreux rérrangements de type fusion de

gènes. Les locus tag des gènes sont indiqués en dessous de chacun d’entre eux. Pour

Bacteroides thetaiotaomicron et Escherichia coli, on a indiqué en plus le nom de chaque gène

au dessus de celui-ci.

Un autre exemple de synténie est représenté figure 6. Cette synténie de domaines, obtenue en

fixant delta à 3, traverse 5 génomes et montre de nombreux réarrangements tels que des

fusions. Cette synténie est en fait une partie de l’opéron tryptophane. On peut remarquer par

exemple le gène trpG de Bacteroides thetaiotaomicron, fusionné avec trpE chez Anabaena

sp. (ALL0414) et avec trpD chez E. coli (trpGD).

2.2.2 Comparaison de la synténie de domaines avec la synténie de gènes

Nous avons étudié la sensibilité comparée de la synténie de gènes et de la synténie de

domaines en utilisant la définition de GeneTeam (Luc et al., 2003), pour le premier et de

DomainTeam (Pasek et al., 2005) pour le second. Les deux algorithmes implémentent la

même notion de synténie mais avec comme unité le gène pour GeneTeam et le domaine pour

DomainTeam. Les deux algorithmes ont été appliqués aux génomes d’E.coli, de Y. pestis et de

V. cholerae en fixant dans les deux cas le paramètre delta à 3 (autorisant une insertion de 2

Page 29: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines28

gènes ou de 2 domaines consécutifs). A partir des résultats ainsi obtenus, on a dessiné la carte

du chromosome d’E. coli en indiquant en rouge les gènes d’E. coli qui font partie d’une

synténie à la fois avec Y. pestis et V. cholerae, les autres gènes étant en bleu.

Figure 7 : Sensibilité comparée de la synténie de gènes et de la synténie de domaines. Carte

du chromosome d’E.coli. Les gènes faisant partie d’une synténie sont indiqués en rouge, les

autres en bleu. Le cercle intérieur représente les résultats de DomainTeam (synténie de

domaines) tandis que le cercle extérieur représente ceux de GeneTeam (synténie de gènes).

En vert sont représentés les plus grandes régions synténiques respectivement pour GeneTeam

et DomainTeam.

Chaque méthode a permis de dessiner une carte. Les 2 cartes sont représentées de manière

concentrique dans la figure 7 où le cercle intérieur représente les résultats de DomainTeam

tandis que le cercle extérieur représente les résultats de GeneTeam. Si les régions synténiques

identifiées coïncident la plupart du temps, celles obtenues avec DomainTeam sont plus

grandes et plus nombreuses. Les plus grandes synténies identifiées (représentées en vert sur

les cartes) contiennent 31 et 26 gènes respectivement pour DomainTeam et GeneTeam. En

Page 30: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines 29

tout, les régions synténiques représentent 2207 gènes (52% des gènes de E. coli) et 1662

gènes (40%) respectivement pour DomainTeam et GeneTeam. La synténie de domaine est

donc plus sensible que la synténie de gènes. Cette différence peut être expliquée par trois

raisons liées à l’utilisation des domaines :

(i) Le domaine est une unité d’homologie moins stricte que le gène permettant de tenir

compte d’homologies éloignées (cf 2.1.4).

(ii) La synténie de domaines tient compte des réarrangements de domaines (insertion,

délétion, duplication, fusion) en plus des réarrangements de gènes. Par exemple, la

présence d’une fusion de gènes/domaines n’est pas comptée comme une insertion dans

le cas de la synténie de domaines alors que la vision en gènes la pénalise d’une

insertion. En effet, considérons la figure 6 : le gène trpG de Bacteroides

thetaiotaomicron est fusionné avec trpD chez E. coli. En terme de synténie de

domaines il n’y a donc aucune insertion de domaine dans ce cas. Par contre, en

raisonnant en gènes, on aurait estimé que l’orthologue de trpD chez B.

thetaiotaomicron est trpGD chez E. coli (du fait du BBH) et on n’aurait attribué aucun

orthologue au gène trpG de B. thetaiotaomicron. Celui-ci aurait donc compté pour une

insertion dans la synténie.

(iii) Le domaine permet la recherche de synténies dupliquées sans donner lieu à une

recherche exponentielle puisqu’un domaine appartient à une famille et une seule. Le

repérage de synténies de domaines dupliquées permet donc de comparer

simultanément plus de deux génomes (cf 2.1.4 et figure 5).

Notons que comme DomainTeam recherche toutes les synténies de domaines, certaines

synténies contenant par exemple des domaines versatiles peu spécifiques ne sont pas très

intéressantes. Un score a été mis au point qui permet d’évaluer la pertinence de chaque

synténie de domaines. Ce score tient compte du nombre de gènes par occurrence, du nombre

de domaines distincts, de la fréquence des domaines observés (cf Annexe 2).

2.3 Conclusions

De nombreux réarrangements affectent les génomes. Ces réarrangements ne se limitent pas

aux bornes des gènes. Ils concernent en effet aussi bien des gènes (ou groupes de gènes) dans

Page 31: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la synténie de gènes à la synténie de domaines30

leur totalité que des parties de gènes ou domaines. Les synténies désignent des segments

chromosomiques dont le contenu en gènes est conservé d’une espèce à l’autre tout en

autorisant un certain nombre de réarrangements locaux. En recherchant des synténies de

domaines plutôt que des synténies de gène, on détecte en plus les synténies qui

s’accompagnent de réarrangements concernant des parties de gènes ou domaines. De plus, en

raisonnant en domaines plutôt qu’en gènes, on s’affranchit de l’étape de détection des gènes

orthologues – ou bien de la recherche des familles de gènes homologues. Or les principales

limitations à la détection des synténies sont souvent liées à ces étapes.

Page 32: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Chapitre III : De la fusion de domaines à la

fusion de gènes

Page 33: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes32

3 De la fusion de domaines à la fusion de gènes

3.1 Les réarrangements de domaines

3.1.1 Définitions et état de l’art

On définit l’architecture multi-domaine d’une protéine comme la suite ordonnée de ses

domaines de N- vers C- terminale. Pour désigner une architecture de domaines, on parle aussi

parfois de combinaison de domaines. Les différentes combinaisons de domaines ont été

étudiées (Apic et al., 2001 ; Vogel et al., 2004a ; Vogel et al., 2005) et comme on l’a déjà

décrit dans le chapitre 1 (partie 1.3.1), ces travaux ont mis en évidence une grande

conservation de l’ordre des domaines dans les architectures, l’existence de couples et de

triplets de domaines rencontrés préférentiellement ensemble (les supra-domaines), l’absence

ou la sur-représentation de certaines combinaisons. L’ensemble de ces travaux suggèrent que

la création des architectures multi-domaines n’est pas un phénomène aléatoire. Les différents

réarrangements de domaines ont également fait l’objet de travaux récents (Björklund et al.,

2005 ; Weiner et al., 2006b). On désigne par réarrangement de domaines tout mécanisme

susceptible de modifier le contenu en domaines où l’ordre des domaines d’une architecture

multi-domaine. Une littérature particulièrement abondante concerne les réarrangements de

type permutation circulaire (Lindqvist et Shneider, 1997 ; Uliel et al., 1999 ; Uliel et al.,

2001 ; Weiner et al., 2005) et a déjà été décrite dans le chapitre 1 (partie 1.3.3).

3.1.2 Classification des différents types de réarrangements

Les différents types de réarrangements élémentaires sont représentées Figure 8. La

classification utilisée ici est la même que celle établie par Björklund et al. (Björklund et al.,

2005). Elle comprend les trois classes décrites ci-après:

(i) La substitution de domaine désigne l’échange d’un domaine par un autre,

Page 34: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 33

(ii) L’indel ou insertion/délétion désigne l’insertion (resp. la délétion) d’un domaine

différent des domaines adjacents au point d’insertion dans l’architecture de domaines,

(ii) La répétition désigne l’addition d’un domaine identique à l’un des domaines adjacents

au point d’addition dans l’architecture de domaines.

Figure 8 : Les différents types de réarrangements élémentaires

Notons que les événements de type indels et répétitions peuvent chacun être subdivisés en

deux catégories qui dépendent de la position de l’insertion/délétion du domaine ou de la

répétition. Ainsi, on distingue les insertions internes et terminales, comme représentées Figure

9, et les répétitions internes et terminales.

Figure 9 : Les indels internes et terminaux.

Page 35: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes34

Outre les réarrangements élémentaires pour lesquels on passe d’une architecture multi-

domaines à une autre par un seul des événements présentés ci-dessus (substitution, indel,

répétition), on distingue également des réarrangements complexes. On fait en général

l’hypothèse que tout réarrangement complexe est une combinaison de réarrangements

élémentaires décrits ci-dessus. Par exemple, les permutations circulaires présentées dans la

partie 1.3.3 font partie de la catégorie des réarrangements complexes. Un des mécanismes

proposés par Weiner et al. est représenté Figure 10 (Weiner et al., 2005). Il met en jeu une

duplication des trois domaines d’un gène suivie de trois délétions de domaines (domaines A,

B et C) suivis des insertions des codons d’initiation et de terminaison adéquats.

Figure 10 : Un mécanisme possible de permutation circulaire. I-CP : intermédiaire de

permutation circulaire, CP : permutation circulaire. Figure extraite de Weiner et al. 2005.

3.1.3 Problématique

Les réarrangements de domaines que l’on constate découlent de mécanismes qui interviennent

au niveau de la molécule d’ADN tels que les recombinaisons. On se pose ici la question des

mécanismes qui sont à l’origine des réarrangements constatés.

3.2 Mécanismes d’évolution des protéines multi-domaines

Chez les bactéries, trois mécanismes sont supposés être à l’origine de la création de nouvelles

architectures de domaines : la recombinaison homologue à l’intérieur d’un domaine

(O’Sullivan et al., 2000), la recombinaison au niveau de séquences inter-domaines

Page 36: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 35

particulières (de Château et Bjorck, 1994 ; de Château et Bjorck, 1996) et la fusion/fission

de gènes (Riley et Labedan, 1997; Yanai et al., 2001; Le Bouder-Langevin et al., 2002).

3.2.1 La recombinaison intra-domaine

O’Sullivan et ses collègues ont montré, chez Lactococcus lactis, que deux nouveaux hybrides

du gène hsdS ont évolué par recombinaison homologue entre deux gènes hsdS possédant des

architectures multi-domaines différentes (O’Sullivan et al., 2000). Deux plasmides de L.

lactis contenant chacun un déterminant hsdS sont représentés Figure 11. Chaque gène est

constitué d’un domaine central très conservé (le domaine B) et de deux domaines variables N-

et C- terminaux A, C et D, E respectivement pour le plasmide 1 et le plasmide 2. Une

recombinaison homologue entre les domaines conservés (B) des deux gènes a conduit à la

création de deux nouveaux déterminants hsdS présentant chacun des architectures multi-

domaines différentes de celles des gènes parentaux. Les deux gènes ont échangés les

domaines variables N- et C- terminaux résultant en la création des architectures multi-

domaines DBC et ABE. Notons que cette recombinaison s’accompagne d’une cointégration

des plasmides 1 et 2 formant ainsi le plasmide 3 pour lequel l’ordre des gènes est bouleversé

au voisinage des gènes recombinés.

Page 37: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes36

Figure 11 : Recombinaison intra-domaine entre deux déterminants hsdS de deux plasmides de

L. lactis.

3.2.2 La recombinaison inter-domaine

De Château et Björck ont identifié des séquences interdomaines particulières (appelées recer

pour recombination spacer) qui sont probablement à l’origine de l’évolution de la famille des

protéines « mosaïques » PAB (protéine se liant à l’albumine) chez différentes souches de

Page 38: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 37

Peptostreptococcus magnus (de Château et Bjorck, 1994 ; de Château et Bjorck, 1996).

D’après leur travail, ces séquences constituent des lieux privilégiés de recombinaison à

l’origine du brassage des domaines dans certaines familles de protéines multi-domaines

bactériennes.

3.2.3 La fusion/fission de gènes

La fusion de gènes est un mécanisme qui aboutit à la concaténation de deux gènes pour en

faire un seul. Sur le plan protéique, elle se traduit par la concaténation des architectures multi-

domaines des deux protéines qui fusionnent. Considérons de nouveau l’exemple du gène de

biosynthèse du tryptophane d’E. coli trpC(F) représenté Figure 1 du chapitre 1 (partie 1.2.2).

Ce gène est issu de la fusion des gènes trpC et trpF tels que présents par exemple chez B.

subtilis où le gène trpC code pour une indole-3-glycerol phosphate synthase constituée du

domaine IGPS et le gène trpF pour une anthranilate isomérase constituée du domaine PRAI.

Le gène de fusion trpC(F) code pour une enzyme qui assure les deux fonctions et dont

l’architecture multi-domaine est constituée à la fois du domaine IGPS et du domaine PRAI.

La fission constitue le phénomène inverse de la fusion et conduit à la division d’un gène en

deux autres gènes. Notons que, en présence à la fois de la forme fissionnée du gène dans un

génome et de sa forme fusionnée dans un autre génome, il est difficile, la plupart du temps, de

faire l’hypothèse d’une fusion plutôt que d’une fission ou inversement. Des études basées sur

des méthodes de parcimonie ont permis d’orienter dans certains cas le mécanisme et ont

conclu que les fusions sont en moyenne quatre fois plus fréquentes que les fissions

(Kummerfeld et Teichmann, 2005).

Les mécanismes à l’origine de la fusion/fission de gènes ne sont pas clairement établis.

Cependant, Yanai et al. ont émis l’hypothèse raisonnable que l’évolution des gènes fusionnés

passe par un état intermédiaire où les gènes coexistent juxtaposés et non fusionnés sur le

génome (Yanai et al., 2002). On imagine aisément que la simple délétion d’un codon stop

permet de réunir deux cadres de lecture voisins en un seul. De même, l’insertion d’un codon

stop permet de couper un cadre de lecture en deux. Les mécanismes conduisant à cette

insertion/délétion peuvent être dus, par exemple, à la mutation d’une base ou à une

recombinaison illégitime tel que le « slippage » (Viguera et al., 2001) sans pour autant que

cela ait été mis en évidence. Quoiqu’il en soit, ce mécanisme intervient au niveau d’une

Page 39: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes38

séquence séparant deux gènes voisins et plusieurs études ont souligné l’implication de la

fusion de gènes dans la création de nouvelles architectures multi-domaines (Yanai et al.,

2001 ; Riley et Labedan, 1997).

3.3 La fusion/fission de gènes, un mécanisme majeur de l’évolution

des protéines multi-domaines

Notre objectif est de mettre en relation les réarrangements de domaines que l’on constate et

les mécanismes qui en sont à l’origine. La première étape consiste donc à collecter des

protéines ayant subi un réarrangement de domaines.

3.3.1 Cribler des réarrangement de domaines

Pour cribler les réarrangements de domaines, il faut d’abord identifier des protéines ayant subi

un tel réarrangement. Ces protéines doivent par ailleurs partager une histoire évolutive

commune (être codées par des gènes homologues), l’une ayant subi un réarrangement

élémentaire de domaines par rapport à l’autre. Or, les outils communément utilisés pour

détecter les homologues ne tiennent généralement pas compte des protéines ayant subi un

réarrangement de domaines (cf chapitre 1). D’autre part, se baser uniquement sur les

architectures multi-domaines pour détecter des réarrangements de domaines pourrait conduire

à mettre en rapport des protéines qui ne partagent une histoire évolutive que très lointaine. Par

exemple, considérons deux protéines p1 et p2 d’architecture de domaines AC et ABC

respectivement. En se basant exclusivement sur l’architecture des domaines des deux

protéines, on pourrait penser qu’un indel interne du domaine B est intervenu entre p1 et p2.

Cependant, si p1 et p2 ne partagent une histoire évolutive que très lointaine et qu’il existe une

autre protéine p3 d’architecture AB évolutivement plus proche de p2, on pourrait cette fois

penser qu’un indel terminal du domaine C est survenu entre p2 et p3. C’est pour éviter ce

genre de problèmes qu’on a choisi de cribler les protéines ayant subi un réarrangement de

domaines uniquement parmi des protéines évolutivement proches. Dans ce but, nous avons

utilisé le contexte synténique pour s’assurer des relations d’homologie.

Page 40: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 39

Le contexte synténique a été défini en utilisant la synténie de domaines décrite dans le

chapitre 2. Les synténies ont été obtenues pour un ensemble de 13 bactéries Gram+ et de 15

bactéries Gram- en fixant delta à 2 (cf définition de delta dans le paragraphe 2.1.3). Seules les

synténies présentant un score supérieur à 90 ont été considérées (voir annexe 2 pour une

définition du score). Pour s’assurer de l’homologie entre les protéines qu’on considère, on

impose que les protéines appartiennent à deux occurrences distinctes d’une même synténie de

domaines. Les liens d’homologie sont attribués comme illustré dans la Figure 12 qui présente

une synténie de domaines de deux occurrences : une chez Haemophilus influenzae, l’autre

chez Vibrio cholerae. Pour chaque synténie de domaines, les occurrences sont comparées

deux à deux. Pour chaque protéine d’une occurrence, on recherche son homologue dans

l’autre occurrence tel que le couple de protéines homologues possède des architectures de

domaines présentant la plus grande similarité3 dans la synténie. Si ces architectures ne sont

pas exactement identiques, c’est que l’une des protéines a subi un réarrangement de domaines

et si ce réarrangement est de type élémentaire, alors il est comptabilisé. Dans la Figure 12, les

couples d’homologues sont indiqués par des flèches. Ainsi, HI0140 est l’homologue de

VC1783 car les protéines codées par ces gènes présentent la même architecture de domaines.

HI0147 et VC1777 sont aussi détectés comme homologues. En effet, bien que leurs

architectures de domaines ne soient pas identiques, elles présentent la meilleure similarité

dans la synténie car 2 domaines sur 3 sont identiques. Dans ce dernier cas, il s’agit

d’homologues ayant subi un réarrangement de domaines et d’après la classification présentée

dans la partie 3.1.2, il s’agit d’un indel terminal. Notons qu’un gène a au plus un homologue

dans la synténie et qu’il peut n’en avoir aucun. Ainsi, le gène VC1778 présente une similarité

d’un domaine sur trois avec HI0147 et une similarité nulle avec tous les autres gènes de la

synténie. Comme HI0147 partage une plus grande similarité avec VC1777 qu’avec VC1778,

il a déjà un homologue. On n’affecte donc aucun homologue à VC1778 dans la synténie.

Les caractéristiques générales des synténies de domaines identifiées ici figurent dans le

tableau 1. Sur un total de 28 bactéries considérées, 8491 synténies de domaines ayant un score

supérieur à 90 ont été retenues. 59852 gènes sont inclus dans ces synténies sur un total de

3 On défint la similarité entre deux architectures de domaines comme le rapport entre le nombre de domaines

communs entre les deux architectures et le nombre de domaines qui composent la plus grande architecture des

deux.

Page 41: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes40

85890 gènes, ce qui signifie qu’on comptabilise les réarrangements de domaines pour 70%

des gènes des 28 bactéries considérées. La méthode décrite ci-dessus a été appliquée à ces

synténies et tous les réarrangements élémentaires de domaines comptabilisés.

Page 42: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 41

Figure 12 : Une synténie de domaines à deux occurrences chez H. influenzae et V. cholerae.

Les couples de gènes homologues sont indiqués par des flèches doubles.

Page 43: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes42

15 Gram- 13 Gram+ 28 bactéries

Nombre de gènes 50076 35814 85890

Nombre de synténies de domaines 5115 3376 8491

Nombre de gènes synténiques 35129 24723 59852

Nombre de gènes insérés 1870 1440 3310

Tableau 1 : Les données synténiques. 8491 synténies de domaines ayant un score supérieur à

90 ont été retenues. Un gène est dit synténique s’il appartient à une synténie de domaines :

c’est le cas de 59852 gènes soit 70% des gènes des 28 bactéries considérées. Un gène inséré

est un gène situé dans une synténie de domaines, dont les domaines ne font pas partie de la

synténie (domaines insérés).

3.3.2 Importance quantitative des différents réarrangements élémentaires

141 ensembles de protéines, chacun contenant au moins une protéine ayant subi un

réarrangement de domaines, ont été identifiés. La distribution des différents réarrangements

élémentaires de domaines comptabilisés est représentée dans le tableau 2. Notons qu’afin de

rendre compte de la position interne ou terminale des indels et des répétitions, nous avons

écarté toutes les protéines mono-domaines de notre étude.

Page 44: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 43

15 Gram- 13 Gram+ 28 bactéries

Substitution 6 4 10

Indel 55 40 95

interne 2 3 5

terminal 53 37 90

Répétition 21 15 36

interne 1 1 2

terminale 20 14 34

Tableau 2 : Distribution des différents types de réarrangements élémentaires de domaines.

On constate que les substitutions sont rares (10/141), que les événements les plus fréquents

sont des indels (95/141) et qu’ils sont majoritairement terminaux (90/95). De même, les

répétitions sont majoritairement terminales (34/36). Notons que Björklund et al. avaient déjà

remarqué dans une autre étude la sur-représentation des indels terminaux (Björklund et al.,

2005). Cette sur-représentation a également été confirmée plus tard par Weiner et al. (Weiner

et al., 2006b).

3.3.3 Identification d’un mécanisme majeur

Nous avons essayé d’identifier le mécanisme à l’origine de ces indels terminaux. Une

étude des contextes synténiques de ces indels terminaux nous a permis de remarquer que

certains d’entre eux étaient en contexte de « fusion/fission évidente ». C’est à dire qu’en

fusionnant un gène et son voisin, on reconstitue l’architecture multi-domaines de la plus

grande des deux protéines affectées par l’indel terminal. On parle de fusion/fission évidente

car dans ce cas la présence des gènes juxtaposés non fusionnés dans un génome et de

l’homologue fusionné dans un autre est une trace claire que la fusion/fission est responsable

du réarrangement de domaines constaté (Yanai et al., 2002). Un cas de « fusion/fission

évidente » est représenté Figure 12 où les gènes HI0147 et VC1777 ont été détectés comme

ayant été affectés par un indel terminal. Dans ce cas, la fusion des architectures multi-

domaines des protéines codées par les gènes VC1777 et VC1778 reconstitue l’architecture

Page 45: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes44

multi-domaine de la protéine codée par le gène HI0147. On a ainsi comptabilisé 38 cas de

« fusions/fissions évidentes » parmi les 90 indels terminaux. 42% des indels terminaux sont

donc clairement dus à des fusions/fissions. Ainsi, on estime qu’au moins 27% des

réarrangements de domaines (38/141) sont dus à des fusions/fissions de gènes.

Pour les 52 indels terminaux restants, nous nous sommes demandés si la fusion/fission de

gènes pouvait être responsable du réarrangement et nous avons imaginé le scénario représenté

Figure 13. Cette figure représente une synténie de domaines entre les génomes 1, 2 et 3. A

l’étape a, un gène s’insère dans l’occurrence du génome 1 de la synténie. Notons que ces

événements sont fréquents : comme indiqué dans le tableau 1, 40% (3310/8491) des synténies

de domaines étudiées contiennent un gène inséré. Ce gène inséré est conservé (étape b) puis

fusionne avec l’un de ses voisins (étape c). Dans ce cas, l’indel terminal observé est dû à une

fusion sans pour autant qu’il reste une trace des gènes juxtaposés non fusionnés dans un des

génomes considérés. A l’inverse, un gène peut fissioner et s’exciser ou subir une délétion de

telle sorte qu’il n’y a plus de trace des éléments juxtaposés fissionnés. En conséquence, si on

suppose que tous les indels terminaux sont dus à de la fusion/fission de gènes, la

fusion/fission est à l’origine 64% (90/141) des réarrangements élémentaires. Finalement, on

estime que la fusion/fission de gènes contribue entre 1/3 et 2/3 à la création de nouvelles

architectures de domaines. On en déduit donc qu’il s’agit d’un mécanisme majeur de la

création de nouvelles architectures multi-domaines.

Page 46: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes 45

Figure 13 : Synténie de domaines entre les génomes 1, 2 et 3 et scénario en 3 étapes (a, b, c)

montrant que la fusion/fission de gènes peut être à l’origine des indels terminaux sans être en

contexte de « fusion/fission évidente ».

3.4 Conclusions

Les nouveaux gènes sont principalement créés par duplication suivie de la divergence d’une

des copies du gène. Cependant, d’autre mécanismes conduisent à la création de gènes

originaux . Parmi eux, on distingue les réarrangements impliquant des morceaux de gènes. Ce

mécanisme est connu chez les organismes eucaryotes sous le terme de brassage d’exons ou

brassage de domaines car il conduit à la création de nouvelles combinaisons de domaines. A

travers ce travail, nous avons montré que, chez les bactéries, on constate également des

réarrangements entre différents morceaux de gènes : ceux qui codent pour des domaines.

Page 47: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la fusion de domaines à la fusion de gènes46

Nous avons mis en évidence qu’un des mécanismes majeurs à l’origine de la création de

nouvelles combinaisons de domaines est lié au jeu des fusions/fissions de gènes.

Page 48: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Chapitre IV : De la redondance en gènes à la

redondance en domaines

Page 49: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines48

4 De la redondance en gènes à la redondance en

domaines

4.1 La redondance en gènes

4.1.1 La robustesse génétique et les mécanismes de compensation

La plupart des délétions de gènes n’ont pas de conséquence phénotypique identifiable sur

l’organisme. Ce comportement en réponse à la délétion est dû à l’existence de mécanismes de

compensation qui constituent la robustesse génétique de l’organisme. On distingue deux

mécanismes de compensation qui expliquent la robustesse génétique : (i) le recrutement de

voies métaboliques ou réseaux secondaires et (ii) la complémentation fonctionnelle par

l’intermédiaire de gènes dupliqués (ou paralogues) (Wagner, 2000 ; Gu et al., 2003 ; Gu,

2003). Dans le premier cas, c’est la réorganisation des réseaux qui compense la perte de la

fonction assurée par le gène qui a subi la délétion. Dans le deuxième cas, la présence d’un

gène dupliqué compense la perte de fonction car si l’une des copies est inactivée, l’autre copie

qui assure la même fonction ou une fonction très similaire compense l’activité perdue. Pour ce

deuxième mécanisme de compensation, on parle aussi de redondance en gènes.

4.1.2 Une littérature abondante et polémique

De nombreux travaux ont mis en évidence l’importance de l’un ou l’autre de ces deux

mécanismes de compensation, ou encore discutent leur importance relative. Par exemple,

d’après Wagner, la réorganisation des réseaux métaboliques est un mécanisme de

compensation au moins aussi important (voire plus important) que la redondance en gène

(Wagner, 2005). He et Zhang, de leur côté, pensent que la contribution à la robustesse de la

redondance en gènes est un mécanisme dont l’importance est surestimée (He et Zhang, 2006a

; He et Zhang, 2006b).

Page 50: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines 49

4.1.3 Les expériences de robustesse génétique aux mutations nulles chez

S.cerevisiae

De nombreux travaux traitant de la robustesse génétique utilisent les résultats de l’expérience

à grande échelle décrite ci-après (Steinmetz et al., 2002). Chez S. cerevisiae, on dispose d’une

collection de mutants. Plus précisément, on dispose de 4706 mutants, chacun correspondant à

la délétion d’un gène et de 1060 expériences de délétion pour lesquelles on n’a pas de mutant

car la délétion du gène est létale. Les 4706 mutants sont testés dans 5 conditions de croissance

différentes (aérobies et anaérobies) et pour chacune de ces 5 conditions une mesure de la

« fitness » f de l’organisme pour son milieu est évaluée. Cette « fitness » est un taux de

croissance. Elle tient compte de la capacité de survie et de reproduction de la souche mutante

considérée par rapport à la moyenne de toutes les souches. Par définition, on fixe f = 0 si la

délétion est létale et f = 1 s’il n’y a pas de différence entre la « fitness » du mutant et la

« fitness » moyenne des individus sauvages. Pour chaque gène, on définit f min comme étant la

plus petite des 5 mesures de « fitness » obtenues dans chacune des 5 conditions testées. En

fonction de ces mesures, les gènes sont classés en 4 catégories (Gu et al., 2003) :

(i) f min > 0,95 : classe FAIBLE i.e. gène dont la délétion a peu ou pas d’effet sur le

phénotype,

(ii) 0,8 ≤ f min < 0,95 : classe MODERE i.e. gène dont la délétion a un effet modéré sur le

phénotype,

(iii) 0 < f min < 0,8 : classe IMPORTANT i.e. gène dont la délétion a un effet important sur

le phénotype,

(iv) f = 0 : classe LETAL i.e. gène dont la délétion a un effet létal sur le phénotype.

A partir de ce classement, on peut étudier la distribution des « fitness » pour des gènes

regroupés selon les caractéristiques que l’on veut tester. Notons que l’interprétation de ces

expériences est un point discutable. Par exemple, Papp et al. montrent que la plupart des

gènes dont la délétion a peu ou pas d’effet sur le phénotype, ont un comportement à la

délétion tout à fait différent (et non anodin) en dehors des conditions expérimentales (i.e. dans

un milieu naturel) (Papp et al., 2004). Autrement dit, les 5 conditions testées en laboratoire ne

Page 51: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines50

reflètent pas l’ensemble des conditions environnementales dans lesquelles certains gènes

peuvent exercer leur spécificité.

4.1.4 La redondance en gène à travers les travaux de Gu et al.

A partir des résultats des expériences de robustesse précédemment décrites (partie 4.1.3), Gu

a mis en évidence l’importance des gènes dupliqués dans la robustesse aux mutations nulles.

Il a comparé les distributions des gènes dupliqués et des gènes singletons en fonction des

différentes classes de délétion (impact faible, modéré, important ou létal sur le phénotype).

Ces deux ensembles sont définis à partir de critères d’alignement de séquences entre

protéines. Toutes les protéines de S. cerevisiae sont alignées les unes avec les autres en

utilisant blast. Un gène dupliqué est défini comme un gène codant pour une protéine

présentant un alignement avec au moins une autre protéine tel que :

(i) L’alignement couvre plus de 50% de la plus grande des deux protéines,

(ii) Le pourcentage d’identité de l’alignement est supérieur à 30%.

Un singleton est défini comme un gène codant pour une protéine ne présentant aucun

alignement ayant une E-value inférieure à 0,1 avec les autres protéines de l’organisme. Les

distributions sont représentées sur la Figure 14. On peut remarquer que la proportion de gènes

dupliqués pour lesquels la délétion a peu ou pas d’effet sur le phénotype est plus importante

que celle des singletons (dupliqués : 64%, singletons : 40%). A l’inverse, la proportion de

singletons pour lesquels la délétion est létale est plus importante que celle des gènes dupliqués

(singletons : 29%, dupliqués : 12%). L’analyse statistique des 2 distributions confirme la

différence entre les distributions.

Page 52: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines 51

Figure 14 : Distribution comparée des gènes dupliqués et des singletons en fonction des 4

classes de délétion. Figure extraite de Gu et al. (2003). Role of duplicate genes in genetic

robustness against null mutations. Nature 421, 63-66.

4.2 La redondance en domaines

4.2.1 Problématique liée à la duplication partielle de gènes

Si le travail de Gu a mis en évidence la différence de robustesse entre les gènes dupliqués et

les singletons, on se pose ici la question de la robustesse des gènes dupliqués partiels. Un

dupliqué partiel peut être défini comme un gène constitué de copies de morceaux d’autres

gènes. Ce gène peut provenir d’une duplication partielle ou complète d’un autre gène et avoir

subi des réarrangements (fusions/fissions, duplications internes, etc.). Considérons par

exemple le scénario de la Figure 15. Un gène G1 constitué des morceaux vert, rouge et bleu se

duplique entièrement créant ainsi un nouveau gène G2, copie du premier, constitué des mêmes

morceaux vert, rouge et bleu. La copie ainsi créée fissionne ensuite entre les morceaux rouge

et bleu créant ainsi deux nouveaux gènes : G3 constitué des morceaux vert et rouge et G4

constitué du morceau bleu. G1 est un dupliqué partiel puisqu’il est constitué d’une copie de G3

Page 53: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines52

et d’une copie de G4. De même G3 et G4 sont des dupliqués partiels car ils sont constitués de

copies de parties de G1.

Figure 15 : Scénario de duplication puis de fission d’un gène illustrant la création d’un gène

dupliqué partiel (i.e. constitué de copies de morceaux d’autres gènes).

Les gènes issus de permutation circulaire (cf partie 1.3.1) sont aussi un exemple de dupliqués

partiels. De même que Gu s’est intéressé à la robustesse des gènes dupliqués, on se pose ici la

question de la robustesse des dupliqués partiels. Si le gène G1 est inactivé, on peut imaginer

que l’interaction entre les gènes G3 et G4 puisse compenser la perte d’activité. A l’inverse, si

le gène G3 ou le gène G4 est inactivé, leur activité pourrait être restaurée par le gène G1 qui

contient des copies des morceaux ayant subi une délétion.

4.2.2 Mise en évidence d’un nouveau mécanisme de compensation

4.2.2.1 Définition de trois classes de gènes

Détecter des dupliqués partiels à partir d’alignements de séquences n’est pas trivial. En effet,

la taille des protéines à aligner peut varier considérablement (cas des fusions/fissions) et

l’ordre des morceaux n’est pas strictement conservé (cas de la permutation circulaire). Nous

avons donc pris le parti de considérer les domaines comme unité représentant nos morceaux

de gènes. Basé sur la décomposition en domaines PfamA des protéines, on définit alors 3

classes de gènes :

(i) Les dupliqués,

(ii) Les dupliqués partiels,

Page 54: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines 53

(iii) Les singletons.

Ces 3 classes de gènes sont définis comme suit :

(i) Les gènes dupliqués présentent la même architecture de domaines,

(ii) Un singleton contient au moins un domaine qui n’apparaît dans aucune autre protéine

de l’organisme considéré,

(iii) Un dupliqué partiel n’a pas de dupliqué et est constitué de domaines qui appartiennent

à d’autres protéines.

L’exemple représenté Figure 16 illustre ces définitions. Un protéome composé des protéines

P1, P2, P3 et P4 y est représenté. Pour chaque protéine est figurée sa décomposition en

domaines (A, B, C ou E).

Figure 16 : Définition des trois classes de gènes : Dupliqués, dupliqués partiels et singletons.

P4 est un singleton car il contient le domaine E qui n’appartient à aucune autre protéine du

protéome. P1 et P2 sont des dupliqués car ils contiennent exactement la même suite ordonnée

de domaines. P3 est un dupliqué partiel car il n’a pas de dupliqué mais est constitué du

domaine A qui apparaît dans d’autres protéines (P1, P2 et P4) et du domaine C qui apparaît

dans P4.

Page 55: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines54

4.2.2.2 Intérêts de cette définition

Cette définition basée sur les domaines a deux intérêts principaux. Tout d’abord, comme les

profils HMM utilisés pour détecter les domaines sont plus sensibles que les alignements de

séquences deux à deux (Eddy, 1998), les homologies détectées peuvent être plus éloignées.

Ainsi notre ensemble de gènes dupliqués est plus large que celui de Gu (Gu et al., 2003). Il

contient à la fois les dupliqués de Gu, qu’on appelle les dupliqués proches, et des dupliqués

plus anciens qui présentent une homologie plus distante qu’on appelle les dupliqués distants.

Les gènes dupliqués que nous avons définis peuvent donc être divisés en deux catégories :

(i) Les dupliqués proches détectables par alignement de séquence et qui ont la même

architecture de domaines et,

(ii) Les dupliqués distants non détectables par alignement de séquence mais qui ont tout

de même la même architecture de domaines.

Par ailleurs, l’utilisation des domaines conduit à envisager la problématique initiale en des

termes plus larges. Tout comme l’étude des gènes dupliqués revient à étudier la redondance

en gènes, l’étude des dupliqués partiels revient ici à étudier la redondance en domaines et son

rôle en tant que mécanisme de compensation.

4.2.2.3 La redondance en domaines : un mécanisme de compensation

Le protéome de S. cerevisiae a été divisé en trois ensembles de gènes (singletons, dupliqués

partiels et dupliqués) dont on a comparé deux à deux les distributions des différentes classes

de délétions. Ces distributions sont représentées Figure 17.

Page 56: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines 55

Figure 17 : Distribution comparée des gènes singletons, des dupliqués partiels et des

dupliqués en fonction des 4 classes de délétions (faible, modéré, important, létal).

Dans un premier temps, on peut remarquer que ces résultats confirment ceux obtenus par Gu

et al. (Gu et al., 2003). D’une part, la proportion de gènes dupliqués pour lesquels la délétion

a peu ou pas d’effet sur le phénotype est supérieure à celle des singletons (dupliqués : 56%,

singletons : 31%). D’autre part, la proportion de singletons pour lesquels la délétion est létale

est supérieure à celle des gènes dupliqués (singletons : 45%, dupliqués : 23%). Cependant,

cette expérience met également en évidence que les dupliqués partiels ont une robustesse

intermédiaire (faible :43%, létal : 34%). L’analyse statistique des distributions deux à deux

confirme la différence entre les distributions. On estime en outre que la contribution de la

redondance en domaines à la robustesse génétique est comprise entre 10% et 37%. La

redondance en domaines est donc un mécanisme de compensation plus faible que la

redondance en gènes mais d’une importance non négligeable.

4.2.2.4 Robustesse des dupliqués distants

Nous avons divisé l’ensemble des gènes dupliqués en 2 classes comme défini dans la partie

4.2.2.2 :

Page 57: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines56

(i) Les dupliqués proches et,

(ii) Les dupliqués distants.

Nous avons comparé les distributions de ces dupliqués distants et dupliqués proches en

fonction des 4 classes de délétion. Les résultats sont représentés Figure 18. Les dupliqués

proches présentent une meilleure robustesse aux mutations nulles que les dupliqués distants.

Cette différence est statistiquement significative. Notons que la robustesse de ces deux

catégories de dupliqués a aussi été comparée à celle des dupliqués partiels. Il en résulte que si

les dupliqués proches sont plus robustes que les dupliqués partiels, il n’a pas été mis en

évidence de différence significative entre la robustesse des dupliqués distants et celle des

dupliqués partiels.

Figure 18 : Distribution comparée des gènes dupliqués proches, des dupliqués distants et des

dupliqués partiels en fonction des 4 classes de délétions (faible, modéré, important, létal).

4.3 Conclusions

Nous avons mis en évidence que la redondance en domaines est un mécanisme de

compensation certes moins important que la redondance en gènes mais dont l’importance

n’est pas négligeable. Ce mécanisme de compensation peut s’expliquer de deux façons :

Page 58: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

De la redondance en gènes à la redondance en domaines 57

(i) soit la compensation est assurée par une protéine qui contient, entre autres, les domaines

de la protéine inactivée et dans ce cas une partie de la protéine est capable d’agir

indépendamment du reste de la protéine,

(ii) soit la compensation est assurée par l’interaction entre plusieurs protéines, interaction qui

met en contact l’ensemble des domaines concernés par la délétion.

Dans les deux cas, ceci illustre une indépendance relative des domaines par rapport aux

protéines qui les contiennent.

Page 59: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Conclusion et perspectives58

Conclusion et perspectives

L’intérêt des domaines protéiques est multiple. Sur le plan structural, les domaines font

l’objet d’études de repliements en relation avec des fonctions précises (fixation d’un ligand ou

substrat, régulation, etc…). Sur le plan fonctionnel, ils permettent d’enrichir les annotations

des protéines en mettant en relation des régions fonctionnelles identiques qui interviennent

dans des contextes moléculaires différents (liaison au calcium par exemple). Sur le plan

évolutif, l’intérêt des domaines est double. Ils permettent d’une part de traiter les relations

d’homologie à une échelle plus petite que celle du gène (« homologie par morceaux »).

D’autre part, la sensibilité des outils dédiés à l’identification des domaines permet de détecter

des homologies éloignées. En effet, quand les séquences divergent beaucoup et que leur

ressemblance ne peut plus être détectée par alignement de séquences, les signatures des

domaines peuvent être conservées et détectées grâce aux profils HMM car ceux-ci capturent

une plus grande diversité de séquence. Ainsi nous avons montré que la synténie de domaines

est plus sensible que la synténie de gènes. Les synténies détectées sont plus nombreuses, plus

grandes et peuvent être dupliquées au sein d’un même chromosome. De plus, ces synténies

tiennent compte de protéines affectées par des réarrangements de domaines (fusions/fissions,

permutations circulaires, etc…).

Dans le cadre de la synténie de domaines, nous avons étudié des protéines liées par une forte

relation d’homologie et ayant néanmoins subi un réarrangement de domaines. Nous avons

observé que les insertions/délétions (indels) de domaines sont les réarrangements les plus

fréquents et que ces indels interviennent le plus souvent en position terminale de la protéine.

Cette constatation et l’observation du voisinage synténique, nous a permis de mettre en

évidence que ces indels terminaux sont fortement liés à la fusion/fission de gènes. Nous en

avons déduit que la fusion/fission de gènes est un mécanisme majeur de la création de

nouvelles architectures de domaines.

Finalement, nous avons étudié les domaines dans le cadre de la robustesse génétique aux

mutations nulles et montré que la redondance en domaines constitue un nouveau mécanisme

de compensation. Ce mécanisme s’inspire du principe de la redondance en gènes. Dans le cas

Page 60: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Conclusion et perspectives 59

de gènes dupliqués, la délétion d’une des copies peut être compensée par une des autres

copies. Ainsi la duplication des gènes (redondance en gènes) participe à la robustesse

génétique. Dans notre cas, la duplication partielle crée des gènes constitués de copies de

morceaux d’autres gènes (domaines). Ceux-ci participent aussi à la robustesse génétique

(redondance en domaines).

Pour l’ensemble des trois problématiques que nous avons abordées, utiliser le domaine

comme unité au lieu du gène nous a permis de gagner en finesse et de tirer de nouvelles

conclusions. Ceci pourrait être également utile pour d’autres problématiques que j’envisage

d’aborder. Entre autres, je me propose de comparer la duplication de gènes et la duplication

de domaines. Ces deux phénomènes sont-ils liés aux mêmes mécanismes moléculaires ? Sont-

ils soumis aux mêmes pressions ? Un autre enjeu consiste à établir une distribution

phylogénétique des différents domaines afin d’identifier des domaines impliqués dans des

transferts horizontaux (disséminés par des phages, des séquences d’insertion, etc.). Ceci

pourrait permettre d’identifier des gènes issus de transferts horizontaux non détectés par les

méthodes usuelles notamment dans le cas de gènes isolés non transférés en îlots.

Page 61: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie60

Bibliographie

Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG. 2004.

SCOP database in 2004: refinements integrate structure and sequence family data. Nucleic

Acids Res. 32(Database issue):D226-9.

Apic G, Gough J, Teichmann SA. 2001. Domain combinations in archaeal, eubacterial

and eukaryotic proteomes. J Mol Biol. 310:311-25.

Bateman A, Coin L, Durbin R, Finn RD, Hollich V, Griffiths-Jones S, Khanna A,

Marshall M, Moxon S, Sonnhammer EL, Studholme DJ, Yeats C, Eddy SR. 2004. The Pfam

protein families database. Nucleic Acids Res. 32(Database issue): D138-41.

Bergeron A, Corteel S, Raffinot M. 2002. The algorithmic of gene teams. Lecture

Notes Comput. Sci. 2452: 464-476.

Björklund SK, Ekman D, Light S, Frey-Skott J, Elofsson A. 2005 Domain

rearrangements in protein evolution. J Mol Biol. 353: 911-23.

Bru C, Courcelle E, Carrere S, Beausse Y, Dalmar S, Kahn D. 2005. The ProDom

database of protein domain families: more emphasis on 3D. Nucleic Acids Res. 33(Database

issue):D212-5.

Calabrese PP, Chakravarty S, Vision TJ. 2003. Fast identification and statistical

evaluation of segmental homologies in comparative maps. Bioinformatics. 19 Suppl 1: i74-80.

Casjens S. 1998. The diverse and dynamic structure of bacterial genomes. Annu Rev

Genet. 32 : 339-377.

Chothia C, Gough J, Vogel C, Teichmann SA. 2003. Evolution of the protein

repertoire. Science. 300(5626):1701-1703.

de Château M, Bjorck L. 1994. Protein PAB, a mosaic albumin-binding bacterial

protein representing the first contemporary example of module shuffling. J Biol Chem.

269(16):12147-12151

Page 62: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie 61

de Château M, Bjorck L. 1996. Identification of interdomain sequences promoting the

intronless evolution of a bacterial protein family. Proc Natl Acad Sci U S A. 93(16):8490-

8495.

Deng M, Mehta S, Sun F, Chen T. 2002. Inferring domain-domain interactions from

protein-protein interactions. Genome Res. 12(10):1540-1548.

Durand D, Sankoff D . 2003. Tests for gene clustering. J. Comput. Biol. 10: 453-482.

Eddy SR. 1998. Profile hidden Markov models. Bioinformatics. 14: 755-763.

Enright AJ, Ouzounis CA. 2001. Functional associations of proteins in entire genomes

by means of exhaustive detection of gene fusions. Genome Biol. 2: research0034.1-0034.7.

Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S, Hollich V, Lassmann T,

Moxon S, Marshall M, Khanna A, Durbin R, Eddy SR, Sonnhammer EL, Bateman A. 2006.

Pfam: clans, web tools and services. Nucleic Acids Res. 34(Database issue):D247-51.

Fitch WM. 2000. Homology a personal view on some of the problems. Trends Genet.

16(5):227-231.

Fukuda Y, Washio T, Tomita, M. 1999. Comparative study of overlapping genes in

the genomes of Mycoplasma genitalium and Mycoplasma pneumoniae. Nucleic Acids Res.

27: 1847-1853.

Galperin, MY, Koonin, EV. 2000. Who's your neighbor? New computational

approaches for functional genomics. Nature Biotech. 18: 609-613.

Gu Z, Steinmetz LM, Gu X, Scharfe C, Davis RW, Li WH. 2003. Role of duplicate

genes in genetic robustness against null mutations. Nature. 421: 63-66.

Gu X. 2003. Evolution of duplicate genes versus genetic robustness against null

mutations. Trends Genet. 19: 354-356.

He X, Goldwasser MH. 2005. Identifying conserved gene clusters in the presence of

homology families. J Comput Biol. 12(6):638-656.

He X, Zhang, J. 2006a. Transcriptional reprogramming and backup between duplicate

genes: is it a genome-wide phenomenon? Genetics. 172 : 1363-1367.

He X, Zhang J. 2006b. Higher duplicability of less important genes in yeast genomes.

Mol. Biol. Evol. 23: 144-151.

Page 63: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie62

Henikoff S, Henikoff JG. 1994. Protein family classification based on searching a

database of blocks. Genomics. 19(1):97-107.

Hulo N, Bairoch A, Bulliard V, Cerutti L, De Castro E, Langendijk-Genevaux PS,

Pagni M, Sigrist CJ. 2006. The PROSITE database. Nucleic Acids Res. 34(Database

issue):D227-30.

Jaillon O, Aury JM, Brunet F, Petit JL, Stange-Thomann N, Mauceli E, Bouneau L,

Fischer C, Ozouf-Costaz C, Bernot A et al. 2004. Genome duplication in the teleost fish

Tetraodon nigroviridis reveals the early vertebrate proto-karyotype. Nature. 431(7011):946-

957.

Kim WK, Park J, Suh JK. 2002. Large scale statistical prediction of protein-protein

interaction by potentially interacting domain (PID) pair. Genome Inform Ser Workshop

Genome Inform. 13:42-50.

Koonin EV, Aravind L, Kondrashov AS. 2000. The impact of comparative genomics

on our understanding of evolution. Cell. 101(6):573-576.

Koonin EV. 2005. Orthologs, paralogs, and evolutionary genomics. Annu Rev Genet.

39:309-338.

Korbel JO, Jensen LJ, von Mering C, Bork P. 2004. Analysis of genomic context:

prediction of functional associations from conserved bidirectionally transcribed gene pairs.

Nature Biotech. 22: 911-917.

Kummerfeld SK, Teichmann SA. 2005. Relative rates of gene fusion and fission in

multi-domain proteins. Trends Genet. 21: 25-30.

Le Bouder-Langevin S, Capron-Montaland I, De Rosa R, Labedan B. 2002. A strategy

to retrieve the whole set of protein modules in microbial proteomes. Genome Res.

12(12):1961-1973.

Letunic I, Copley RR, Pils B, Pinkert S, Schultz J, Bork P. 2006. SMART 5: domains

in the context of genomes and networks. Nucleic Acids Res. 34(Database issue):D257-60.

Lindqvist Y, Schneider G. 1997. Circular permutations of natural protein sequences:

structural evidence. Curr Opin Struct Biol. 7(3):422-427.

Page 64: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie 63

Luc N, Risler JL, Bergeron A, Raffinot M. 2003. Gene teams: a new formalization of

gene clusters for comparative genomics. Comput Biol Chem. 27(1):59-67.

Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D. 1999a. A

combined algorithm for genome-wide prediction of protein function. Nature. 402: 83-86.

Marcotte EM, Pellegrini M, Ho-Leung N, Rice DW, Yeates TO, Eisenberg D. 1999b.

Detecting protein function and protein-protein interactions from genome sequences. Science.

30:751-753.

Murzin AG, Brenner SE, Hubbard T, Chothia C. 1995. SCOP: a structural

classification of proteins database for the investigation of sequences and structures. J Mol

Biol. 247(4):536-40.

Ng SK, Zhang Z, Tan SH. 2003. Integrative approach for computationally inferring

protein domain interactions. Bioinformatics. 19(8):923-929.

Nye TM, Berzuini C, Gilks WR, Babu MM, Teichmann SA. 2005. Statistical analysis

of domains in interacting protein pairs. Bioinformatics. 21(7):993-1001.

Omelchenko MV, Makarova KS, Wolf YI, Rogozin IB, Koonin EV. 2003. Evolution

of mosaic operons by horizontal gene transfer and gene displacement in situ. Genome Biol. 4:

R55.

Orengo CA, Thornton JM. 2005. Protein families and their evolution-a structural

perspective. Annu Rev Biochem. 74:867-900.

Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N. 1999. The use of gene

clusters to infer functional coupling. Proc Natl Acad Sci U S A. 96(6):2896-2901.

O'Sullivan D, Twomey DP, Coffey A, Hill C, Fitzgerald GF, Ross RP. 2000. Novel

type I restriction specificities through domain shuffling of HsdS subunits in Lactococcus

lactis. Mol Microbiol. 36(4):866-875.

Papp B, Pal C, Hurst LD. 2004. Metabolic network analysis of the causes and

evolution of enzyme dispensability in yeast. Nature. 429:661-664.

Page 65: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie64

Pasek S, Bergeron A, Risler JL, Louis A, Ollivier E, Raffinot M. 2005. Identification

of genomic features using microsyntenies of domains: domain teams. Genome Res.

15(6):867-874.

Pasek S, Risler JL, Brezellec P. 2006a. Gene fusion/fission is a major contributor to

evolution of multi-domain bacterial proteins. Bioinformatics. 22(12):1418-1423.

Pasek S, Risler JL, Brezellec P. 2006b. The role of domain redundancy in genetic

robustness against null mutations. J Mol Biol. 362(2):184-191.

Passarge E, Horsthemke B, Farber RA. 1999. Incorrect use of the term synteny. Nat

Genet. 23(4):387.

Pawson T, Nash P. 2003. Assembly of cell regulatory systems through protein

interaction domains. Science. 300(5618):445-452.

Pevzner P, Tesler G. 2003. Genome rearrangements in mammalian evolution: lessons

from human and mouse genomes. Genome Res. 13(1):37-45.

Reeves GA, Dallman TJ, Redfern OC, Akpor A, Orengo CA. 2006. Structural

Diversity of Domain Superfamilies in the CATH Database. J Mol Biol. 360(3):725-741.

Riley M, Labedan B. 1997. Protein evolution viewed through Escherichia coli protein

sequences: introducing the notion of a structural segment of homology, the module. J Mol

Biol. 268(5):857-68.

Rocha EP. 2004. Order and disorder in bacterial genomes. Curr Opin Microbiol.

7:519-527.

Sali A. 1999. Functional links between proteins. Nature. 402:23-26.

Sankoff D. 2003. Rearrangements and genome evolution. Curr. Opin. Gen. Dev. 13:

583-587.

Sprinzak E, Margalit H. 2001. Correlated sequence-signatures as markers of protein-

protein interaction. J Mol Biol. 311(4):681-692.

Steinmetz LM, Scharfe C, Deutschbauer AM, Mokranjac D, Herman ZS, Jones T, Chu

AM, Giaever G, Prokisch H, Oefner PJ, Davis RW. 2002. Systematic screen for human

disease genes in yeast. Nat Genet. 31:400-404.

Page 66: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie 65

Suhre K, Claverie JM. 2004. FusionDB: a database for in-depth analysis of

prokaryotic gene fusion events. Nucleic Acids Res. 32 Database issue: D273-276.

Suyama M, Bork P. 2001. Evolution of prokaryotic gene order: genome

rearrangements in closely related species. Trends Genet. 17:10-13.

Tamames J. 2001. Evolution of gene order conservation in prokaryotes. Genome Biol.

2(6):RESEARCH0020.

Tang J, Moret BM. 2003. Scaling up accurate phylogenetic reconstruction from gene-

order data. Bioinformatics. 19 Suppl 1: i305-312.

Tillier ER, Collins RA. 2000. Genome rearrangement by replication-directed

translocation. Nat Genet. 26 :195-197.

Uliel S, Fliess A, Amir A, Unger R. 1999. A simple algorithm for detecting circular

permutations in proteins. Bioinformatics. 15(11):930-6.

Uliel S, Fliess A, Unger R. 2001. Naturally occurring circular permutations in

proteins. Protein Eng. 14(8):533-542.

Viguera E, Canceill D, Ehrlich SD. 2001. Replication slippage involves DNA

polymerase pausing and dissociation. EMBO J. 20(10):2587-2595.

Vogel C, Berzuini C, Bashton M, Gough J, Teichmann SA. 2004a. Supra-domains:

evolutionary units larger than single protein domains. J Mol Biol. 336(3):809-23.

Vogel C, Bashton M, Kerrison ND, Chothia C, Teichmann SA. 2004b. Structure,

function and evolution of multidomain proteins. Curr Opin Struct Biol. 14(2):208-16.

Vogel C, Teichmann SA, Pereira-Leal J. 2005. The relationship between domain

duplication and recombination. J Mol Biol. 346(1):355-365.

von Mering C, Huynen M, Jaeggi D, Schmidt S, Bork P, Snel B. 2003. STRING: a

database of predicted functional associations between proteins. Nucleic Acids Res. 31(1):258-

261.

Wagner A. 2000. Robustness against mutations in genetic networks of yeast. Nat

Genet. 24:355-361.

Page 67: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie66

Wagner A. 2005. Distributed robustness versus redundancy as causes of mutational

robustness. Bioessays. 27 :176-188.

Weiner J 3rd, Thomas G, Bornberg-Bauer E. 2005. Rapid motif-based prediction of

circular permutations in multi-domain proteins. Bioinformatics. 21(7):932-937.

Weiner J 3rd, Bornberg-Bauer E. 2006a. Evolution of circular permutations in

multidomain proteins. Mol Biol Evol. 23(4):734-743.

Weiner J 3rd, Beaussart F, Bornberg-Bauer E. 2006b. Domain deletions and

substitutions in the modular protein evolution. FEBS J. 273(9):2037-2047.

Yanai I, Derti A, DeLisi C. 2001. Genes linked by fusion events are generally of the

same functional category: a systematic analysis of 30 microbial genomes. Proc Natl Acad Sci

U S A. 98(14):7940-7945.

Yanai I, Wolf YI, Koonin EV. 2002. Evolution of gene fusions: horizontal transfer

versus independent events. Genome Biol. 3 :research0024.

Yona G, Linial N, Linial M. 1999. Protomap: automatic classification of protein

sequences, a hierarchy of protein families, and local maps of the protein space. Proteins.

37:360-378.

Page 68: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Bibliographie 67

Références Internet

[1] Sean Eddy. Cold Spring Harbor Computational Genomics Course, November 1999.

http://www.people.virginia.edu/~wrp/cshl00/domain-lecture.html

[2] ENSEMBL, http://www.ensembl.org/index.html

Page 69: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXES

Page 70: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 1 : Les domaines Pfam 69

ANNEXE 1 : Les domaines Pfam

Pfam est une collection d’alignements multiples et de modèles HMM recouvrant la quasi

totalité des domaines protéiques connus. Pour chaque famille de domaines, Pfam met à

disposition :

(i) Les alignements multiples pour ce domaine,

(ii) Les architectures de domaines des protéines contenant ce domaine,

(iii) La distribution phylogénétique du domaine,

(iv) Les conformations structurales connues de protéines contenant ce domaine,

(v) Des liens vers d’autres bases de données.

Pfam est une base de données alimentées de manière semi-automatique. Elle est divisée en

deux parties : les PfamA et les PfamB. La base contient 8296 familles de domaines PfamA

(en Mai 2006). Pour chaque famille de domaines PfamA, un alignement « graine »

représentatif d’un ensemble de séquences contenant ce domaine est calculé et vérifié

manuellement. Puis un profil HMM est construit à partir de cet alignement « graine » et est

utilisé afin de générer automatiquement un alignement « complet » parmi les séquences

protéiques disponibles dans les banques. Les domaines PfamB sont, pour leur part, générés

entièrement automatiquement à l’aide d’alignements multiples correspondant aux domaines

ProDom qui ne recouvrent pas des domaines PfamA. La distinction entre alignement

« graine » et alignement « complet » facilite la mise à jour de la base de données puisque

l’alignement « graine » et le profil HMM sont stables tandis que seul l’alignement complet est

mis à jour au fur et à mesure des mises à jour des bases de séquences protéiques.

En Mai 2006, la version courante de Pfam est la 20.0. 74% des séquences protéiques

contiennent au moins un domaine PfamA et parmi celles qui n’en contiennent pas, 11%

d’entres elles contiennent au moins un PfamB.

Page 71: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 2 : La synténie de gènes / domaines70

ANNEXE 2 : La synténie de gènes / domaines

Définition formelle

Etant donné S un ensemble de domaines, et une distance δ, les éléments de S divisent un

ensemble de chromosomes en δ-chaînes. Il existe des suites maximales de domaines de S,

telles que la distance entre deux domaines consécutifs dans une suite est inférieure ou égale à

δ. Considérons par exemple, les domaines A, B et C (S = {A, B, C}) et Chr l’ensemble

suivants de chromosomes au sein desquels on a souligné les domaines A, B et C :

Chr = ABD EFBCAGH IJAKBCLM NOPCAQARS

Pour δ = 2, les éléments de S divisent Chr en quatre δ-chaînes : AB, BCA, AKBC et CAQA.

Notons que des domaines peuvent apparaître dans un ordre différent dans différentes δ-

chaînes et que ces domaines ne sont pas nécessairement contigus dans une δ-chaîne donnée.

Le contenu en domaines d’une δ-chaîne constitue un sous-ensemble de l’ensemble S.

Chaque δ-chaîne qui contient tous les éléments de l’ensemble S est appelé une occurrence de

l’ensemble S. Un ensemble de domaines T constitue une extension de l’ensemble S si S est

contenu dans T et que chaque occurrence de S est contenue dans une occurrence de T.

Définition Etant donné δ , un ensemble de domaines S constitue une δ-équipe d’un ensemble

de chromosomes Chr s’il existe au moins une occurrence de l’ensemble S dans Chr, et que

S n’a pas d’extension.

Par exemple, dans l’ensemble Chr de chromosomes représenté ci-dessus, l’ensemble

S = {A, B, C} est une δ-équipe avec δ = 2. Elle a deux occurrences : BCA et AKBC. A

l’inverse, l’ensemble {B} n’est pas a δ-équipe car l’ensemble T = {A, B} est une extension de

{B}, ce qui signifie que chaque instance d’un domaine B est suffisamment proche d’une

instance d’un domaine A. Notons que pour δ = 2, l’ensemble T = {A, B} est aussi δ-équipe

même si S contient T parce que S n’est pas une extension de T. Dans ce cas, la δ-équipe a trois

occurrences : AB, BCA and AKB, ce qui montre que les équipes peuvent être imbriquées.

Page 72: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 2 : La synténie de gènes / domaines 71

Ainsi, dans un ensemble de n chromosomes, un ensemble de domaines {A, B, C} peut

constituer une équipe conservée dans m ≤ n chromosomes mais un sous-ensemble {A, B} du

précédent ensemble peut être conservé dans k > m chromosomes. Dans un tel cas, les résultats

de DomainTeam contiennent alors les deux ensembles. Autrement dit, DomainTeam ne

détecte pas uniquement les équipes conservées dans tous les chromosomes. La définition

d’une δ-équipe précédemment énoncée est une généralisation directe de la notion d’équipes

de gènes telle qu’elle a été introduite par Bergeron et al. (Bergeron et al., 2002), qui traite le

cas de chromosomes contenant une unique copie de chaque gène.

Le nombre d’équipes peut être exponentiel

En l’absence de contraintes supplémentaires4, la définition d’une δ-équipe peut conduire à un

algorithme théoriquement exponentiel, car le nombre d’équipes de domaines peut être

exponentiel avec le nombre de domaines. Cependant, des exemples « réels » impliquant des

centaines de gènes peuvent être traités efficacement en un temps raisonnable.

Afin de montrer la nature exponentielle de la définition d’une δ-équipe, considérons

un ensemble L de n domaines. Construisons n chromosomes, chacun contenant n – 1

domaines différents obtenus en enlevant un domaine différent de L à chaque fois. Alors, pour

δ = n – 2, chaque sous-ensemble de L est une δ-équipe. Par exemple, avec n = 5, L = {A, B, C,

D, E} et les cinq chromosomes suivants :

ABCD ABCE ABDE ACDE BCDE

Chaque sous-ensemble S de L a au moins une occurrence, car S est contenu au moins une fois

par chromosome et la distance entre deux domaines dans un chromosome est toujours plus

petite que δ = n – 2. Pour chaque domaine d n’appartenant pas à S, il existe une occurrence de

S qui n’est pas contenue dans S ∪ d, particulièrement le chromosome dans lequel d a été

enlevé, ainsi S n’a pas d’extension. Ainsi S est une δ-équipe.

4 Par exemple une contrainte serait d’imposer que les équipes traversent exactement m chromosomes.

Page 73: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 2 : La synténie de gènes / domaines72

Définition du score

Etant donné une δ-équipe, soit np le nombre de protéines appartenant à toutes les occurrences

de cette équipe, nd le nombre de domaines différents, no le nombre d’occurrences de l’équipe

et m la somme pondérée des fréquences de chaque domaine (m = ∑i ni * fi avec ni le nombre de

fois où le domaine i est observé dans l’équipe et fi la fréquence du domaine i dans l’ensemble

total des chromosomes étudiés). Le score S est alors défini tel que :

S = 10 x log10 [(np / no) * (nd / m)].

Les meilleurs rangs sont attribués aux équipes ayant les meilleurs scores, c’est à dire aux

équipes ayant un nombre moyen important de protéines par occurrence (np/no) avec un

nombre important de domaines différents (nd) et un faible nombre de domaines fréquents

(1/m). L’expérience montre que les équipes pour lesquelles S > 90 sont potentiellement

intéressantes.

Page 74: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 3 : Article 1, la synténie de domaines 73

ANNEXE 3 : Article 1, la synténie de domaines

Pasek S, Bergeron A, Risler JL, Louis A, Ollivier E, Raffinot M. 2005. Identification

of genomic features using microsyntenies of domains: domain teams. Genome Res.

15(6):867-874.

Page 75: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Identification of genomic features usingmicrosyntenies of domains: Domain teamsSophie Pasek,1,4,5 Anne Bergeron,3 Jean-Loup Risler,1 Alexandra Louis,2

Emmanuelle Ollivier,1 and Mathieu Raffinot1

1Laboratoire Genome et Informatique, CNRS/UEVE, and 2Infobiogen, 91034 Evry cedex, France; 3LacIM, Universite du Quebec aMontreal, Montreal, Quebec, Canada; 4Soluscience, Biopole Clermont-Limagne, 63360 Saint-Beauzire, France

The detection, across several genomes, of local conservation of gene content and proximity considerably helps theprediction of features of interest, such as gene fusions or physical and functional interactions. Here, we want toprocess realistic models of chromosomes, in which genes (or genomic segments of several genes) can be duplicatedwithin a chromosome, or be absent from some other chromosome(s). Our approach adopts the technique oftemporarily forgetting genes and working directly with protein “domains” such as those found in Pfam. This allowsthe detection of strings of domains that are conserved in their content, but not necessarily in their order, which werefer to as domain teams. The prominent feature of the method is that it relaxes the rigidity of the orthologycriterion and avoids many of the pitfalls of gene-families identification methods, often hampered by multidomainproteins or low levels of sequence similarity. This approach, that allows both inter- and intrachromosomalcomparisons, proves to be more sensitive than the classical methods based on pairwise sequence comparisons,particularly in the simultaneous treatment of many species. The automated and fast detection of domain teams,together with its increased sensitivity at identifying segments of identical (protein-coding) gene contents as well asgene fusions, should prove a useful complement to other existing methods.

[Supplemental material is available online at www.genome.org.]

Protein structures and sequences can often be split up into “do-mains.” Databases such as SCOP for the structures (Andreeva etal. 2004) or Pfam for the sequences (Bateman et al. 2004) aredevoted to the identification, classification, and storage of pro-tein domains. Recent studies have focused on protein domains asevolutionary units (Patthy 2003; Vogel et al. 2004) or basic ele-ments in protein–protein interactions (Nye et al. 2004). As statedby Koonin et al. (2000) about comparative genomics, the conceptof orthology breaks down for genes coding for complex, multido-main proteins and much of the evolutionary process should bethought of and analyzed in terms of domains rather than pro-teins (genes). In this study, we adopt a novel approach to thesearch for chromosomal segments with identical or almost iden-tical protein-coding gene content, based on the decompositionof the genes into the domains of the proteins they code for.

Although the term “synteny” originally referred to gene locion the same chromosome, it is now widely used to refer to geneloci in different organisms, located on a chromosomal region ofcommon evolutionary ancestry (Passarge et al. 1999). Thus, likemany others, we shall use the word synteny to mean “local con-servation of gene content and proximity across several organ-isms.” This conservation probably points out, in many cases, to aselection pressure that tends to preserve the very proximity of thegenes (Overbeek et al. 1999). As a consequence, the detection,across several genomes, of local conservation of gene contentand proximity considerably helps the prediction of features ofinterest such as the physical interaction of proteins or their par-

ticipation in common metabolic/regulatory networks (Marcotteet al. 1999a,b; Sali 1999; Galperin and Koonin 2000; Enright andOuzounis 2001; Suyama and Bork 2001; von Mering et al. 2003;Korbel et al. 2004; Suhre and Claverie 2004). It also enables phy-logenetic reconstructions through the identification of some ofthe numerous rearrangements events that can affect a genome,i.e., transpositions, deletions, insertions, inversions, fusions, andfissions (for review, see Sankoff 2003; Tang and Moret 2003).

Syntenic regions in eucaryotic genomes are generally de-fined as groups of two or more genes in one species that possessan ortholog on the same chromosome in another species, irre-spective of their orientation or order (Pevzner and Tesler 2003;Jaillon et al. 2004). Here, one can speak of macrosynteny. Amongprokaryotic genomes, the definition often adds the constraint ofgene proximity—not necessarily contiguity—on both of thecompared chromosomes (Bergeron et al. 2002; Luc et al. 2003;von Mering et al. 2003). The addition of this constraint results inmuch shorter conserved regions, in which case, one speaks ofmicrosynteny. In the search for microsyntenies, one can insist onthe conservation of gene order (Overbeek et al. 1999), but gen-erally the order, contiguity, and even strandeness of the genes arerelaxed to some extent (Fujibuchi et al. 2000; Tamames 2001;Bergeron et al. 2002; Calabrese et al. 2003; Durand and Sankoff2003; Luc et al. 2003). Such relaxed microsyntenies were formallydefined as gene teams by Bergeron et al. (2002).

In this study, we reinvestigate the search for microsynteniesby temporarily forgetting genes and working directly with pro-tein domains, such as those found in Pfam (Bateman et al. 2004).We define chromosomal regions of conserved protein domains asdomain teams. This choice has many interesting consequences.First, it allows us to process simultaneously intrachromosomal

5Corresponding author.E-mail [email protected]; fax 33-1-60-87-38-97.Article and publication are at http://www.genome.org/cgi/doi/10.1101/gr.3638405. Article published online before print in May 2005.

Methods

15:000–000 ©2005 by Cold Spring Harbor Laboratory Press; ISSN 1088-9051/05; www.genome.org Genome Research 1www.genome.org

Page 76: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

and interchromosomal comparisons. Indeed, since all of the pro-tein-coding genes are decomposed into the domains of the pro-teins they code for, the usual step of finding the “bidirectionalbest hits” (e.g., Overbeek et al. 1999) is avoided, as well as theproblem of partitioning sequences into nonoverlapping and bio-logically coherent clusters when multidomain proteins are pres-ent (see, for example, Yona et al. 1999). As a consequence, therigidity of the orthology criterion is relaxed, and this approachallows us to process more realistic models of chromosomes, inwhich genes or segments of genes can be duplicated or even beabsent from some chromosomes. Moreover, considering genesfrom the domain point of view enables us to integrate multiple-sequence alignments information; the position-sensitive scoringmatrices (Gribskov et al. 1987) or the hidden Markov model pro-files (Eddy 1998) that are stored in the Pfam database (Bateman etal. 2004) are known to be more sensitive than pairwise sequencealignments (e.g., Altschul et al. 1997). Finally, this model allowsthe detection of events such as fusions and duplications thatwould not be otherwise obvious.

We implemented this concept in a software namedDomainTeam, freely available on request for academic purposes.The strength and limitations of this approach are discussed indetail in this work.

DomainTeam

For reasons that will be made clear in the Results section, we shallhere interest ourselves only in prokaryotic organisms. From acomputational point of view, a chromosome can be defined as acollection of genes. Focusing on protein-coding genes, we wantto define a chromosome as an ordered sequence of genes, wherea unique coding sequence is associated with the nucleic acidsequence of a gene. In addition, we will divide each gene into oneor more consecutive domains, each domain having a label. In thepresent case, the domains will be the Pfam domains of theencoded proteins (Pfam imposes a nonoverlapping rule ondomains). In those few cases where a domain is inserted withinanother one (Bateman et al. 2004), the two domains are consid-ered as adjacent. Overlapping genes (e.g., Fukuda et al. 1999)are similarly noted as contiguous (see Supplemental material,part 1).

The distance between two domains on the same chromo-some is the difference between their positions. The position of adomain is defined using the order in which the domains appearon the chromosome (considering both DNA strands). Given a setS of domain labels, and a fixed distance �, the labels of S divide aset of chromosomes in �-chains. These are maximal runs of do-mains whose labels belong to S, such that the distance betweentwo consecutive domains in a run is less than or equal to �. Forexample, consider the domains A, B, and C (S = {A, B, C}) and thefollowing set C of chromosomes in which these domains havebeen underlined:

C = ABD EFBCAGH IJAKBCLM NOPCAQARS

With � = 2, the set S induces four �-chains on the chromo-somes of C: AB, BCA, AKBC, and CAQA. Note that the domains indifferent �-chains can appear in different orders, and are notnecessarily contiguous in a given �-chain.

The content of a �-chain is the subset of S of the labels thatappear in the domains of the run. Each �-chain that contains allof the labels of a set S is called an occurrence of the set S. A set of

labels T is an extension of a set S if S is contained in T, and eachoccurrence of S is contained in an occurrence of T.

Definition 1

Given �, a set S of labels is a �-team of a set of chromosomes C ifthere is at least one occurrence of the set S in C, and S has noextension.

For example, in the above set C of chromosomes, the setS = {A, B, C} is a �-team with � = 2. It has two occurrences: BCAand AKBC. On the other hand, the set {B} is not a �-team, sincethe set T = {A, B} is an extension of {B}, which means that eachoccurrence of label B implies a nearby occurrence of label A (thereverse is not true). Note that for � = 2, the set T = {A, B} is also a�-team, even if S contains T because T is not an extension of S. Inthis case, it has three occurrences: AB, BCA and AKB, whichmeans that teams can be nested. Thus, in a set of n chromosomes,a set {A, B, C} can be a team conserved in m � n chromosomes,but the shorter nested set {A, B} can be conserved in k > m chro-mosomes. DomainTeam will report both sets. In other words,DomainTeam does not report only those teams conserved in allof the chromosomes. Definition 1 is a direct generalization of thenotion of gene teams introduced by Bergeron et al. (2002), whichaddressed the case of chromosomes containing a unique copy ofeach gene. He and Goldwasser (2004) also defined an extensionof gene teams that allows multiple copies of a gene in a chromo-some. However, the number of chromosomes must be restrictedto two in order to achieve polynomial time complexity of theiralgorithm.

Figure 1 shows an example of a domain team found in fourdifferent organisms, exhibiting significant rearrangements. Thefive domains present in Yersima pestis are transposed, reversed,and duplicated in Salmonella typhi, Escherichia coli, and Vibriocholerae. Another example is shown in the Supplemental material(part 2), depicting a team found in a set of 10 pathogenic bacte-ria.

The number of teams can be exponential

Without additional constraints, Definition 1 also leads to theo-retically exponential algorithms, since the number of domainteams can be exponential in the number of labels. However, as

Figure 1. A domain team (� = 3) of five domains with occurrences infour different organisms, with two occurrences in S. typhi. The first oc-currence in S. typhi has the same domain order and content as the oc-currence in Y. pestis, except that the whole segment is reversed. In thesecond occurrence in S. typhi, domain 294 is duplicated in reverse, sand-wiching an insertion of a new domain. There is also a transposition ofdomain 294 and a duplication of domain 359, with respect to the fourother occurrences. V. cholerae has a duplication of domain 2379 and E.coli a duplication of domain 294.

Pasek et al.

2 Genome Researchwww.genome.org

Page 77: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

shown in the next sections, real-life examples involving thou-sands of genes can be computed efficiently or at least in a rea-sonable time.

In order to show the exponential nature of Definition 1,consider a set L of n labels. Construct n chromosomes, each con-taining n-1 different labels obtained by removing one differentlabel from L. Then, for � = n-2, each proper subset of L is a �-team.For example, with n = 5 and L = {A, B, C, D, E}, one gets thefollowing five chromosomes:

ABCD ABCE ABDE ACDE BCDE

Each proper subset S of L has at least one occurrence, sinceS is contained in at least one chromosome, and the distancebetween two labels in a chromosome is always less than � =n � 2. For any domain d not in S, there is an occurrence of Sthat is not contained in S ∪ d, namely, the chromosome inwhich d was removed, therefore, S has no extension. Thus, S isa �-team.

Results and Discussion

Sensitivity of DomainTeam as viewedfrom three closely related genomes

As a way to test the sensitivity of ourapproach, we compared the results ob-tained by GeneTeam (Luc et al. 2003)and DomainTeam on a set of three chro-mosomes from closely related species.Both algorithms implement the samenotion of microsynteny, but GeneTeamsearches for regions of conserved or-thologous protein-coding genes, whileDomainTeam looks for regions of con-served protein domains content. Thecomparison was performed by mappingthe chromosome of E. coli according to

the syntenic regions it shares with both the S. typhi and Y. pestischromosomes. In both programs, the � parameter was set to 3(allowing gaps of two consecutive genes or domains).

The results are summarized in Figure 2. The first obviousobservation is that, for both programs, there are no huge teamsthat would encompass almost all of the genome. Rather, thesethree closely related species share a lot of microsyntenic regions(red color in Fig. 2). As expected, the teams obtained byDomainTeam (inner circle) and GeneTeam (outer circle) mostoften coincide. However, DomainTeam identifies larger andmore numerous microsyntenies, as large nonsyntenic regions re-ported by GeneTeam are broken into several domain teams. Thelargest teams (green in Fig. 2) contain 31 and 26 genes forDomainTeam and GeneTeam, respectively. On the whole, thedomain teams harbor 2207 genes (52% of the E. coli genes) andthe gene teams 1662 (40%). This difference can be explained byat least three reasons, i.e., the use of the domain criterion (1)relaxes the need for strict homology, (2) permits various rear-rangements of domains such as duplications or fusions, and (3)allows one to take paralogs into account; thus, the identificationof duplicated regions. These three points are discussed in thenext sections.

The use of domains bypasses the rigidity of pairwisesequence comparisons

As already stated, multiple-sequence alignment profiles makeprotein sequence comparisons more sensitive than classical pair-wise alignments. Homology inference will inevitably fail in thelast case, when sequences diverged too much, while two highlydivergent homologous (protein) sequences may well continue topossess a common Pfam domain.

Figure 3 displays a schematic representation of a conservedteam between E. coli and S. typhi, in which the proteins share fivedomains. The proteins encoded by pgtA and pgtB in S. typhi areknown to be the members of a two-component regulatory system(Kadner 1996). As shown in the STRING database (von Mering etal. 2003), genes encoding two-component systems are often ad-jacent. The pairs YfhA/YfhK and Sty2809/Sty2811 are putativeproteins that were assigned the same function (two-componentregulatory system) by homology with proteins from other bacte-ria. However, sequence comparisons of PgtB with both YfhK andSty2811 resulted in high Blast2 E-values (10 and 0.17, respec-tively). As a consequence, the teams YfhA/YfhK and Sty2809/Sty2811 are not reported in STRING (they appear, however, inthe KEGG database [Kanehisa et al. 2004] which is maintained

Figure 2. Map of the E. coli chromosome where genes colored red arethose genes of E. coli that belong to a team also found in S. typhi and Y.pestis. Genes colored blue do not belong to a microsyntenic regionshared by the three species. The inner circle shows the results ofDomainTeam (� = 3). The outer circle shows those of GeneTeam (� = 3),based on the set of 2106 triplets of orthologous proteins obtained by thebidirectional best hit method. Syntenic regions reported by DomainTeamand GeneTeam coincide, but DomainTeam finds larger syntenic regionsand identifies 2207 syntenic genes (52% of the E. coli genes) versus 1662(40%) for GeneTeam. Green regions indicate the largest teams (31 and26 genes) for DomainTeam and GeneTeam respectively. Figure 2 wasdrawn using GenomeViz (Ghai et al. 2004).

Figure 3. An example of a team (� = 3) found in E. coli and S. typhi, corresponding to proteins thatbelong to the so-called “two-components regulatory system.” The figures near the arrows are theBLAST E-values corresponding to the pairwise alignments of the proteins. It can be seen that theproteins YfhK and PgtB share but little sequence similarity, preventing this team from being detectedby automated methods based on sequence comparisons. Similarly, PgtB and STY2811 are poorlysimilar, but the use of their Pfam labels led to pinpointing the duplication in S. typhi.

Domain teams

Genome Research 3www.genome.org

Page 78: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

through considerable manual expertise). Similarly, the probableduplication of pgtA and pgtB in S. typhi would not have beendetected by an automated procedure based on pairwise compari-sons. Note that the two inserted genes yfhG and sty2810 code forhighly similar (hypothetical) proteins, which reinforces the prob-ability that the two teams yfhA/yfhG/yfhK and STY2809/STY2810/STY2811 are genuine orthologous conserved segmentswhose proteins share the same functions in the two species.

Using domains instead of genes as an atomic unit allows usto detect domain rearrangements such as fusions

The detection of gene fusion events can be used to predict func-tional associations of proteins, such as functional interaction orcomplex formation (Enright et al. 1999; Marcotte et al. 1999b;Enright and Ouzounis 2001; Yanai et al. 2001). Fusions can beconsidered as extreme cases of conservation of gene proximity.

Indeed, “evolution of gene fusion often involves an intermediatestage, during which the future fusion components exist as jux-taposed and coregulated, but still distinct genes within operons”(Yanai et al. 2002). In such a context of proximity, DomainTeamcan easily detect fusion events, since a two-domains fused pro-tein and the one-domain adjacent unfused proteins will result inthe same team.

An example is given in Figure 4, which results from thesearch for conserved teams across five bacteria. This team is partof the tryptophan operon. While trpC is a stand-alone gene inBacteroides thetaiotaomicron and Anabaena, it is fused with trpF inE. coli, S. typhi, and Y. pestis. As to trpG, it is fused with trpD in E.coli and S. typhi, but with trpE in Anabaena. These fusions are alsodetected by other methods based on sequence comparisons andare reported in FusionDB (Suhre and Claverie 2004) and AllFuse(Enright and Ouzounis 2001). However, the simultaneous com-parison of several chromosomes by DomainTeam enables an im-mediate synthetic view of all the domain rearrangements.

Since DomainTeam detects only the fusions between adja-cent genes, it will not replace other methods that rely basicallyon sequence comparisons, irrespective of the distance betweenthe fusion components. However, the increased sensitivity af-forded by the Pfam domains enables us to find otherwise unde-tected fusions. We examined the fusions concerning adjacent genesin the pairs E. coli/Haemophilus influenzae and E. coli/Helicobacterpylori reported by FusionDB, AllFuse, and DomainTeam. A total of39 such (predicted) fusions was found, only two of them beingreported by the three methods, eight by two methods, and 29 byone method, among which five were predicted by DomainTeamonly. As shown in Table 1, in all of these last five cases, one of thefusion (protein) components did not match sufficiently the fusedprotein to be detected by a similarity search. Conversely, eightfusions predicted by FusionDB or AllFuse were not detected byDomainTeam, because one of their components did not possess

Table 1. Some otherwise undetected composite genes reported by DomainTeams

N-terminal gene C-terminal gene Composite gene

Hl1549 (lolD) ABC_tran HI1548 (lolE) FtsX E>100 b0879 (macB) ABC_tran/FtsXLipoprotein releasing system ATP-binding

protein lolDLipoprotein releasing system transmembrane

protein lolCMacrolide-specific ABC-type efflux carrier

H. influenzae H. influenzae E. coliHl0769 (ftsE) ABC_tran Hl0770 (ftsX) FtsX E>100 b0879 (macB) ABC_tran/FtsXCell division ATP-binding protein ftsE* Cell division protein ftsX homolog* Macrolide-specific ABC-type efflux carrierH. influenzae H. influenzae E. coliHl0291 HMA E=2.10�4 Hl0290 HMA/E1-E2ATPase/Hydrolase b0484 (copA) HMA/HMA/E1-E2ATPase/

HydrolaseHypothetical protein Probable cation-transporting ATPase Copper-transporting P-type ATPaseH. influenzae H. influenzae E. coliHl0988 (leu2) Aconitase Hl0989 (leuD) Aconitase_C E=0.83 b1276 (acnA) Aconitase/Aconitase_C3-isopropylmalate dehydratase large subunit* 3-isopropylmalate dehydratase small subunit* Aconitate hydratase 1H. influenzae H. influenzae E. colib3577 DctQ E=2.4 b3578 DctM/DedA Hl0147 DctQ/DctM/DedAHypothetical protein* Hypothetical protein* Hypothetical proteinE. coli E. coli H. influenzaeb2678 (proW) BPD_transp_1 b2679 (proX) OpuAC E>100 HP0818 BPD_transp_1/OpuACGlycine betaine/L-proline transport system

permease*Glycine betaine-binding periplasmic protein

precursor*Osmoprotection protein (prowx)

E. coli E. coli H. pylori

Probable gene fusions between adjacent genes detected by DomainTeams after the comparison of the chromosomes of E. coli, H. influenzae, and H.pylori. Here are listed only the composite genes not reported in AllFuse and FusionDB. Note, however, that the fusion between the two components canbe reported in FusionDB or AllFuse, based on evidence from other genomes (*). Each gene is identified by its ordered locus name, followed by its name(if any), followed by the Pfam domain(s) found in the protein they code for. The BLAST2 E-value between one of the components and the compositeprotein is also reported.

Figure 4. Part of the tryptophan operon as identified in five bacteria(� = 3), exhibiting rearrangements and fusions of domains. Genes arelabeled with their “ordered locus name” and, for E.coli and B. thetaiotao-micron, by their names.

Pasek et al.

4 Genome Researchwww.genome.org

Page 79: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

a Pfam label. It is therefore clear that while DomainTeam cannotby itself replace other published methods, it can be used usefullyas a complementary tool to detect otherwise unpredicted fusions.

Duplications are detected by intrachromosomal comparisons

The classical step of finding orthologous genes before searchingfor syntenies prevents the detection of intrachromosomal dupli-cations. We have already shown in Figure 3 that the use of do-mains and intrachromosomal comparisons not only enables oneto find duplications, but also to detect duplications where thesequence similarities are weak. Another example containing aduplication of a whole syntenic region will be found in theSupplemental material (part 2), showing a team found in a set of10 pathogenic bacteria.

Sensitivity of DomainTeam in massive comparisons

The simultaneous detection of a local conservation of ortholo-gous genes in a number of chromosomes is a difficult task, sincethe sequence similarities can be weak in distant species. As a wayto explore the sensitivity of DomainTeam across many genomes,we took as a test case the collection of E. coli operons stored in theRegulonDB database (Salgado et al. 2004; J. Collado-Vides, pers.comm.) and searched for their being conserved in a set of 14other Gram� bacteria. From the set of 309 E. coli operons, 245(79%) were fully recovered by at least one domain team. Theconserved regions, hence, the teams, were always larger than theoperons per se. In some cases, one or more genes within a teamencompassing an operon were considered as insertions as theycorresponded to proteins that had no Pfam label (an example isgiven in Fig. 5). The fifty operons that could not be entirelyrecovered as a single domain team were operons that containedtoo many consecutive Pfam unlabeled genes. They were thus

broken into several partial segments.Fourteen operons in E. coli have nocounterpart in any of the 14 other bac-teria.

Each fully recovered operon wasclassified according to the number ofchromosomes the team was found in,from two to 16 (the set of 15 Gram�

bacteria comprised 16 chromosomes,since the genome of V. cholerae consistsof two chromosomes; see Methods).Each class was then divided into threegroups in the following way: (1) group1, containing the teams found only intwo or more of the eight gammaproteo-bacteria chromosomes; (2) group 2, con-taining the teams found in both gam-maproteobacteria and other proteobac-teria (comprising two epsilonproteo-bacteria and one alphaproteobacte-rium); (3) group 3, containing the teamsfound simultaneously in gammaproteo-bacteria, other proteobacteria, and moredistant taxons (the set included one cya-nobacterium, one bacteroidete, one spi-rochete, one chlamydiae, and one ther-motogae). Figure 6 illustrates the phylo-genetic distribution of the 245 fullyrecovered operons. While 14 operons

are specific to E. coli, 96 operons were recovered only within thegammaproteobacteria (group 1), and 33 extra operons were alsofound in other proteobacteria (group 2). Surprisingly enough, the116 remaining operons were also fully recovered within at leastone of the more distant species (group 3). See Supplemental ma-terial, part 3, for the list of operons and their phylogenetic dis-tribution.

Figure 5. An example of a team (� = 3) found in four bacteria. This team corresponds to the “su-peroperon” yjeFE-amiB-mutL-miaA-hfq-hflXKC in the RegulonDB database, from b4167 to b4175 in E.coli. The conserved team thus extends beyond this operon. Some proteins do not contain a Pfam label(arrowheads). However, DomainTeams could retrieve the entire operon (and more) because theseproteins are considered as insertions. The proteins are labeled by the “ordered locus name” of theirgenes.

Figure 6. Diagram of the phylogenetic distribution of 245 E. coli op-erons (of 309) fully recovered by at least one domain team in the set of15 Gram� bacteria. The figure shows the distribution of the operons asa function of the number of chromosomes in which the operons wereidentified as syntenic. Each class has been divided into three categories,depending on the species where the teams were found, i.e., only ingammaproteobacteria or only in proteobacteria, or also in other taxons.Thus 96 operons (gray) were recovered only within close species (gam-maproteobacteria), but the diagram shows that 149 other operons areconserved in more distant bacteria. Fourteen operons (class 1) werefound only in E. coli.

Domain teams

Genome Research 5www.genome.org

Page 80: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Limitations of domain teams identification

However sensitive the method is, DomainTeam may report falsenegatives in those cases where adjacent protein-coding genes arenot labeled with a Pfam domain. Conversely, DomainTeam mayresult in false positives due to “promiscuous domains” of broadspecificity (Marcotte et al. 1999b; see also, Harlow et al. 2004)that link otherwise unrelated proteins. An empirical score aimedat ranking the observed sets of teams has been designed to reducethe number of false positives.

The DomainTeam algorithm relies on pre-existing Pfam an-notations of proteomes. As of December 2004, the Pfam librarycovers 74% of the proteins in SWISS-PROT/TrEMBL. This meansthat, on average, one protein in four is not (so far) labeled with aPfam domain. As shown in Table 2, the Pfam coverage of com-plete proteomes is heterogeneous and varies from 96% for Buch-nera aphidicola (a symbiotic bacterium endowed with a small ge-nome) down to 40% for the archaebacterium Aeropyrum pernix.Obviously, DomainTeam will inevitably miss these unlabeledproteins and their corresponding genes. Most of the time, how-ever, they will simply be considered as insertions within theteams (a false negative will be obtained when n consecutive genesare unlabeled, with n � �). In order to apply DomainTeam toa newly sequenced genome, one would have first to annotatethe proteins with the HMMER series of programs (http://hmmer.wustl.edu/), which may not be trivial. Since the aim ofDomainTeam is not to supercede other tools dedicated to thesearch of microsyntenies, but to allow a more sensitive approach,we would rather advise using GeneTeam (Luc et al. 2003) as a firstglobal approach for the study of a genome devoid of Pfam an-notations.

Although microsyntenic regions can be found across eu-karyotic genomes (e.g., Oh et al. 2002; Jaillon et al. 2004), thesituation here is so complicated by the presence of promiscuousdomains, tandemly duplicated genes, and alternative splicing,that DomainTeam does not seem to perform better than otherexisting tools for higher eukaryotic species.

Some “promiscuous domains,” such as DNA-binding do-mains, increase the number of small uninteresting teams. Weaddressed this problem through the use of a simple and empiricalscore, aimed at ranking the observed sets of teams as a functionof the number of different domains they contain and the numberof different chromosomes they belong to. For one set of a given�-team, let np be the number of proteins in the team (not count-ing those proteins having one or more orphan Pfam label[s]), ndthe number of different domains, no the number of occurrencesof the team, and m the weighted mean of the frequencies of thedomains in the set (m = ∑i ni * fi with ni the number of times the

domain i appears in the team and fi thefrequency of the domain i in the set).The score S is defined as

S = 10 � log10 [(np/no) * (nd/m)].

The best ranks are for those teamshaving a high number of proteinsper chromosome (np/no) with a highnumber of different domains (nd)and a low number of promiscuousdomains (1/m). It is our experiencethat teams with S > 90 are potentially in-teresting. See Supplemental material,part 4, as an example of the average

number of proteins per occurrence in those teams having ascore � 90.

Practical computing considerations

The computation time required to compare a set of chromo-somes is a function of the number of chromosomes, the numberof proteins in the set, the value of �, and the degree of conser-vation between the organisms under study. We tested the effi-ciency of DomainTeam on a 1 Ghz Sun ultrasparc III+ processor.The comparison with � = 3 was performed in 5 min for the set of16 Archaebacteria, 320 min for the set of 15 Gram� bacteria(containing very close species), and 29 min for the set of 13Gram+ bacteria. Thus, DomainTeam can compare a large numberof chromosomes in a reasonable time. See Supplemental mate-rial, part 5, for more information about computing consider-ations.

Conclusions

Most of the methods aimed at detecting chromosomal regions ofconserved gene content are based on the sequence similaritiesbetween the encoded proteins. We have shown that labeling thegenes with the Pfam domain(s) of the proteins they code for,coupled with the notion of teams, adds an extra sensitivity to theprocess and makes it possible to compare simultaneously morethan 10 chromosomes in a reasonable time. In addition, the pro-gram DomainTeam performs both inter- and intrachromosomalcomparisons at the same time. It should prove a useful comple-ment to other existing methods.

Methods

Chromosome tables and Pfam annotationsThe chromosomal ordered lists (chromosome tables) of the bac-terial genes and their products (together with their UniProt IDs)were downloaded from the EBI “proteome” site (http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do). The Pfam an-notations pertaining to the above-mentioned proteomes weredownloaded from ftp://ftp.sanger.ac.uk/pub/databases/Pfam/database-files.

Bacterial setsThe bacterial sets used in this study were as follows:

Set of 15 Gram� bacteria: Anabaena sp, Bacteroides thetaio-taomicron, Borrelia burgdorferi, Campylobacter jejuni NCTC 11168,Chlamydia muridarum, Escherichia coli K12, Haemophilus influen-zae, Helicobacter pylori ATCC 700392, Pseudomonas aeruginosa,

Table 2. Coverage of the Pfam database

Number ofgenomes

Meancoverage (%) Highest coverage (%) Lowest coverage (%)

Eukaryota 17 64 75 49Arabidopsis thaliana Plasmodium falciparum

Bacteria 157 76 96 44Buchnera apidicola Rhodospirellula baltica

Archae 19 66 79 40Pyrococcus abyssi Aeropyrum pernix

The coverage of a complete proteome is the number of its proteins (in percent) that contain one ormore Pfam domain(s). The data have been extracted from the Pfam Web site (December 2004).

Pasek et al.

6 Genome Researchwww.genome.org

Page 81: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Rhizobium loti, Salmonella typhi, Thermotoga maritima, Vibrio cho-lerae, Xylella fastidiosa, Yersinia pestis CO-92.

Set of 13 Gram+ bacteria: Bacillus subtilis, Bifidobacteriumlongum, Clostridium perfringens, Corynebacterium efficiens, Deino-coccus radiodurans, Enterococcus faecalis, Lactococcus lactis, Lacto-bacillus plantarum, Listeria monocytogenes, Mycobacterium leprae,Oceanobacillus iheyensis, Staphylococcus aureus N315, Streptococcusagalactiae serotype V.

Set of 16 archaebacteria: Aeropyrum pernix, Archaeoglobusfulgidus, Halobacterium sp, Methanobacterium thermoautotrophi-cum, Methanococcus jannaschii, Methanopyrus kandleri, Methanosar-cina acetivorans, Methanosarcina mazei, Pyrococcus abyssi, Pyrobacu-lum aerophilum, Pyrococcus furiosus, Pyrococcus horikoshii, Sulfolo-bus solfataricus, Sulfolobus tokodaii, Thermoplasma acidophilum,Thermoplasma volcanium.

DomainTeamThe program DomainTeam is written in standard ANSI C and wasrun under both the Linux kernel 2.4.21 (Intel Pentium III at 1.3GHz) and Sun Solaris 9 (Ultrasparc III+ at 1 Ghz) operating sys-tems. The full results of DomainTeam for the Gram� and Gram+and archaebacteria can be viewed and queried by gene namefrom http://lgi.infobiogen.fr/DomainTeams. The DomainTeamprogram is freely available on request for academic purposes.Binary codes and scripts to display graphical outputs can be ob-tained from the same URL (Downloads). See also the link ‘Over-view of the software’ for an explanation of the text output formatof DomainTeam.

Acknowledgments

We thank the Infobiogen team for their patience and under-standing during very long runs and M. Marshall from the Pfamteam for her help in retrieving the proper annotation files.

References

Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller,W., and Lipman, D.J. 1997. Gapped BLAST and PSI-BLAST: A newgeneration of protein database search programs. Nucleic Acids Res.25: 3389–3402.

Andreeva, A., Howorth, D., Brenner, S.E., Hubbard, T.J., Chothia, C.,and Murzin, A.G. 2004. SCOP database in 2004: Refinementsintegrate structure and sequence family data. Nucleic Acids Res.32: D226–D229.

Bateman, A., Coin, L., Durbin, R., Finn, R.D., Hollich, V.,Griffiths-Jones, S., Khanna, A., Marshall, M., Moxon, S.,Sonnhammer, E.L., et al. 2004. The Pfam protein families database.Nucleic Acids Res. 32: D138–D141.

Bergeron, A., Corteel, S., and Raffinot, M. 2002. The algorithmic of geneteams. Lecture Notes Comput. Sci. 2452: 464–476.

Calabrese, P.P., Chakravarty, S., and Vision, T.J. 2003. Fast identificationand statistical evaluation of segmental homologies in comparativemaps. Bioinformatics 19: i74–i80.

Durand, D. and Sankoff, D. 2003. Tests for gene clustering. J. Comput.Biol. 10: 453–482.

Eddy, S.R. 1998. Profile hidden Markov models. Bioinformatics14: 755–763.

Enright, A.J. and Ouzounis, C.A. 2001. Functional associations ofproteins in entire genomes by means of exhaustive detection of genefusions. Genome Biol. 2: research0034.1–0034.7.

Enright, A.J., Iliopoulos, I., Kyrpides, N.C., and Ouzounis, C.A. 1999.Protein interaction maps for complete genomes based on genefusion events. Nature 402: 86–90.

Fujibuchi, W., Ogata, H., Matsuda, H., and Kanehisa, M. 2000. Aheuristic graph comparison algorithm and its application to detectfunctionally related enzyme clusters. Nucleic Acids Res.28: 4021–4028.

Fukuda, Y., Washio, T. and Tomita, M. 1999. Comparative study ofoverlapping genes in the genomes of Mycoplasma genitalium and

Mycoplasma pneumoniae. Nucleic Acids Res. 27: 1847–1853.Galperin, M.Y. and Koonin, E.V. 2000. Who’s your neighbor? New

computational approaches for functional genomics. Nat. Biotech.18: 609–613.

Ghai, R., Torsten Hain, T. and Chakraborty, T. 2004. GenomeViz:Visualizing microbial genomes. BMC Bioinformatics 5: 198.

Gribskov, M., McLachlan, A.D., and Eisenberg, D. 1987. Profile analysis:Detection of distantly related proteins. Proc. Natl. Acad. Sci.84: 4355–4358.

Harlow, T.J., Gogarten, J.P., and Ragan, M.A. 2004. A hybrid clusteringapproach to recognition of protein families in 114 microbialgenomes. BMC Bioinformatics 5: 45.

He, X. and Goldwasser, M. 2004. Identifying conserved gene clusters inthe presence of orthologous groups. In Proceedings of the EighthAnnual International Conference on Computational Molecular Biology(RECOMB) 2004 (eds. P.E. Bourne and D. Gusfield), pp. 272–280.ACM, New York.

Jaillon, O., Aury, J-M., Brunet, F., Petit, J-L., Stange-Thomann, N.,Mauceli, E., Bouneau, L., Fischer, C., Ozouf-Costaz, C., Bernot, A., etal. 2004. Genome duplication in the teleost fish Tetraodon nigroviridisreveals the early vertebrate proto-karyotype. Nature 431: 946–957.

Kadner, R.J. 1996. Cytoplasmic membrane. In Escherichia coli andSalmonella typhimurium, cellular and molecular biology (eds. F.C.Neidhardt et al.), pp. 58–87. ASM Press, Washington, DC.

Kanehisa, M., Goto, S., Kawashima, S., Okuno, Y., and Hattori, M. 2004.The KEGG resource for deciphering the genome. Nucleic Acids Res.32: D277–D280.

Koonin, E.V., Arawind, L., and Kondrashov, A.S. 2000. The impact ofcomparative genomics on our understanding of evolution. Cell101: 573–576.

Korbel, J.O., Jensen, L.J., von Mering, C., and Bork, P. 2004. Analysis ofgenomic context: Prediction of functional associations fromconserved bidirectionally transcribed gene pairs. Nat. Biotech.22: 911–917.

Luc, N., Risler, J-L., Bergeron, A., and Raffinot, M. 2003. Gene teams: Anew formalization of gene clusters for comparative genomics.Comput. Biol. Chem. 27: 59–67.

Marcotte, E.M., Pellegrini, M., Thompson, M.J., Yeates, T.O., andEisenberg, D. 1999a. A combined algorithm for genome-wideprediction of protein function. Nature 402: 83–86.

Marcotte, E.M., Pellegrini, M., Ho-Leung, N., Rice, D.W., Yeates, T.O.,and Eisenberg, D. 1999b. Detecting protein function andprotein–protein interactions from genome sequences. Science30: 751–753.

Nye, T.M., Berzuini, C., Gilks, W.R., Babu, M.M., and Teichmann, S.A.2004. Statistical analysis of domains in interacting protein pairs.Bioinformatics 21: 993–1001.

Oh, K.C., Hardeman, C., Ivanchenko, M.G., Ellard-Ivet, M., Nebenfür,A., White, T.J., and Lomax, T.L. 2002. Fine mapping in tomato usingmicrosynteny with the Arabidopsis genome: The Diageotropica (Dgt)locus. Genome Biol. 3: research0049.1–0049.11.

Overbeek, R., Fonstein, M., D’Souza, M., Pusch, G.D., and Maltsev, N.1999. The use of gene clusters to infer functional coupling. Proc.Natl. Acad. Sci. 96: 2896–2901.

Passarge, E., Horsthemke, B., and Farber, R.A. 1999. Incorrect use of theterm synteny. Nat. Genet. 23: 387.

Patthy, L. 2003. Modular assembly of genes and the evolution of newfunctions. Genetica 118: 217–231.

Pevzner, P. and Tesler, G. 2003. Genome rearrangements in mammalianevolution: Lessons from human and mouse genomes. Genome Res.13: 37–45.

Salgado, H., Gama-Castro, S., Martinez-Antonio, A., Diaz-Peredo, E.,Sanchez-Solano, F., Peralta-Gil, M., Garcia-Alonso, D.,Jimenez-Jacinto, V., Santos-Zavaleta, A., Bonavides-Martinez, C., etal. 2004. RegulonDB (version 4.0): Transcriptional regulation,operon organization and growth conditions in Escherichia coli K-12.Nucleic Acids Res. 32: D303–D306.

Sali, A. 1999. Functional links between proteins. Nature 402: 23–26.Sankoff, D. 2003. Rearrangements and genome evolution. Curr. Opin.

Gen. Dev. 13: 583–587.Suhre, K. and Claverie, J-M. 2004. FusionDB: A database for in-depth

analysis of prokaryotic gene fusion events. Nucleic Acids Res.32: D273–D276.

Suyama, M. and Bork, P. 2001. Evolution of prokaryotic gene order:Genome rearrangements in closely related species. Trends Genet.17: 10–13.

Tamames, J. 2001. Evolution of gene order conservation in prokaryotes.Genome Biol. 2: 0020.1–0020.11.

Tang, J. and Moret, B.M. 2003. Scaling up accurate phylogeneticreconstruction from gene-order data. Bioinformatics 19: i305–i312.

Vogel, C., Bashton, M., Kerrison, N.D., Chothia, C., and Teichmann, S.A.

Domain teams

Genome Research 7www.genome.org

Page 82: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

2004. Structure, function and evolution of multidomains proteins.Curr. Opin. Struct. Biol. 14: 208–216.

von Mering, C., Huynen, M., Jaeggi, D., Schmidt, S., Bork, P., and Snel,B. 2003. STRING: A database of predicted functional associationsbetween proteins. Nucleic Acids Res. 31: 258–261.

Yanai, I., Derti, A., and DeLisi, C. 2001. Genes linked by fusion eventsare generally of the same functional category: A systematic analysisof 30 microbial genomes. Proc. Natl. Acad. Sci. 98: 7940–7945.

Yanai, I., Wolf, Y.I., and Koonin, E.V. 2002. Evolution of gene fusions:Horizontal transfer versus independent events. Genome Biol.3: research0024.1–0024.13.

Yona, G., Linial, N., and Linial, M. 1999. Protomap: Automaticclassification of protein sequences, a hierarchy of protein families,and local maps of the protein space. Proteins 37: 360–378.

Web site references

ftp://ftp.sanger.ac.uk/pub/databases/Pfam/database-files; The directory ofthe Pfam ftp server that contains the Pfam annotations of theproteins in UniProt.

http://hmmer.wustl.edu/; HMMER series of programs.http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do; The proteome

Home Page at EBI.http://lgi.infobiogen.fr/DomainTeams; DomainTeams full results and

code downloads.

Received January 3, 2005; accepted in revised form March 28, 2005.

Pasek et al.

8 Genome Researchwww.genome.org

Page 83: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 4 : Article 2, l’évolution des protéines multi-domaines74

ANNEXE 4 : Article 2, l’évolution des protéines multi-

domaines

Pasek S, Risler JL, Brezellec P. 2006a. Gene fusion/fission is a major contributor to

evolution of multi-domain bacterial proteins. Bioinformatics. 22(12):1418-1423.

Page 84: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Vol. 22 no. 12 2006, pages 1418–1423

doi:10.1093/bioinformatics/btl135BIOINFORMATICS DISCOVERY NOTE

Genome analysis

Gene fusion/fission is a major contributor to evolution of

multi-domain bacterial proteinsSophie Pasek1,2,�, Jean-Loup Risler1 and Pierre Brezellec11Laboratoire Statistique et Genome, 523 Place des Terrasses, 91034 Evry cedex, France and2Soluscience, Biopole Clermont-Limagne, 63360 Saint-Beauzire, France

Received on February 13, 2006; revised on March 22, 2006; accepted on April 3, 2006

Advance Access publication April 6, 2006

Associate Editor: Alex Bateman

ABSTRACT

Most proteins comprise one or several domains. New domain architec-

tures can be created by combining previously existing domains. The

elementary events that create new domain architectures may be cate-

gorized into three classes, namely domain(s) insertion or deletion

(indel), exchange and repetition. Using ‘DomainTeam’, a tool dedicated

to the search for microsyntenies of domains, we quantified the relative

contribution of these events. This tool allowed us to collect homologous

bacterial genes encoding proteins that have obviously evolved by

modular assembly of domains. We show that indels are the most

frequent elementary events and that they occur in most cases at either

the N- or C-terminus of the proteins. As revealed by the genomic

neighbourhood/context of the corresponding genes, we show that a

substantial number of these terminal indels are the consequence of

gene fusions/fissions. We provide evidence showing that the contribu-

tion of gene fusion/fission to the evolution of multi-domain bacterial

proteins is lower-bounded by 27% and upper-bounded by 64%. We

conclude that gene fusion/fission is a major contributor to the evolution

of multi-domain bacterial proteins.

Contact: [email protected]

Supplementary information: Supplementary data are available at

http://stat.genopole.cnrs.fr/domainteams/Bioinformatics/results.html

INTRODUCTION

Most of the proteins harbour two or more domains [such as those

stored in SCOP (Andreeva et al., 2004) or Pfam (Bateman et al.,2004)], which results in a wide variety of domain combinations

(Bornberg-Bauer et al., 2005; Orengo and Thornton, 2005). Since

domains are considered as essential units for the modular assembly

of new genes (Doolittle, 1995; Patthy, 2003; Vogel et al., 2004a),

statistics on these combinations and on the distribution of the num-

ber of domains in proteins have been extensively analysed (Koonin

et al., 2002; Vogel et al., 2004b). Recently, Bjorklund and collab-

orators (Bjorklund et al., 2005) have introduced a novel measure,

called Domain Distance, which they define as the number of

unmatched domains in an alignment of two domain architectures.

Using this measure, they were able to quantify the elementary

events [i.e. domain(s) insertion/deletion (indel), repetition and

exchange] that distinguish a protein from its closest neighbour.

However, to date, little is known about the relationships between

these elementary events and the molecular mechanisms they

originate from. We report here an analysis aiming at finding

which molecular mechanisms are the sources of new domain

combinations.

To investigate this question, we first searched for proteins that

have obviously evolved by modular assembly of domains. The

search for modular reshaped homologs, i.e. proteins encoded by

genes derived from a common ancestor, is not as simple as it

could seem [see Fitch (2000) and Koonin (2005)]. First, the impact

of ‘evolutionary/elementary’ events on homology is that different

parts (encoding distinct domains) of genes in one species may be

orthologous to different genes in another species (in case of a gene

fusion for instance). Second, classical methods based on sequence

similarities cannot detect properly those homologous relatives that

do not possess strictly the same domain architecture (Weiner et al.,2005). On the contrary, relying exclusively on the domain archi-

tectures to conclude on homology may result in linking too weakly

related proteins. This can bias the quantification of the elementary

events. As an example, consider two proteins p1 and p2 of respec-

tive domain architectures AC and ABC (where A, B and C are

domains). One may infer that an internal insertion (deletion) of

domain B occurred between p1 and p2. However, if p1 and p2

are weakly related and if there exists another protein p3 of domain

architecture AB closer to p2, one would rather infer a terminal

insertion (deletion) of domain C between p2 and p3. This is the

reason why we searched only for strongly related proteins and based

our search for homologs on the syntenic context of the genes. This

one was determined using the DomainTeam software (Pasek et al.,2005, http://stat.genopole.cnrs.fr/domainteams/). In a first step,

DomainTeam splits the proteins into their PfamA domains

(Bateman et al., 2004). It then searches across several genomes

for strings of domains that are conserved in their content but not

necessarily in their order.

Using a definition of homology based on both domains and the

syntenic context, we then collected sets of homologous proteins

containing at least one reshaped protein, i.e. sets in which at

least one protein differed from all the other proteins by one and

only one elementary event. The subsequent analysis of these sets

showed that (1) internal domain(s) indel and domain exchange are

rare events whereas indels at either the N- or C-terminus are the

most common events, (2) the genomic contexts of those genes

reshaped by terminal indels reveal that a substantial number of

them originate from gene fusion/fission. We show that the contribu-

tion of gene fusion/fission events to the evolution of multi-domain�To whom correspondence should be addressed.

1418 � The Author 2006. Published by Oxford University Press. All rights reserved. For Permissions, please email: [email protected]

Page 85: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

bacterial proteins is bounded between 27 and 64%. We conclude

that gene fusion/fission is a major contributor to modular evolution

of multi-domain bacterial proteins.

MATERIALS AND METHODS

Domain architecture definition

The domain architecture of a protein is defined as the ordered pattern of its

PfamA domains (Bateman et al., 2004) from the N- to the C-terminus.

Definition of the elementary events

The elementary events that create new domain architectures can be categor-

ized into three different classes (Bjorklund et al., 2005): domain(s)

exchange, indel (insertion/deletion) and repetition (Fig. 1a). Exchange of

domain is the substitution of one domain for another. Insertion (resp.

deletion) is the addition (resp. excision) of a new domain(s) different

from the adjacent domains. Repetition is the addition of the same domain(s)

as one of the adjacent domains. Note that domain indels can be classified into

two categories depending on their positions (Fig. 1b). An internal indel

occurs in the middle of a protein (i.e. between two domains) while a terminal

indel occurs at either the N- or C- terminus. In order to determine the

positions of the indels, we only considered architectures with more than

two domains (two-domain proteins are often created from two single-domain

proteins and, as a result, the position (internal or terminal) of the domains is

irrelevant). We did not distinguish between insertion and deletion, as this is

not possible using domain architectures only. Whether it is an insertion or a

deletion, the difference between the two architectures should involve at least

25 amino acids (the size of a short Pfam domain).

Similarity between domain architectures

The similarity between two domain architectures Arch1 and Arch2 is defined

as the ratio intersection/cardinal where

1. intersection is defined as the number of domains that appear in both

architectures and

2. cardinal is defined as max(card1,card2) where card1 (resp. card2) is the

number of domains that compose Arch1 (resp. Arch2).

Two identical domain architectures have a similarity value of 1 and,

conversely, architectures with no domain in common have a similarity

value of 0. Note that in this study, we imposed that (1) at least two domains

have to be shared by the two architectures to consider that a similarity value

can be calculated, (2) two domain architectures which differ by more than

one elementary event are not taken into account.

Genomic context: syntenies of domains

The syntenic context of the genes was determined using the

DomainTeam software [see Pasek et al. (2005), http://stat.genopole.cnrs.

fr/domainteams/]. In the first step, DomainTeam splits the proteins into

their PfamA domains (Bateman et al., 2004). It then searches across several

genomes for strings of domains that are conserved in their content but not

necessarily in their order. A set of such ‘conserved strings’ is called a

‘domain team’ whereas each ‘conserved string’ is called an occurrence

(Fig. 2).

DomainTeam is a tool that allows to process simultaneously

intra-genomic and inter-genomic comparisons. The user-defined parameter

d, which specifies the maximal number of ‘foreign’ domains inserted

Fig. 1. Classification of the elementary events involved in the evolution of protein domain architectures. (a) The elementary events which create new domain

architectures can be categorized into three different classes: domain(s) exchange, indel and repetition. Exchange of domain is the substitution of one domain for

another. Insertion (resp. deletion) is the addition (resp. excision) of new domain(s) other than the adjacent domain(s) whereas repetitions are the addition of the

same domain(s) as one of the adjacent domain(s). (b) Domain(s) indel can be divided into two categories depending on the position of the indel. An internal indel is

an indel which occurs in the middle of a protein (i.e. between two domains). A terminal indel occurs at either the N- or C-terminus of a protein.

Evolution of multi-domain proteins

1419

Page 86: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

between two domains belonging to the team, was set to 2. We discarded from

this study all the domain teams having a score <90 [see Pasek et al. (2005) for

the definition of the score of a domain team].

Identification of sets of homologous and

reshaped proteins

Homologous proteins (i.e. proteins encoded by genes deriving from a com-

mon ancestor) are defined as follows:

1. They are located in the same syntenic context (i.e. in two different

occurrences of the same domain team).

2. Their domain architectures are the most similar in the domain team

(where similarity is defined in the section ‘Similarity between domain

architectures’).

A reshaped protein is defined as a protein which differs from its homo-

log(s) by one and only one elementary event.

Sets of homologous proteins containing at least one reshaped protein were

built by considering each pair of occurrences in a domain team and by

performing an all by all protein domain architecture comparison. For

instance, in the example given in Figure 2, HI0147 is detected as a terminal

indel with respect to its homolog VC1777.

The results have been manually verified by considering also the Pfam

‘context domains’ [Context domains are added by Pfam when a highly

probable domain of a protein is not detected since its signature is lower

than the PfamA threshold (Coin et al., 2003)] or the SMART domains

(Letunic et al., 2004).

Bacterial sets

The bacterial sets used in this study are as follows:

Gram�: Anabaena sp., Bacteroides thetaiotaomicron, Borrelia

burgdorferi, Campylobacter jejuni NCTC 11168, Chlamydia muridarum,

Escherichia coli K12, Haemophilus influenzae, Helicobacter pylori ATCC

700392, Pseudomonas aeruginosa, Rhizobium loti, Salmonella typhi, Ther-motoga maritima, Vibrio cholerae, Xylella fastidiosa, Yersinia pestis CO-92.

Gram+: Bacillus subtilis, Bifidobacterium longum, Clostridium

perfringens, Corynebacterium efficiens, Deinococcus radiodurans,Enterococcus faecalis, Lactococcus lactis, Lactobacillus plantarum, Listeria

monocytogenes, Mycobacterium leprae, Oceanobacillus iheyensis,

Staphylococcus aureus N315, Streptococcus agalactiae serotype V.

The PfamA annotations pertaining to the above-mentioned proteomes

were downloaded from ftp://ftp.sanger.ac.uk/pub/databases/Pfam/

database-files

RESULTS

We ran ‘DomainTeam’ on two sets of complete bacterial

genomes (see Materials and Methods). The first set comprised

15 Gram-negative bacteria and the second 13 Gram-positive (see

Materials and Methods). Homologous reshaped proteins were

searched for in the 8491 best-scoring domain teams (see Materials

and Methods). We rejected those multi-domain proteins that could

result from more than one ‘elementary event’, i.e. domain indel,

exchange or repetition (see Fig. 1a and Materials and Methods).

Fig. 2. Schematic representation of a domain team and identification of homologous genes. (see also http://stat.genopole.cnrs.fr/domainteams/html/Gram-/2/

IM_dt_15gram-_d3_203.html). Here is an example of a domain team across the genomes of H.influenzae (haein) and V.cholerae (vibch). This team contains 11

domains labelled by their Pfam number, i.e. {PF00480, PF00597, PF00701, PF01380, PF01344, PF01418, PF01979, PF03480, PF04131, PF04290, PF06808}.

Proteins are reconstructed and symbolized by grey rectangles. They are labelled with the ordered locus names of their genes. This synteny of domains presents

several local rearrangements. Thus, for instance, domain PF01182 inH.influenzae is absent inV.cholerae. The Pfam number of such a domain is encapsulated by

‘#’. The VC1780 gene in V.cholerae is not annotated in Pfam. Its ordered locus name is therefore encapsulated by ‘�’. The horizontal dotted arrows denote the

forward or reverse orientation of the genes in the genomes. The double arrows indicate pairs of proteins that are homologous (see Materials and Methods).

S.Pasek et al.

1420

Page 87: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Moreover, in order to fairly evaluate the relative proportion of

the elementary events, we retained only the reshaped proteins

with at least three domains. Otherwise, the position (internal or

terminal) of the domains is irrelevant. Indeed, we observed that

the vast majority of the two-domain reshaped proteins correspond

to either N- or C-terminal indels. Considering these two-domain

reshaped proteins would have led to underestimate internal indel.

Finally, 141 sets of homologous proteins, each set containing at

least one reshaped protein, were selected for analysis (see Supple-

mentary Material Table S1 for the list of the 141 sets). These sets

were classified according to the elementary events defined in

Materials and Methods (Fig. 1a and b). Table 1 shows that the

domain teams cover �70% of the genes of the 28 bacteria

considered in this study, providing strong support to the

conclusions of our analysis.

The contribution of gene fusion/fission events to the

evolution of bacterial multi-domain proteins is

lower-bounded by 27%

Indels are the most frequent events (95 out of 141, see Table 2).

Among indels, the most numerous ones are terminal indels (90 out

of 95, see Table 2), which substantiates a study carried out by

Bjorklund and co-workers (Bjorklund et al., 2005). A statistical

analysis shows that the number of terminal indels compared with

internal indels is significantly greater than that expected by chance

(see Supplementary file S4 for the statistical test). This led us to

explore the mechanisms that could explain the over-representation

of terminal indels. Two documented mechanisms have been

proposed to drive terminal indels: gene fusion/fission (Riley and

Labedan 1997; Yanai et al., 2001) and ‘intra-domain recombi-

nation’ as exemplified by O’Sullivan et al. (2000).

A careful analysis of the syntenic contexts of the proteins

reshaped by terminal indels reveals that 42% (38 out of 90) of

these correspond to what we called a ‘straightforward fusion/fis-

sion’ (Table 3) and thus have been obviously rearranged by gene

fusion/fission [see Supplementary material Table S2 for the KEGG

(Kanehisa et al., 2004) and COG (Tatusov et al., 2000) annotations

of the straightforward fusions/fissions]. An example of ‘straightfor-

ward fusion/fission’ is given in Figure 2 where gene HI0147 from

H.influenzae corresponds to the straightforward fusion of genes

VC1777 and VC1778 from Vibrio cholerae. The notion of ‘straight-

forward fusion/fission’ correlates well with a study of Yanai and

co-workers (Yanai et al., 2002) suggesting that evolution by gene

fusion involves an intermediate stage during which the future fusion

components co-exist as juxtaposed but still distinct genes.

On the whole, 38 events out of 141 clearly correspond to gene

fusions/fissions. Thus, it can be estimated that the contribution of

gene fusion/fission to the evolution of multi-domain proteins is 27%

(38/141). This is a lower bound. Indeed, we assumed here that none

of all the ‘other terminal indels’ (52 ¼ 90 � 38) is because of a gene

fusion/fission event. Yet, a terminal indel which is not substantiated

by a straightforward fusion/fission may be explained by a process

involving gene fusion/fission. This point is addressed in the

Discussion section.

Terminal repetitions are not explained by gene

fusion/fission

According to Andrade et al. (2001) ‘repeats are thought to arrive via

intragenic duplication and recombination event’. Our results

correlate well with this suggestion. Indeed, among the 34 cases

of terminal domain repetitions, only 3 are because of straight-

forward fusions/fissions whereas 31 are not (data not shown).

This indicates that domain repetitions do not mainly occur through

gene fusions/fissions. It also demonstrates that our methodology

(i.e. the way we collected our data set of homologous multi-domain

proteins) is sound and correct.

DISCUSSION

The contribution of gene fusion/fission events to the

evolution of bacterial multi-domain proteins is

upper-bounded by 64%

As outlined before, we showed that 42% of terminal indels

are detected as straightforward fusion/fissions. The importance of

this percentage led us to design a scenario by which the terminal

indels that do not correspond to straightforward fusions could

nevertheless be explained by a process of gene fusion. The scenario

Table 1. Overview of the syntenic data

15 Gram� 13 Gram+ 28 Bacteria

Number of genes 50 076 35 814 85 890

Number of domain teams 5115 3376 8491

Number of syntenic genesa 35 129 24 723 59 852

Number of inserted genesb 1870 1440 3310

aA ‘syntenic gene’ is a gene belonging to at least one domain team. Such genes represent

�70% (59 852/85 890) of the genes considered in our study.bAn ‘inserted gene’ is a gene located in a ‘domain team’, the domains of which do not

belong to the considered syntenic stretch. Such genes are found in�40% (3310/8491) of

the ‘domain teams’.

Table 2. Distribution of the different elementary events involved in the

creation of new domain architectures

15 Gram� 13 Gram+ 28 Bacteria

Exchange 6 4 10

Indel 55 40 95

Internal indel 2 3 5

Terminal indel 53 37 90

Repetition 21 15 36

Internal repetition 1 1 2

Terminal repetition 20 14 34

Table 3. Distribution of the different terminal indels

15 Gram� 13 Gram+ 28 Bacteria

Straightforward fusion 21 17 38

Other terminal indel 32 20 52

Total 53 37 90

Evolution of multi-domain proteins

1421

Page 88: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

is based on the three-step procedure depicted in Figure 3. As

shown in Table 1, �40% of the domain teams host an ‘inserted

gene’, i.e. a gene coding for a protein, the domains of which do

not belong to the syntenic stretch. This is in agreement with the

observation that the structure of bacterial genomes is highly

dynamic (Casjens, 1998; Tillier and Collins, 2000; Omelchenko

et al., 2003; Rocha, 2004). Therefore, a gene can easily be

inserted into a syntenic genome stretch. If such a gene fuses

with one of its neighbours, then no mark will remain to indicate

that this terminal indel is the result of a gene fusion. In a similar

way, a gene may be split into two parts and one part may be

excised from the syntenic stretch; as in the case of fusion, no

mark will remain to indicate that this terminal indel is the result

of a gene fission. This suggests that some (or many) of the ‘other

terminal indels’ may well be attributed to plain gene fusions/fis-

sions, increasing the prevalence of this evolutionary process. As a

consequence, talking about ‘domain shuffling’ might be misleading

in many cases. Indeed, a majority of new domain architectures

might be better explained by ‘gene shuffling’ followed by fusion

events. That is to say, domains do not shuffle but genes do and after

their shuffling, genes may eventually fuse.

Based on the scenario described above, an upper bound of the

contribution of gene fusion/fission to the evolution of multi-domain

proteins can be estimated by assuming that all the ‘other terminal

indels’ are because of plain gene fusion/fission. This gives an upper

estimate of 64% (90/141).

Our aim here is not to rule out other mechanisms as being con-

tributors to evolution of bacterial multi-domain proteins. However,

we believe that gene fusion/fission might be the major contributor.

Riley and Labedan (1997) already suggested that any multi-domain

proteins might be the result of gene fusion. Kummerfeld and

Teichmann (2005) showed that fusion/fission are frequent events

(fusion being four times more frequent than fission). However, to

draw their conclusion, these two works rely on bases which are not

as firm as it seems. Thus, for instance, Kummerfeld and Teichmann

(2005) looked for domain architectures that are present as a single

protein in at least one genome (composite form) and as a set of

shorter proteins in other genomes (split form), irrespective of the

Fig. 3. Scenario: ‘Other terminal indels’ explained by gene fusion. (a) Gene insertion into a syntenic stretch [see Tillier and Collins (2000) for instance]. (b)

Conservation of the new inserted gene within the syntenic stretch. (c) Fusion between the inserted gene and one of its neighbour. The pictured scenario could

explain the link between ‘Other terminal indels’ and gene fusion. This suggests that ‘other terminal indels’ could be due to gene fusion without footprint of the two

flanking and unfused genes (i.e. straightforward fusion).

S.Pasek et al.

1422

Page 89: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

location on the genome of these shorter proteins. For these authors,

these composite and split domain architectures represent ortholo-

gous proteins. In our opinion, this criterion is too loose while in our

approach, the use of the syntenic context allows to establish an

unambiguous connection between composite and split forms.

Finally, note that a very recently published work (Weiner and

Bornberg-Bauer, 2006) substantiates our analysis since it provides

evidences showing that a particular class of multi-domain protein

rearrangement, called circular permutation, probably evolved

through gene fusion/fission.

Checking for sequencing errors in straightforward

fusions/fissions

To fully assess the methodology used in the present study, we

wondered whether fused/unfused genes could be the result of gene-

prediction or sequencing errors (which would make our results

irrelevant). In the case of bacterial genomes, the object of the

present study, a false straightforward fusion could only be

attributed to a sequencing error such as a nucleotide omission

(Koonin and Galperin, 2003) leading to an artefactual frameshift.

Thus, for each identified straightforward fusion in a domain

team, we searched for the presence of a similar fused (resp. unfused)

form in a set of closely related genomes (w.r.t. the taxonomy).

Indeed, if each of the fused and unfused forms can be identified

in several closely related genomes, the fusion is most unlikely

to be the result of a sequencing error (Kummerfeld and

Teichmann, 2005). It turned out that, according to the previous

criterion, 71% (27 cases) of the straightforward fusions/

fissions detected in this study are not spurious (see Supplementary

Material Table S3 for the results of this analysis). Note that

this analysis required the use of additional genomic sequences

not listed in the bacterial sets.

ACKNOWLEDGEMENTS

The authors are grateful to Jean-Luc Ferat, Meriem El Karoui and to

the members of ABI (University of Paris VI) for helpful discussions.

The authors thank the two anonymous referees for their useful and

relevant comments.

Conflict of Interest: none declared.

REFERENCES

Andrade,M.A. et al. (2001) Protein repeats: structures, functions, and evolution.

J. Struct. Biol., 134, 117–131.

Andreeva,A. et al. (2004) SCOP database in 2004: refinements integrate structure and

sequence family data. Nucleic Acids Res., 32, D226–D229.

Bateman,A. et al. (2004) The Pfam protein families database. Nucleic Acids Res., 32,

D138–D141.

Bjorklund,S.K. et al. (2005) Domain rearrangements in protein evolution. J. Mol. Biol.,

353, 911–923.

Bornberg-Bauer,E. et al. (2005) The evolution of domain arrangements in proteins and

interaction networks. Cell. Mol. Life Sci., 435–445.

Casjens,S. (1998) The diverse and dynamic structure of bacterial genomes. Annu. Rev.

Genet., 32, 339–377.

Coin,L. et al. (2003) Enhanced protein domain discovery by using language modeling

techniques from speech recognition. Proc. Natl Acad. Sci. USA, 100, 4516–4520.

Doolittle,R.F. (1995) The multiplicity of domains in proteins. Annu. Rev. Biochem.,

64, 287–314.

Fitch,W.M. (2000) Homology a personal view on some of the problems. Trends Genet.,

16, 227–231.

Kanehisa,M. et al. (2004) The KEGG resource for deciphering the genome. Nucleic

Acids Res., 32, D277–D280.

Koonin,E.V. (2005) Orthologs, paralogs, and evolutionary genomics. Annu. Rev.

Genet., 39, 309–338.

Koonin,E.V. and Galperin,M.Y. (2003) Sequence—Evolution—Function: Computa-

tional Approaches in Genomics. Kluwer Academic Publisher.

Koonin,E.V. et al. (2002) The structure of the protein universe and genome evolution.

Nature, 420, 218–223.

Kummerfeld,S.K. and Teichmann,S.A. (2005) Relative rates of gene fusion and fission

in multi-domain proteins. Trends Genet., 21, 25–30.

Letunic,I. et al. (2004) SMART 4.0: towards genomic data integration. Nucleic Acids

Res., 32, D142–D144.

Omelchenko,M.V. et al. (2003) Evolution of mosaic operons by horizontal gene trans-

fer and gene displacement in situ. Genome Biol., 4, R55.

Orengo,C.A. and Thornton,J.M. (2005) Protein families and their evolution—a struc-

tural perspective. Annu. Rev. Biochem., 867–900.

O’Sullivan,D. et al. (2000) Novel type I restriction specificities through domain shuff-

ling of HsdS subunits in Lactococcus lactis. Mol. Microbiol., 36, 866–875.

Pasek,S. et al. (2005) Identification of genomic features using microsyntenies of

domains: domain teams. Genome Res., 15, 867–874.

Patthy,L. (2003) Modular assembly of genes and the evolution of new functions.

Genetica, 118, 217–231.

Riley,M. and Labedan,B. (1997) Protein evolution viewed through Escherichia coli

protein sequences: introducing the notion of a structural segment of homology, the

module. J. Mol. Biol., 268, 857–868.

Rocha,E.P. (2004) Order and disorder in bacterial genomes. Curr. Opin. Microbiol., 7,

519–527.

Tatusov,R.L. et al. (2000) The COG database: a tool for genome-scale analysis of

protein functions and evolution. Nucleic Acids Res., 28, 33–36.

Tillier,E.R. and Collins,R.A. (2000) Genome rearrangement by replication-directed

translocation. Nat. Genet., 26, 195–197.

Vogel,C. et al. (2004a) Structure, function and evolution of multidomain proteins.

Curr. Opin. Struct. Biol., 14, 208–216.

Vogel,C. et al. (2004b) Supra-domains: evolutionary units larger than single protein

domains. J. Mol. Biol., 336, 809–823.

Weiner,J.,III et al. (2005) Rapid motif-based prediction of circular permutations in

multidomain proteins. Bioinformatics, 21, 932–937.

Weiner,J.,III and Bornberg-Bauer,E. (2006) Evolution of circular permutations in

multidomain proteins. Mol. Biol. Evol., 23, 734–743.

Yanai,I. et al. (2001) Genes linked by fusion events are generally of the same functional

category: a systematic analysis of 30 microbial genomes. Proc. Natl Acad. Sci.

USA, 98, 7940–7945.

Yanai,I. et al. (2002) Evolution of gene fusions: horizontal transfer versus independent

events. Genome Biol., 3, research0024.

Evolution of multi-domain proteins

1423

Page 90: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

ANNEXE 5 : Article 3, la redondance en domaines 75

ANNEXE 5 : Article 3, la redondance en domaines

Pasek S, Risler JL, Brezellec P. 2006b. The role of domain redundancy in genetic

robustness against null mutations. J Mol Biol. 362(2):184-191.

Page 91: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

The Role of Domain Redundancy in Genetic RobustnessAgainst Null Mutations

Sophie Pasek1,2⁎, Jean-Loup Risler1 and Pierre Brézellec1

1Laboratoire Statistique etGénome, UMR CNRS 8071,523 Place des Terrasses, 91034Evry cedex, France2Soluscience, BiopôleClermont-Limagne, 63360Saint-Beauzire, France

A key question in molecular genetics is why severe gene mutations oftendo not result in a detectable abnormal phenotype. Alternative networksare known to be a gene compensation mechanism. Gene redundancy, i.e.the presence of a duplicate gene (or paralog) elsewhere in the genome,also underpins many cases of gene dispensability. Here, we investigatedthe role of partial duplicate genes on dispensability, where a partialduplicate is defined as a gene that has no paralog but which codes for aprotein made of domains, each of which belongs to at least anotherprotein. The rationale behind this investigation is that, as a partialduplicate codes for a domain redundant protein, we hypothesised that itsdeletion might have a less severe phenotypic effect than the deletion ofother genes. This prompted us to (re)address the topic of genedispensability by focusing on domain redundancy rather than on generedundancy. Using fitness data of single-gene deletion mutants ofSaccharomyces cerevisiae, we will show that domain redundancy is acompensation mechanism, the strength of which is lower than that ofgene redundancy. Finally, we shall discuss the molecular basis of this newcompensation mechanism.

© 2006 Elsevier Ltd. All rights reserved.

*Corresponding authorKeywords: gene dispensability; gene duplication; gene redundancy; proteindomain; domain redundancy

Introduction

Deleting a gene in an organism often has littlephenotypic effect. Such “gene dispensability” isthought to be the result of two main compensationmechanisms: (i) genetic buffering from alternativegene networks, (ii) functional complementationfrom duplicate genes.1–3 The strength and therelative contribution of these two mechanisms arebroadly discussed. For instance, Papp and collea-gues pointed out that the dominant explanation forapparent dispensability is due to the presence in thegenome of genes that seem to be non-essential butthat in fact have key roles under environmentalconditions not yet examined in the laboratory.4

Wagner discussed evidence suggesting that distrib-uted robustness (e.g. network flux reorganisation) isequally or more important for mutational robust-ness than gene redundancy.5 He and Zhang, as forthemselves, provided evidence for the overestima-

tion of the contribution of duplicate genes to geneticrobustness.6,7

If the relative contribution of the two above-mentioned compensation mechanisms is a contro-versial issue, their respective bases are well docu-mented and very different:

(1) Network flux reorganisation provides a wayto compensate the loss of a function by meansof alternative metabolic pathways1 (or alter-native regulatory networks), and

(2) Duplicate genes (or paralogs) can buffer thegenome against gene-deletion because, if onecopy is deleted, another with the same orsimilar function can be used instead.1,2,8–10

To date, the role of gene duplication in genedispensability has focused on completely duplicatedgenes (i.e. genes subjected to a duplication yielding agene copy that is initially completely redundant tothe ancestral copy with respect to sequence andfunctionality). De facto, the role of “partial duplicategenes,” i.e. genes created through (partial orcomplete) gene duplication in conjunction with

E-mail address of the corresponding author:[email protected]

doi:10.1016/j.jmb.2006.07.033 J. Mol. Biol. (2006) 362, 184–191

0022-2836/$ - see front matter © 2006 Elsevier Ltd. All rights reserved.

Page 92: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

shuffling events, gene fusion, gene fission, internalduplication, etc.,11–13 has never been studied withinthe framework of gene dispensability. Yet, it might berelevant. First, let us keep in mind that it has beenshown that a gene may be split into two geneswhile keeping its activities.14 Let us now consider apartial duplicate gene that has been created throughthe duplication of a gene followed by its fission. Insuch a case, one might hypothesise that the deletionof the fused form of the gene might be compensatedby the interaction between the two proteins encodedby the unfused genes.This prompted us to address the role of partial

duplicates in gene dispensability. Obviously, partialduplicates are not as straightforwardly created anddetectable as the three genes involved in the toyscenario described before. Thus, we decided toscreen partial duplicate genes based on a domainapproach rather than on sequence comparisons.Indeed, the detection of partial duplicate genesusing sequence comparison is difficult whereas it iseasier and more reliable using domain databasessuch as Pfam.15 Thus, we will define here a partialduplicate as a gene: (i) coding for a protein thedomain architecture of which (i.e. the orderedpattern of its domains from the N to the C terminus)is unique, (ii) each domain of which belongs to atleast another protein. According to this definition, apartial duplicate is a gene that has no paralog (item(i)) and that codes for a domain redundant protein(item (ii)). Consequently, focusing on partial dupli-cate genes (rather than on completely duplicategenes) is a way to study the role of domainredundancy (rather than gene redundancy) in genedispensability.Using fitness data of single-gene deletion mu-

tants of Saccharomyces cerevisiae,16 we providehere evidence that domain redundancy is a com-pensation mechanism. Then we evaluate thestrength and importance of domain redundancyin genetic robustness and compare its contribu-tion with that of gene redundancy. Finally, weexplore the molecular basis of this new compen-sation mechanism.

Results

To evaluate the strength and importance ofdomain redundancy in genetic robustness of S.cerevisiae, while getting rid of the already documen-ted effect of gene redundancy,2 we divided the yeastgenome into three disjoint subsets of genes (seeFigure 1):

(1) Set of duplicate genes. A duplicate gene, orduplicate, is defined here as a gene coding for aprotein, the Pfam domain15 architecture ofwhich is equal to that of another protein of S.cerevisiae. Domain profiles (HMM profiles)being more conserved during evolution thanthe proteic sequences themselves,17 genes thatare “duplicated in sequence” code for proteins

that have identical architecture of domains.They are consequently members of this set. Inaddition, this set may also contain genescoding for proteins the sequences of whichdiverged so much that they could not bedetected as being related relying on sequencecomparison only. In conclusion, the set ofduplicates largely accounts for genes that maybe compensated by gene duplication,

(2) Set of partial duplicate genes. A partialduplicate gene, or partial duplicate, is definedas a gene that has no paralog but that codesfor a protein, each domain of which can befound in at least another protein of S.cerevisiae. As a consequence, such a genecodes for a domain redundant protein (seeFigure 1). The set of partial duplicates is atthe heart of our study as it gathers genes thatcannot be compensated by gene duplicationbut the function of which might be bufferedthanks to domain redundancy,

(3) Set of singletons. A singleton, or single gene, isdefined as a gene coding for a protein thatcontains at least one domain specific to thisprotein, i.e. this domain does not belong to anyother protein of S. cerevisiae. The set ofsingletons contains genes that have no dupli-cates and that code for proteins that are notdomain redundant. As a consequence, suchproteins can be backed up neither by generedundancy nor by domain redundancy. Thesegenes will be controls in our study.

From 6673 yeast open reading frames in thechromosomal table from EBI, we found 3076proteins having both a “Saccharomyces GenomeDatabase” name (to avoid including pseudogenesand erroneously predicted genes), a Uniprotidentifier (which is required to cross-refer theprotein identifiers and the Pfam domains) andbelonging to the same fitness group (i.e. weak,moderate, strong or lethal) for the two replicates ofthe single gene deletion experiments (see Materials

Figure 1. Examples of duplicates, partial duplicateand singleton. Let P1, P2, P3 and P4 be four proteins. P1 andP2 are duplicates, since they share the same domainarchitecture. P3 is a partial duplicate because (i) it has noduplicate, (ii) its domain A can be found in P1 (or in P2 orin P4) and its domain C in P4. P4 is a singleton since thedomain E, which is part of its domain architecture, doesnot belong to any other protein.

185Domain Redundancy and Genetic Robustness

Page 93: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

and Methods). From these 3076 proteins, 2407proteins had a PfamA annotation. Finally, fromthese 2407 S. cerevisiae proteins, we found 551singletons, 1615 duplicates and 241 partial dupli-cates (see Table 1).

Domain redundancy contributes to genedispensability

There is a higher probability of functionalcompensation for a partial duplicate than for asingleton

We compared the frequency distribution offitness for partial duplicate genes with that forsingleton genes (Figure 2 and Table 1). The twodistributions are significantly different (chi-squaredtest: p-value=7.435×10−3; see Statistical analysis inMaterials and Methods). Partial duplicate geneshave a significantly lower proportion of genes witha lethal effect of deletion (34% versus 45%) and asignificantly higher proportion of genes with aweak effect of gene deletion (43% versus 31%). Thiscomparison indicates that there is a significantlyhigher probability of functional compensation for apartial duplicate gene than for a singleton.

Contribution of domain redundancy to geneticrobustness is estimated to be bounded between10% and 37%

The relative importance of the domain redun-dancy compensating mechanism can be estimatedroughly as follows (procedure derived from Guet al.2). If we assume that the proportion of geneswith a weak effect of deletion in partial duplicategenes, when compared with the proportion forsingleton genes, is due to compensation by domainredundancy (43% for partial duplicates, 31% forsingletons, difference 12%), this will give the lowerbound (Min) of the contribution of domain re-dundancy to genetic robustness. Thus, out of 103partial duplicates with a weak effect of deletion,29 are compensated by domain redundancy ((12/43)×103). The number of genes that are robustagainst deletion being equal to 275 (103 partialduplicates and 172 singleton genes), the robust-ness attributed to domain redundancy can beestimated to be 10% (i.e. Min=29/275=10%). Theupper bound can be estimated by assuming thatall of the genes with a weak effect of deletion inpartial duplicates are due to domain redundancy.This gives an upper estimate (Max) of 37%

because 103 partial duplicates and 172 singletonsshowed a weak effect of deletion (i.e. Max=103/(103+172)=37%).

Analysis of the relative contribution of generedundancy and domain redundancy

Gene redundancy contributes more than domainredundancy to gene dispensability

We compared the frequency distribution of fitnessfor partial duplicate genes with that for duplicategenes (Figure 2 and Table 1). The two distribu-tions are significantly different (chi-squared test:p-value=0.8×10−3). Duplicate genes have a signifi-cantly lower proportion of genes with a lethal effectof deletion (24% versus 34%) and a significantlyhigher proportion of genes with a weak effect ofgene deletion (56% versus 43%). This comparisonindicates that there is a significantly higher prob-ability of functional compensation for a duplicategene than for a partial duplicate. Moreover, dupli-cate genes are more numerous than partial dupli-cates (1615 versus 241 genes). On the whole, thisshows that gene redundancy contributes more thandomain redundancy to gene dispensability.

“Distant gene” redundancy is a compensationmechanism that does not contribute more thandomain redundancy to gene dispensability

Based on sequence comparisons, Gu and collea-gues showed that genes having duplicates arecompensated better than genes that have noduplicates.2 In our approach, the definition ofduplicate is based on a domain architecture compar-ison. As a result, our set of duplicates contains genesthat have no duplicates detectable by sequencecomparison. For such genes, one can imagine that

Table 1. Distribution by fitness group (weak, moderate,strong, lethal) of duplicates, partial duplicates andsingletons

Weak Moderate Strong Lethal Total

Duplicates 907 132 196 380 1615Partial duplicates 103 22 35 81 241Singletons 172 46 84 249 551

Figure 2. Relative distribution of fitness for duplicate,partial duplicate and singleton. Distribution of fitness forthe 551 singleton genes, the 241 partial duplicates and the1615 duplicate genes. The differences for the threedistributions are statistically significant (according to achi2 test). This shows that functional compensation for apartial duplicate is between that of a singleton and that ofa duplicate.

186 Domain Redundancy and Genetic Robustness

Page 94: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

the sequences diverged so much that the duplicationcannot be detected based on sequence comparisononly. This prompted us to focus our attention onthese distant duplicate genes and to compare theirability of being compensated with that of the partialduplicate genes. To carry out this comparison, wedivided the set of duplicates into two classes: closeduplicates and distant duplicates. We defined closeduplicates as duplicates that have at least oneduplicate according to sequence comparison criter-ion (see Identification of close duplicates in Materi-als and Methods). All other duplicates are referredto as distant duplicates.A comparison of the frequency distribution of

fitness for the 841 distant duplicate genes we found(Table 2) with that for the 551 singletons (Table 1)shows that the two distributions are significantlydifferent (chi-squared test: p-value≪10−6). Thiscomparison indicates that there is a significantlyhigher probability of compensation for a distantduplicate than for a singleton, showing that distantduplicate genes contribute to genetic robustness. Inaddition, a comparison of the frequency distributionof fitness for the 841 distant duplicate genes wefound (Table 2) with that for the 241 partialduplicates (Table 1) shows that the two distributionsare not significantly different (chi-squared test:p-value=0.6261). This suggests that distant generedundancy does not contribute more than domainredundancy to gene dispensability.In addition note that, as expected, (i) there is a

significantly higher probability of functional com-pensation for a close duplicate gene than for a partialduplicate (p-value≪10−6), (ii) there is a significantlyhigher probability of functional compensation fora close duplicate gene than for a distant duplicate(p-value≪10−6); this shows, as already stressed by

Gu and colleagues, that functional compensationdecreases with sequence divergence.

Domain redundancy and gene redundancy are not“additive” compensation mechanisms

A duplicate is defined here as a gene coding for aprotein the domain architecture of which is equal tothat of another protein in yeast. Nevertheless,assuming that we do not consider its duplicate(s),such a gene might be classified as a partial duplicateas far as it codes for a protein each domain of whichbelongs to at least another protein. Thus, we candistinguish between duplicates coding for proteinsthat may be buffered both by gene redundancy anddomain redundancy compensation mechanisms,and duplicates that can only be compensated bygene redundancy (see Figure 3).Wewondered whether a gene satisfying both gene

redundancy and domain redundancy criteria isbetter compensated than a gene satisfying only thegene redundancy criteria. To carry out this experi-ment, we divided the set of duplicates into two sets:duplicates that satisfy both gene redundancy anddomain redundancy criteria (called hereafter dupli-cates_GRDR) and duplicates that satisfy only generedundancy criterion (called hereafter duplica-tes_GR). We then compared the frequency distribu-tion of fitness for the 705 duplicate_GRDR wefound with that for the 910 duplicates_GR (Table3). The two distributions are not significantlydifferent (chi-squared test: p-value=0.0465). Thiscomparison indicates that there is not a significantlyhigher probability of functional compensation for aduplicate_GRDR than for a duplicate_GR. Thissuggests that a duplicate is not compensated bydomain redundancy compensation mechanism.

Characterisation of the mechanistic basis of thedomain redundancy compensation mechanism

We showed that domain redundancy is a com-pensation mechanism.We evaluated its contributionto genetic robustness and compared its strength tothat of gene redundancy. In this section, we try to

Figure 3. Domain redundancyand gene redundancy are not ad-ditive compensation mechanisms.(a) Duplicate satisfying only generedundancy criterion (GR). (b) Dup-licate satisfying both gene redun-dancy (GR) anddomain redundancy(DR) criteria.

Table 2.Distribution by fitness group of close and distantduplicates

Weak Moderate Strong Lethal Total

Close duplicates 508 61 79 126 774Distant duplicates 339 71 117 254 841Total duplicates 907 132 196 380 1615

187Domain Redundancy and Genetic Robustness

Page 95: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

decipher the mechanistic basis of compensationthrough domain redundancy.

The strength of domain redundancy compensationmechanism is not a function of domain frequency

To get insights into the molecular basis of domainredundancy compensation mechanism, we firstwondered whether a partial duplicate composed ofdomains each of which belongs to numerous otherproteins has a higher probability of compensationthan a partial duplicate composed of rare domains.The rationale behind this investigation is that onemay hypothesise that a partial duplicate composedof frequent domains is better compensated thanks tothe presence in the cell of numerous proteins sharingits domains. To carry out this experiment, weassociated to each protein the number of occur-rences of its least frequent domain, where number ofoccurrences is defined as the number of proteins towhich the considered domain belongs. Then, weplotted the frequency distribution of fitness forproteins associated to the same number. Theobtained results (see Figure 4) indicate that a partialduplicate composed of frequent domains is not moredispensable than a partial duplicate composed ofrare domains (note that we obtained similar resultsusing the most frequent domain; data not shown).This suggests that a protein composed of frequentdomains and coding for a defective gene has not agreater chance to be compensated, although there isa greater probability that proteins made of itsdomains act where and when this protein used toact.

Molecular basis of domain redundancy: two putativemechanisms of compensation

Until now, we hypothesised that a gene codingfor a protein composed of domains each of whichbelongs to at least another protein might becompensated by interactions between some ofthese proteins (see Figure 5, grey arrow). As anexample, let us consider a partial duplicate that hasbeen created through the duplication of a genefollowed by its fission. We assume that the deletionof the fused form of the gene might be compensatedby the interaction between the two proteinsencoded by the unfused genes. This scenario isbiologically convincing as far as it has been shownthat a gene may be split into two genes while

keeping its activities. Indeed, Raudonikiene andcolleagues showed that although the genes encod-ing the beta and beta'-subunits of RNA polymeraseare fused in Helicobacter pylori, they may beseparated without damage for this organism, i.e.H. pylori is viable and can colonize conventionalmice.14 However, note that a protein composed ofdomains all of which belong to one and only oneother protein is also a partial duplicate (see Figure5, black arrow). As an example, let us consider apartial duplicate that has been created through theduplication of a gene followed by its fusion withanother gene. One might hypothesise that thedeletion of the former gene might be compensatedby the fused gene. Indeed, it has been shown that apart of a gene may be involved in a biochemicalactivity while the other part is not required for thisactivity. Hence, characterising the function of athree-member gene family involved in the thiaminebiosynthetic pathway, Llorente and colleaguesshowed that the C-terminal domain of these genescoding for two-domain proteins is not required forkinase activity.18

Assuming that the two mechanisms describedabove are involved in partial duplicates compensa-tion, one can remark that (i) a partial duplicatecoding for a one-domain protein is necessarilycompensated by a protein that encompasses itsdomain (see Figure 5), whereas, (ii) a partialduplicate coding for a two-domain protein may becompensated either by a protein encompassing itsdomains or by interactions between at least twoother proteins, or by both mechanisms (see Figure5). We wondered whether a bi-domain partialduplicate, which might be compensated by twoputative compensation mechanisms, is better com-pensated than a mono-domain partial duplicate,which may be compensated by only one. To carryout this experiment, we divided the set of partialduplicates into genes coding for one-domain andtwo-domain proteins. Then, we compared the

Table 3. Distribution by fitness group of Duplicates_GRDR and Duplicates_GR

Weak Moderate Strong Lethal Total

Duplicates_GRDR 416 48 73 168 705Distant_GR 491 84 123 212 910Total duplicates 907 132 196 380 1615

Duplicates_GRDR are duplicates satisfying both gene redun-dancy and domain redundancy criteria. Duplicates_GR areduplicates satisfying only gene redundancy criterion.

Figure 4. Compensation is not a function of thedomain occurrence frequency. Each protein encoded bya partial duplicate was associated to the number ofoccurrences of its least frequent domain. Then, we plottedthe frequency distribution of fitness (y axis) for proteinshaving the same number of occurrences of least frequentdomain (x axis). The x values vary from 2 to 5, sincebeyond 6 the number of proteins is too small.

188 Domain Redundancy and Genetic Robustness

Page 96: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

frequency distribution of fitness for the 46 partialduplicates coding for one-domain proteins withthat for the 75 partial duplicates coding for two-domain proteins (data not shown). The twodistributions are not significantly different (chi-squared test: p-value=0.243). This suggests thatone-domain proteins are not lesser compensatedthan two-domain proteins, giving strength tocompensation through one protein. However, notethat although the conditions of application of chi2

test are satisfied, the small size of our data sets (ofmono and bi-domain partial duplicates) forbids usto draw any firm conclusions from this experiment.

Discussion

We studied the role of domain redundancy in S.cerevisiae gene dispensability. We emphasise thatcompensation here does not imply that the gene isdispensable in long-term evolution but means thatthe gene is dispensable in an individual under theconditions tested (see Fang et al.19 for a study aboutdispensability, essentiality and long-term evolu-tion). To carry out this study, we analysed thephenotypic effect of the deletion of partial duplicategenes, defined here as genes having no paralog butwhich code for proteins each domain of which canbe found in at least another protein of yeast. Weshowed that domain redundancy is a compensationmechanism weaker than gene redundancy. We alsoshowed that these two compensation mechanismsare not additive (i.e. a gene satisfying both thedomain redundancy and the gene redundancycriteria is not better compensated than a genesatisfying only gene redundancy criterion).

Screening genes using a domain approachrather than a sequence approach

In order to address the role of partial duplicates ingene dispensability, we decided to screen such genes

using a domain approach rather than sequencecomparisons. Indeed, the detection of partial dupli-cate genes using sequence comparison is difficult,whereas it is easier and more reliable using domaindatabases such as Pfam.15 Moreover, this methodo-logical choice has several interesting consequences.Firstly, contrary to a method based on sequence

comparison, our domain-based strategy takes intoaccount duplicates for which divergence in sequencemay be important. Indeed, the tools that are used todetect domains (Hidden Markov Profiles) areknown to be more sensitive than pairwise sequencecomparison.17 Since domain profiles (HMM pro-files) are more conserved during evolution than thesequences themselves, our set of duplicates containgenes coding for proteins the sequences of whichdiverged so much that they cannot be detected asbeing related, based on sequence comparison only.Obviously, genes that are duplicated in sequencecode for proteins that have identical architecture ofdomains and are consequently members of ourduplicates set. As a conclusion, a set of duplicatesbased on a domain search strategy will contain theduplicates that would be obtained using sequencecomparisons.Secondly, using a domain approach, we implicitly

address the role of domain redundancy in geneticrobustness against null mutation. Focusing ondomain redundancy rather than on duplicates orpartial duplicates is a more suited approach to studythe mechanisms of robustness. Indeed, for instance,a gene coding for a protein each domain of whichbelongs to at least another protein of the samegenome does not necessarily mean that this gene hasbeen created through partial (or complete) duplica-tion of genes of the considered genome. Thus, it ispossible that genes acquired through horizontaltransfer satisfy our definition of partial duplicates,while they are clearly not! In a similar way, wecannot exclude that two Pfam domains may havethe same label while they do not necessarily derivefrom a common domain ancestor (thanks to

Figure 5. Representation of twoputative mechanistic bases of com-pensation through domain redun-dancy. Partial duplicate 1 is a genecoding for a one-domain protein.Partial duplicate 2 is a gene codingfor a two-domain protein. Partialduplicate 1 is necessarily compen-sated by a protein encompassingits domain (black arrow). Partialduplicate 2 may be compensatedeither by a protein that encom-passes its domains (black arrow)or by interaction between at leasttwo other proteins (grey arrows).

189Domain Redundancy and Genetic Robustness

Page 97: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

molecular evolutionary convergence). In such cases,talking about domain redundancy is more appro-priate. Nevertheless, note that we do believe thatdomain redundancy compensation mechanism isstrongly related to duplication.

Relationships between gene redundancy anddomain redundancy

As highlighted previously, except for horizontaltransfer or domain convergence, the creation ofpartial duplicates is obviously related to duplication:a partial duplicate is made of a series of domains,each of which is paralogous (i.e. created by copy) to adomain that belongs to a different gene. Thus, partialduplicates are probably constructed from domainsoriginating from several other different genes(through gene duplication, gene fusion/fission orother domain rearrangements).11–13 Note that we donot claim here that partial gene duplications neces-sarily correspond to domain boundaries. Indeed, it ishighly probable that in most cases duplicationbreakpoints do not correspond to domain bound-aries, but the most common fate of genes composedof such “truncated” domains is probably non-functionalization (gene-silencing).In addition, gene redundancy and domain redun-

dancy are also relatedwith respect to their molecularbasis. We showed here that a partial duplicatecomposed of frequent domains has not a higherprobability of compensation than a partial duplicatecomposed of rare domains. Similarly, a gene havingmany paralogs is not better compensated than a genehaving only one paralog (see Supplementary Data).This last point demonstrates that compensation, be itby domain or gene redundancy, is not a function ofthe domain frequency or of the number of genecopies. It suggests that other requirements areneeded to allow compensation. It is likely that thedefected/deleted gene and gene(s) that supply thedefective activity have to be transcribed, translatedand signalled to be active at the same time, in thesame place and in a similar way. In the case ofdomain redundancy, this suggests that partialduplicate genes remain strongly linked to some ofthe genes from which they have been created (byduplication, fusion/fission, or other domain rear-rangements). Answering the question of whetherdomain redundancy or gene redundancy hasevolved to enable such compensation or is insteada side product is beyond the scope of this article.

Domain redundancy and the non-holistic natureof some proteins

Studying the molecular bases of domain redun-dancy compensation mechanism, we hypothesisedthat a gene coding for a protein composed ofdomains each of which can be found in at leastanother protein might be compensated: (i) byinteractions between some of these proteins (seeFigure 5, grey arrow), or (ii) by a protein encom-passing the domain of the considered defective gene

(see Figure 5, black arrow). These two mechanismsshare a common property: the somewhat “non-holistic nature” of some proteins. Indeed, the firstmechanism implies that, to some extent, the functionof some proteins is nomore than the function of theirparts (i.e. their domains); the second mechanismimplies that some domains of a protein may actindependently of the whole. Some authors havealready reported examples that substantiate thesetwo mechanisms (see Raudonikiene et al.14 and Llo-rente et al.18 for instance). Here, we provide (indirect)evidence suggesting that these mechanisms, andtherefore the non-holistic nature of some proteins,might be more important than previously thought.

Materials and Methods

Fitness data

A nearly complete set of single-gene-deletion mutantsof the S. cerevisiae genome16 enabled us to carry out ourexperiments. As done by Gu et al.2 (see Fitness measure-ments), we classified the yeast genes into four groups(weak, moderate, strong, lethal) on the basis of aminimum fitness value for a strain across the five differentgrowth conditions tested. We downloaded from http://www-deletion.stanford.edu/YDPM/YDPM_index.htmltwo data sets, Regression_Tc1_hom.txt and Regression_Tc2_hom.txt, which are two replicates of the sameexperiments. We only took into account genes associatedto the same phenotypic group in both replicates.

Pfam annotations

The PfamA15 and Context domains Pfam20 annota-tions pertaining to the S. cerevisiae proteome were down-loaded from ftp://ftp.sanger.ac.uk/pub/databases/Pfam/database-files. All protein domain architectureswere considered by including both the PfamA andContextDomain results (using statistical language modelingmethods, context domains are added by Pfam when ahighly probable domain of a protein is not detected (itssignature being lower than the PfamA threshold)).

Identification of singletons, duplicates and partialduplicates

A singleton is defined as a gene coding for a protein thatcontains at least one domain specific to this protein, i.e.this domain does not belong to any other protein of S.cerevisiae. A duplicate is defined as a gene coding for aprotein the domain architecture of which is exactly thesame as in another protein of S. cerevisiae (i.e. the samedomains in the same order). All other genes are referred toas partial duplicate genes, that is they code for proteins,the domain architecture of which is unique in S. cerevisiaebut which is composed of domains, each of which can befound in at least another protein of S. cerevisiae.

Identification of close duplicates

An all-against-all Blast search was conducted forthe whole set of S. cerevisiae proteins (downloaded

190 Domain Redundancy and Genetic Robustness

Page 98: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

from Integr8 http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do). To carry out this comparison, we used theblast2 algorithm of the Biofacet package21 together withthe similarity matrix BLOSUM62. Low complexity regionsof the query sequence were masked using the seg algo-rithm. Two genes were then considered as close duplicatesif they coded for proteins that fulfilled the following threecriteria: (i) the Blast-alignable region between the twoproteins was longer than 60% of the longer protein, (ii) theidentity between the two proteins was greater than 30%and (iii) the e-value was lower than 10−6.

Statistical analysis

We used the Pearson's test to compare our fitnessdistributions. In all the considered cases, the expectedfrequencies are larger than 5, so we decided to usethe classical chi-square approximation to compute thep-values.

Acknowledgements

We thank Carène Rizzon and Grégory Nuel(Laboratoire Statistique et Génome, Evry - France).We are also grateful to the members of the Atelier deBioinformatique (Université Paris VI, Paris, France)for helpful comments and discussion.

Supplementary Data

Supplementary data associated with this articlecan be found, in the online version, at doi:10.1016/j.jmb.2006.07.033

References

1. Wagner, A. (2000). Robustness against mutations ingenetic networks of yeast. Nature Genet. 24, 355–361.

2. Gu, Z., Steinmetz, L. M., Gu, X., Scharfe, C., Davis,R. W. & Li, W. H. (2003). Role of duplicate genes ingenetic robustness against null mutations.Nature, 421,63–66.

3. Gu, X. (2003). Evolution of duplicate genes versusgenetic robustness against null mutations. TrendsGenet. 19, 354–356.

4. Papp, B., Pal, C. & Hurst, L. D. (2004). Metabolicnetwork analysis of the causes and evolution ofenzyme dispensability in yeast. Nature, 429, 661–664.

5. Wagner, A. (2005). Distributed robustness versusredundancy as causes of mutational robustness.Bioessays, 27, 176–188.

6. He, X. & Zhang, J. (2006). Transcriptional reprogram-ming and backup between duplicate genes: is it agenome-wide phenomenon? Genetics, 172, 1363–1367.

7. He, X. & Zhang, J. (2006). Higher duplicability of lessimportant genes in yeast genomes. Mol. Biol. Evol. 23,144–151.

8. Kafri, R., Bar-Even, A. & Pilpel, Y. (2005). Transcrip-tion control reprogramming in genetic backup cir-cuits. Nature Genet. 37, 295–299.

9. Koonin, E. V. (2005). Paralogs and mutational robust-ness linked through transcriptional reprogramming.Bioessays, 27, 865–868.

10. Hurst, L. D. & Pal, C. (2005). Dissecting dispensability.Nature Genet. 37, 214–215.

11. Fitch, W. M. (2000). Homology a personal view onsome of the problems. Trends Genet. 16, 227–231.

12. Koonin, E. V. (2005). Orthologs, paralogs, and evolu-tionary genomics. Annu. Rev. Genet. 39, 309–338.

13. Pasek, S., Risler, J. L. & Brezellec, P. (2006). Genefusion/fission is a major contributor to evolution ofmulti-domain bacterial proteins. Bioinformatics, 22,1418–1423.

14. Raudonikiene, A., Zakharova, N., Su, W. W., Jeong,J. Y., Bryden, L., Hoffman, P. S. et al. (1999).Helicobacterpylori with separate beta- and beta′-subunits of RNApolymerase is viable and can colonize conventionalmice. Mol. Microbiol. 32, 131–138.

15. Bateman, A., Coin, L., Durbin, R., Finn, R. D., Hollich,V., Griffiths-Jones, S. et al. (2004). The Pfam proteinfamilies database. Nucl. Acids Res. 32, D138–D141(Database issue).

16. Steinmetz, L. M., Scharfe, C., Deutschbauer, A. M.,Mokranjac, D., Herman, Z. S., Jones, T. et al. (2002).Systematic screen for human disease genes in yeast.Nature Genet. 31, 400–404.

17. Eddy, S. R. (1998). Profile hidden Markov models.Bioinformatics, 14, 755–763.

18. Llorente, B., Fairhead, C. & Dujon, B. (1999). Geneticredundancy and gene fusion in the genome of thebaker's yeast Saccharomyces cerevisiae: functional char-acterization of a three-member gene family involvedin the thiamine biosynthetic pathway. Mol. Microbiol.32, 1140–1152.

19. Fang, G., Rocha, E. & Danchin, A. (2005). Howessential are nonessential genes? Mol. Biol. Evol. 22,2147–2156.

20. Coin, L., Bateman, A. & Durbin, R. (2003). Enhancedprotein domain discovery by using language model-ing techniques from speech recognition. Proc. NatlAcad. Sci. USA, 100, 4516–4520.

21. Glemet, E. & Codani, J. J. (1997). LASSAP, a LArgeScale Sequence compArison Package. Comput. Appl.Biosci. 13, 137–143.

Edited by K. Karn

(Received 28 April 2006; received in revised form 11 July 2006; accepted 18 July 2006)Available online 25 July 2006

191Domain Redundancy and Genetic Robustness

Page 99: Laboratoire de Mathématiques et Modélisation d'Évry [LaMME] - Le domaine … · 2014. 11. 28. · Pour les gènes, les noms de locus ou les noms de gènes,! pour les protéines,

Résumé :

La génomique comparative tente d’identifier les gènes qui, d’un génome à un autre ou

à l’intérieur d’un même génome, partagent une histoire évolutive commune afin, par exemple,

d’identifier les mécanismes évolutifs sous-jacents. Habituellement, l’unité utilisée en

génomique comparative est le gène mais ce choix pose différents problèmes. En effet,

différentes parties d’un gène peuvent avoir des histoires évolutives distinctes et/ou assurer des

fonctions indépendantes. Afin de tenir compte de cette modularité, cette thèse se propose de

revisiter certains problèmes liés à la génomique comparative en utilisant une unité d’évolution

plus petite que le gène : le domaine. Trois points généralement étudiés en terme de gènes ont

été abordés en terme de domaines : la synténie, les fusions/fissions et la redondance.

Nous introduisons ici la notion de synténie de domaines et recherchons des segments

chromosomiques dont le contenu - non plus en gènes - mais en domaines est conservé d’une

espèce à l’autre. Cette méthode s’est avérée plus fine que la synténie de gènes : elle a permis

de détecter plus de synténies ou des synténies plus grandes, notamment celles qui

s’accompagnent de réarrangements concernant des parties de gènes ou domaines. Le

deuxième point que nous avons étudié concerne les réarrangements de domaines observés

chez les protéines bactériennes. Nous avons mis en évidence qu’un des mécanismes majeurs à

l’origine de la création de nouvelles combinaisons de domaines est fortement lié au jeu des

fusions/fissions de gènes. Finalement, nous avons abordé la redondance des protéomes en

domaines et leur lien avec la robustesse des organismes aux mutations nulles. Nous avons

ainsi montré que la redondance en domaines est un mécanisme de compensation moins

important que la redondance en gènes mais qui n’est pas négligeable.

Dans chaque cas, utiliser le domaine comme unité d’homologie à la place du gène

s’est avéré pertinent et a permis d’apporter de nouveaux résultats.