THESE - prabi.ibcp.fr

1

N° d’ordre : Année 2002

THESE

présentée

devant L’UNIVERSITE CLAUDE BERNARD- LYON 1

pour l’obtention

Du dipôme de doctorat (arrété du 30 mars 1992)

présentée et soutenue publiquement par

M. Mounir ERRAMI

Le 20 novembre 2002

Titre :

Analyse statistique des structures tridimensionnelles de protéines et validation de familles structurales à bas taux d’identité.

Directeur de thèse : PR. GILBERT DELÉAGE

JURY

Dr. Jacques CHOMILIER, Rapporteur Dr. Olivier POCH, Rapporteur Dr. Laurent DURET Pr. Bernard ROUX Pr. Gilbert DELÉAGE Pr. Michel VAN DER REST Pr. Gilbert DELÉAGE

2

INTRODUCTION ................................................................................................................................................. 6

1. RAPPELS BIBLIOGRAPHIQUES............................................................................................................. 9

1.1. LES BASES DE DONNEES PROTEIQUES ....................................................................................................... 9 1.1.1. Les bases de séquences protéiques .................................................................................. 10

1.1.1.1. Les bases généralistes ............................................................................................................ 10 1.1.1.2. Les bases spécialisées : bases de domaines protéiques et d’alignements multiples............... 16 1.1.1.3. Les bases de données intégrées.............................................................................................. 18

1.1.2. Les bases de données structurales ................................................................................... 20 1.1.2.1. Protein Data Bank.................................................................................................................. 21 1.1.2.2. Les bases de données articulées autour de la PDB ................................................................ 22

1.1.3. DBcat : Le catalogue des bases base de données en biologie. ........................................ 26 1.1.4. Les systèmes d’interrogation des bases de données ........................................................ 27

1.2. OUTILS BIOINFORMATIQUES D’ANALYSE DES SEQUENCES PROTEIQUES.................................................. 27 1.2.1. Recherche d’homologie par comparaison de séquences ................................................. 28

1.2.1.1. Définitions ............................................................................................................................. 28 1.2.1.2. Alignement par paire de séquences........................................................................................ 28 1.2.1.3. Application : recherche d’homologie dans les bases de séquences. ...................................... 35

1.2.2. Autres outils de recherche d’homologie. ......................................................................... 38 1.2.2.1. Recherche de motifs (pattern)................................................................................................ 38 1.2.2.2. Utilisation des profils............................................................................................................. 39 1.2.2.3. Analyse de la compatibilité de structures secondaires. .......................................................... 39 1.2.2.4. Utilisation des structures tridimensionnelles. ........................................................................ 41

1.3. ETUDE D’UNE FAMILLE DE PROTEINES : ALIGNEMENTS MULTIPLES........................................................ 41 1.3.1. Algorithme d’alignement multiple progressif .................................................................. 42

1.3.1.1. CLUSTALW ......................................................................................................................... 42 1.3.1.2. MultAlin ................................................................................................................................ 42 1.3.1.3. Autres programmes d’alignement multiple progressif........................................................... 42

1.3.2. Algorithmes d’alignement multiple itératif et simultané.................................................. 43 1.3.3. Validation des méthodes d’alignement multiple .............................................................. 44

1.4. OUTILS BIOINFORMATIQUES D’ETUDE DES STRUCTURES SECONDAIRES DES PROTEINES......................... 45 1.4.1. Les structures secondaires des protéines et le diagramme de Ramachandran................ 45 1.4.2. Moyens d’attribution des structures secondaires des protéines à partir des structures

tridimensionnelles. ......................................................................................................................... 46 1.4.2.1. DSSP...................................................................................................................................... 47 1.4.2.2. Autres outils d’attribution automatique des structures secondaires. ...................................... 47

1.4.3. Prédiction des structures secondaires des protéines ....................................................... 47 1.4.3.1. Méthodes de statistiques linéaires.......................................................................................... 48

3

1.4.3.2. Méthodes basées sur l’homologie.......................................................................................... 49 1.4.3.3. Méthodes basées sur l’apprentissage ..................................................................................... 50 1.4.3.4. Apport de l’information biologique et méthodes consensuelles. ........................................... 50

1.5. OUTILS BIOINFORMATIQUES D’ETUDE DES STRUCTURES TRIDIMENSIONNELLES DES PROTEINES. ........... 50 1.5.1. Les structures tridimensionnelles des protéines .............................................................. 50

1.5.1.1. Ponts disulfures...................................................................................................................... 51 1.5.1.2. Interactions électrostatiques & liaisons hydrogènes .............................................................. 52 1.5.1.3. Interactions hydrophobes....................................................................................................... 52

1.5.2. Prédiction des structures tridimensionnelles ................................................................... 53 1.5.2.1. Modélisation moléculaire par homologie .............................................................................. 53 1.5.2.2. Threading............................................................................................................................... 53

1.6. OUTILS BIOINFORMATIQUES D’ANALYSE SPECIALISEE DES PROTEINES................................................... 53 1.6.1. Profils physico-chimiques................................................................................................ 53 1.6.2. Détection de motifs coiled-coils (super hélices) .............................................................. 54 1.6.3. Détection de motifs hélice-coude-hélice (fixation à l’ADN) ............................................ 54 1.6.4. Prédiction de segments trans-membranaires................................................................... 54

2. ANALYSE DE LA CONSERVATION DES ACIDES AMINES A ROLE STRUCTURAL AU SEIN

DES PROTEINES. .............................................................................................................................................. 56

2.1. STRATEGIE GLOBALE.............................................................................................................................. 57 2.2. MATERIELS ET METHODES...................................................................................................................... 57

2.2.1. Matériel informatique ...................................................................................................... 57 2.2.2. Les langages de programmation C/C++ et la fonction system()..................................... 58

2.2.2.1. Le C ....................................................................................................................................... 58 2.2.2.2. Le C++................................................................................................................................... 59 2.2.2.3. La fonction system() .............................................................................................................. 60

2.2.3. Le langage Tcl et le package Tk....................................................................................... 60 2.2.4. Protéines de structures connues ...................................................................................... 61 2.2.5. Création de la base de données d’interactions, modifications du programme DSSP ..... 61 2.2.6. Recherche de protéines homologues aux protéines de la PDB........................................ 68

2.2.6.1. Recherche d’homologie ......................................................................................................... 68 2.2.6.2. Constitution des sous-bases de séquences ............................................................................. 68

2.2.7. Calcul des alignements multiples..................................................................................... 71 2.2.8. Calculs statistiques .......................................................................................................... 71

2.2.8.1. Conservation des interactions ................................................................................................ 71 2.2.8.2. Paires d’acides aminés témoins ............................................................................................. 72 2.2.8.3. Paramètres statistiques étudiés............................................................................................... 74 2.2.8.4. Analyse de la conservation des glycines................................................................................ 75

2.2.9. Implémentation des concepts et définition des objets en C++ ........................................ 77

4

2.2.9.1. Matérialisation des interactions ............................................................................................. 77 2.2.9.2. Recherche d’homologie et alignement multiple .................................................................... 79 2.2.9.3. Prédictions des structures secondaires ................................................................................... 80 2.2.9.4. Calcul de la conservation des interactions dans les alignements multiples. .......................... 80 2.2.9.5. Schéma récapitulatif .............................................................................................................. 83

2.3. RESULTATS ............................................................................................................................................ 84 2.3.1. Développement logiciel.................................................................................................... 85

2.3.1.2. Extractblast ............................................................................................................................ 85 2.3.1.3. BioRead ................................................................................................................................. 91

2.3.2. Conservation des acides aminés dans les alignements multiples .................................... 95 2.3.2.1. Conservation des ponts disulfures ......................................................................................... 95 2.3.2.2. Conservation des interactions électrostatiques. ..................................................................... 96 2.3.2.3. Conservation des interactions hydrophobes......................................................................... 107 2.3.2.4. Conservation des glycines. .................................................................................................. 114

2.4. CONCLUSION ET DISCUSSION DES RESULTATS CONCERNANT LA CONSERVATION DES ACIDES AMINES AU

SEIN DES ALIGNEMENTS MULTIPLES. ................................................................................................................ 115 2.5. PERSPECTIVES ...................................................................................................................................... 119

3. VALIDATION DES FAMILLES STRUCTURALES A BAS TAUX D’IDENTITE, A L’AIDE

D’ALIGNEMENTS MULTIPLES ET DES PREDICTIONS DE STRUCTURES SECONDAIRES. ...... 122

3.1. MATERIEL ET METHODES. .................................................................................................................... 122 3.1.1. Stratégie. ........................................................................................................................ 122 3.1.2. Alignements de référence. .............................................................................................. 123

3.1.2.1. SSSD.................................................................................................................................... 123 3.1.2.2. BAliBASE ........................................................................................................................... 123

3.1.3. Compatibilité des structures secondaires ...................................................................... 124 3.1.4. Prédiction des structures secondaires ........................................................................... 124 3.1.5. Calculs des alignements témoins et des paramètres SOV.............................................. 125

3.2. RESULTATS .......................................................................................................................................... 127 3.2.1. Comparaison des SOV réels et des SOV témoins........................................................... 127

3.2.1.1. SSSD.................................................................................................................................... 127 3.2.1.2. BAliBASE ........................................................................................................................... 128

3.3. EXEMPLE D’APPLICATION BIOLOGIQUE ................................................................................................ 131 3.4. DISCUSSION...................................................................................................................................... 133

4. CONCLUSION GENERALE................................................................................................................... 136

5. ANNEXES.................................................................................................................................................. 138

5

6

Introduction

Les protéines, macromolécules essentielles à la vie, sont constituées d’acides aminés. Pour

chaque protéine, les acides aminés qui la constituent s’enchaînent les uns à la suite des autres dans un

ordre précis, dicté par le code génétique. Cet enchaînement constitue la structure primaire ou séquence

de la protéine. La séquence d’une protéine est une mine d’informations, qu’il incombe au biologiste

d’exploiter au mieux. Les méthodes prédictives actuelles apportent un complément particulièrement

utile aux résultats qui peuvent être obtenus par des approches expérimentales biochimiques classiques.

Toutefois une méthode prédictive nécessite des connaissances obtenues par l’expérience pour la mise

au point d’algorithmes de prédiction. Les techniques biochimiques modernes ont permis d’obtenir très

rapidement un nombre impressionnant de données concernant un nombre tout aussi impressionnant de

macromolécules biologiques. Sans parler des programmes internationaux de séquençage de génomes

complets. L’utilisation de l’informatique a permis de stocker efficacement cette « monstrueuse »

quantité de données : il est assez simple de retrouver une information précise à l’aide de systèmes

d’interrogation particulièrement puissants. Par ailleurs, toutes ces données sont mises à la disposition

de toute la communauté scientifique via Internet, probablement la plus grande révolution

technologique du siècle écoulé. Toutes ces données ont pu être mises à profit pour l’élaboration de

méthodes prédictives diverses, utilisant des algorithmes souvent assez complexes. Là encore l’apport

de l’informatique est incontestable en ayant permis d’implémenter ces algorithmes. Ainsi le stockage,

la vitesse de calcul et la mise à disposition des connaissances font de l’informatique un outil

indispensable dans le domaine des la recherche scientifique, à tel point que dans le domaine de la

Biologie, une discipline en est née : la Bioinformatique.

Les enjeux de la Bioinformatique sont divers. D’une façon générale, elle apporte une assistance

aux biologistes, et leur permet d’avoir très rapidement des informations précises, à l’aide des méthodes

prédictives sur la base de connaissances établies. C’est souvent une première étape, une orientation

pour aider le biologiste à mettre au point un protocole expérimental, une stratégie. Par conséquent les

techniques bioinformatiques ne remplacent pas les techniques biochimiques, elles en sont

complémentaires.

Devant la croissance explosive du nombre de séquences comparativement aux structures

tridimensionnelles, il est indispensable de disposer d’outils d’analyse des séquences aidant à la

prédiction ou à la caractérisation des rôles fonctionnels et surtout structuraux des acides aminés et leur

importance au sein des protéines. Il existe deux principaux moyens pour s’assurer de l’importance des

acides aminés au sein d’une protéine. Le premier est purement expérimental et consiste à muter l’acide

aminé (par mutagenèse dirigée par exemple) et à étudier l’effet de la mutation sur les propriétés

physico-chimiques de la protéine (activité, vitesse de catalyse, stabilité à la température ou à des

agents dénaturants...). Cette première méthode est certes fine et élégante, mais aussi relativement

7

longue et coûteuse car elle est « lourde » puisqu’il n’est pas possible d’automatiser une telle

procédure. Chaque acide aminé doit faire l’objet d’une investigation qui lui est propre. Ces techniques

sont utilisables à « petite échelle » et ne permettent d’étudier que quelques acides aminés d’une

protéine. La seconde, complémentaire de la première consiste à étudier la conservation des acides

aminés au sein d’une famille protéique. L’importance structurale et/ou fonctionnelle des acides aminés

doit se traduire par une plus forte conservation de ces derniers dans les familles protéiques. Ceci

revient à étudier cette conservation au sein d’alignements multiples. Quelles que soient les techniques

employées, les très nombreuses expériences de ce type ont permis de dégager certains principes de

base comme la conservation des zones hydrophobes dans le cœur des protéines (Markiewics et al.,

1994 ; Rennell et al. ; 1991…), la conservation des caractéristiques physico-chimiques des sites actifs

(Lesk & Chothia, 1980…), ou encore la conservation des résidus polaires aux interfaces protéiques

(Hu et al., 2000…). Il y a eu donc beaucoup d’études qui portent chacune sur un aspect bien précis

quant à l’importance des acides aminés au sein des protéines. La première partie de mon travail de

thèse consiste en l’étude de la conservation des acides aminés impliqués dans les interactions telles

que les ponts disulfures (ou cystines), les interactions électrostatiques et les interactions hydrophobes.

Les études menées jusqu’ici ne considèrent qu’un seul type d’interaction voir quelques acides aminés,

et par ailleurs aucune n’est exhaustive puisqu’elles se cantonnent pour la quasi-totalité d’entre elles à

l’étude de quelques protéines. Concernant l’étude de la conservation des interactions électrostatiques

par exemple, Musafia et al. (1995) utilisent 94 protéines, Schueler et Margalit (1995) quant à eux

utilisent 8 familles protéiques. Cependant, on retrouve déjà dans ces travaux, l’étude de l’influence de

l’accessibilité et des structures secondaires dans la conservation des acides aminés. Pour notre part,

nous avons mis en place une stratégie originale pour l’étude statistique exhaustive des structures

tridimensionnelles. Nous établissons les relations entre les alignements multiples de séquences et la

conservation de caractéristiques structurales particulières au sein de protéines. Nous montrons

notamment que les acides aminés impliqués dans les ponts disulfures, les interactions hydrophobes ou

électrostatiques sont particulièrement conservés dans les alignements multiples, suggérant l’apport

potentiel des alignements multiples pour la prédiction des structures tridimensionnelles. Lors de ce

travail, nous avons montré que les alignements les plus informatifs sont constitués de séquences

apparentées faiblement similaires. Cependant il n’est pas aisé de valider des familles structurales à

faible similarité. La seconde partie de mon travail de thèse a eu pour but d’apporter une solution à ce

problème…

Les protéines peuvent être regroupées en familles et sous-familles, caractérisées par des

repliements, des sites et des fonctions caractéristiques. L’un des fondements essentiels sur lequel cette

classification s’établit est la comparaison des séquences protéiques sous la forme d’alignements

multiples, qui permettent d’établir rapidement des prédictions sur les fonctions biologiques, ou même

d’établir des relations phylogénétiques entre les protéines. Ces alignements multiples, offrent à travers

8

l’analyse de la conservation des résidus, un moyen rapide de caractériser une protéine. Il est plus aisé

d’établir ces relations d’homologie qui lient les protéines lorsque les séquences sont similaires et

présentent une identité élevée (>30%), simplement parce que l’homologie est d’autant plus évidente

que les séquences sont similaires. Ceci n’implique pas que des protéines non similaires ne sont pas

homologues. Toute la difficulté est de valider les familles protéiques lorsque la similarité est faible.

Différentes approches existent, mais elles ont essentiellement comme support l’alignement de deux

protéines. Une approche consiste à exploiter la transitivité de l’homologie et ainsi utiliser une ou des

protéines « relais » pour établir les relations entre protéines, à bas taux d’identité (Teichman et al.,

2000). Une autre solution a été d’améliorer les algorithmes de recherche de similarité pour les rendre

plus sensibles, c’est le cas de PSI-BLAST (Altschul et al., 1997). Enfin, une plus récente consiste à

utiliser l’information des structures secondaires prédites pour valider la parenté structurale qui lie deux

protéines à bas taux d’identité (Geourjon et al., 2001). En effet, les prédictions de structures

secondaires sont connues pour être des informations particulièrement efficaces pour améliorer les

processus de reconnaissance du repliement tridimensionnel (fold recognition) que ce soit par

modelisation ab initio ou par threading. Différentes méthodes de prédiction de structure

tridimensionnelles basées sur les séquences et utilisant les structures secondaires prédites existent

comme GenTHREADER (Jones et al., 1999) ou encore TOPITS (Rost, 1995). Depuis 1998, toutes les

méthodes de reconnaissance du repliement efficaces (pour revue, Proteins, supplément 3, 1999)

mettent à profit les prédictions de structures secondaires, montrant que les structures secondaires

prédites peuvent être particulièrement utiles pour la prédiction des structures tridimensionnelles et

donc pour établir les relations structurales entre des protéines de structure inconnue. Un autre outil

bioinformatique particulièrement utile pour établir ces relations consiste à calculer et à analyser des

alignements multiples. Dans ce domaines, quelques méthodes existent telles que AL2CO pour

analyser la conservation des positions (Pei et al., 2001), la méthode de Hertz & Stormo (1999) qui

consiste à établir la signification statistique des alignements multiples, ou encore la méthode décrite

par Thompson (et al., 2001) qui utilise une fonction de scoring : norMD. Dans la seconde partie du

travail de thèse, une nouvelle méthode d’analyse des alignements multiples est proposée. Celle-ci

consiste à exploiter les prédictions des structures secondaires, dans le but de détecter les séquences

« intruses » dans un alignement multiple alors que l’identité entre les séquences ne distinguent pas ces

intrus des autres séquences des alignements multiples.

Afin de resituer le cadre du travail présenté, quelques uns des divers outils bioinformatiques

disponibles dans le domaine de l’étude des protéines seront présentés. Ce premier chapitre de rappels

bibliographiques sera aussi l’occasion de souligner l’importance des bases de données protéiques qui

ont permis le développement de méthodes et d’algorithmes d’analyses des séquences protéiques qui

aident à caractériser les protéines sur les plans biochimique, structural et physiologique.

9

1. Rappels bibliographiques

Le premier réflexe du biologiste qui vient d’obtenir la séquence de sa protéine d’intérêt est

d’essayer de tirer toutes les informations possibles afin d’approcher ses caractéristiques physico-

chimiques, structurales et fonctionnelles. La Bioinformatique permet dans un premier temps, grâce

aux bases de données biologiques d’accéder à toute l’information disponible sur un champ d’étude

précis, une molécule précise, très rapidement. Ces bases de données, fréquemment mises à jour,

permettent le développement de méthodes et outils bioinformatiques dont le but est justement

d’exploiter la séquence protéique afin d’en « prédire » diverses informations. Il est possible à partir

d’une séquence protéique, de rechercher des protéines homologues, des similarités, des sites

fonctionnels ou des signatures potentielles, qui peuvent apporter une idée sur la fonction possible

d’une nouvelle protéine. A l’aide des outils d’alignements multiples, c’est tout un groupe de protéines

qui peut être étudié afin d’en faire ressortir des caractéristiques communes ou une étude

phylogénétique. Ensuite il y a l’étude structurale : l’analyse de la structure secondaire (le premier

niveau d’organisation structurale d’une protéine), est généralement le point de départ de l’étude d’une

structure protéique avant de passer à l’étude de sa structure tridimensionnelle. Parallèlement il est

possible de faire des recherches plus spécialisées : la prédiction de zones hydrophobes, de zones

accessibles, de zones trans-membranaires, de motifs structuraux… La Bioinformatique offre donc

beaucoup de méthodes, qui sont autant de moyens de caractériser une protéine nouvelle, et aide ainsi à

mieux comprendre les mécanismes qui régissent son fonctionnement. Ces quelques rappels

bibliographiques sont l’occasion de faire un tour d’horizon des principaux outils bioinformatiques à la

disposition de la communauté scientifique dans le domaine de la Biologie et plus particulièrement

dans le domaine de l’étude des protéines.

1.1. Les bases de données protéiques

L’évolution de la Biochimie et de la Biologie moléculaire ont généré un afflux massif de données

qui ont été stockées et centralisées pour une meilleure accessibilité. Cette centralisation des

connaissances, afin qu’elles soient profitables à tous, n’aurait pu se faire sans Internet, formidable

outil de communication qui à travers une interface web permet d’échanger l’information à l’échelle

planétaire.

Ces bases de données sont un élément essentiel et indispensable dans le domaine de l’analyse des

protéines. Elles représentent la source d’information la plus complète et pertinente pour les

biologistes. Elles sont aussi l’un des fondements sur lequel s’appuie le développement des méthodes

bioinformatiques d’analyse de séquence. L’utilité incontestable de ces bases de données se traduit par

une évolution de leur taille quasi exponentielle pour beaucoup d’entre elles, montrant l’intérêt qu’elles

10

suscitent et le point d’honneur que mettent les biologistes à les enrichir aux profit de tous. Il faut aussi

ajouter que l’évolution des bases de données a été possible grâce l’évolution du matériel informatique

d’une part et la mise au point de systèmes d’interrogation performants d’autre part.

1.1.1. Les bases de séquences protéiques

1.1.1.1. Les bases généralistes

Les bases dites généralistes sont des bases de données ayant comme « unité de base » la protéine.

Celles-ci contiennent généralement la séquence protéique entière, ainsi que d’autres informations

jugées utiles pour les biologistes.

1.1.1.1.a. SWISS-PROT

La base de données SWISS-PROT (Bairoch et al., 2000 – URL 1) a été créée par Amos Bairoch

en 1986 au sein du département de Biochimie Médicale à l’Université de Genève. Elle est maintenue

depuis 1987 en collaboration avec l’EMBL (European Molecular Biology Laboratory). C’est le fruit

d’un partenariat entre le SIB (Swiss Institute of Bioinformatics) et l’EBI (European Bioinformatics

Institute), antenne de l’EMBL située à Hinxton en Grande Bretagne.

Sa qualité en a fait sa renommée. Les séquences protéiques de SWISS-PROT sont annotées par les

auteurs ou des experts extérieurs, ce qui garantie une information pertinente et sure. La redondance y

est très faible, c’est donc une base « propre » : toutes les données issues des recherches d’auteurs

différents mais portant sur une même séquence sont fusionnées. Enfin, elle dispense pour chaque

entrée de nombreuses références croisées avec beaucoup d’autres banques (60 environ).

Au sein de SWISS-PROT chaque entrée (ensemble de données relatives à une séquence protéique)

possède un identifiant (champ ou « line-type » ID) ainsi qu’un numéro d’accession (champ AC)

uniques permettant de retrouver aisément une séquence. Chaque entrée est constituée de deux types de

données : « un noyau de données » (core data) qui constitue le minimum de données autour duquel

s’articule le second type de données : les annotations. Le « noyau de données » contient la séquence

(champ SQ), les références bibliographiques (champs RN, RT, RF, RA, RX) et les données

taxonomiques (source(s) biologique(s) relatives à cette séquence). Les annotations (champs KW, CC,

FT), renseignent sur la fonction, les modifications post-traductionnelles, les domaines et sites

fonctionnels, les structures secondaires et quaternaires, les similitudes avec d’autres protéines, les

maladies associées, les variants etc…

11

ID STRI_STRGR STANDARD; PRT; 348 AA.

AC P09400;

DT 01-MAR-1989 (Rel. 10, Created)

DT 01-MAR-1989 (Rel. 10, Last sequence update)

DT 16-OCT-2001 (Rel. 40, Last annotation update)

DE Streptomycin biosynthesis protein strI (EC 1.-.-.-).

GN STRI.

OS Streptomyces griseus.

OC Bacteria; Firmicutes; Actinobacteria; Actinobacteridae;

OC Actinomycetales; Streptomycineae; Streptomycetaceae; Streptomyces.

OX NCBI_TaxID=1911;

RN [1]

RP SEQUENCE FROM N.A.

RC STRAIN=N2-3-11;

RX MEDLINE=91375432; PubMed=1654502; [NCBI, ExPASy, EBI, Israel, Japan]

RA Mansouri K., Piepersberg W.;

RT "Genetics of streptomycin production in Streptomyces griseus:

RT nucleotide sequence of five genes, strFGHIK, including a phosphatase

RT gene.";

RL Mol. Gen. Genet. 228:459-469(1991).

CC -!- PATHWAY: STREPTOMYCIN BIOSYNTHESIS.

CC -!- SIMILARITY: BELONGS TO THE GFO/IDH/MOCA FAMILY.

CC --------------------------------------------------------------------------

CC This SWISS-PROT entry is copyright. It is produced through a collaboration

CC between the Swiss Institute of Bioinformatics and the EMBL outstation -

CC the European Bioinformatics Institute. There are no restrictions on its

CC use by non-profit institutions as long as its content is in no way

CC modified and this statement is not removed. Usage by and for commercial

CC entities requires a license agreement (See http://www.isb-sib.ch/announce/

CC or send an email to [email protected]).

CC --------------------------------------------------------------------------

DR EMBL; Y00459; CAA68521.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]

DR PIR; S17779; S17779.

DR InterPro; IPR000683; GFO_IDH_MocA.

DR InterPro; Graphical view of domain structure.

DR Pfam; PF02894; GFO_IDH_MocA_C; 1.

DR ProDom [Domain structure / List of seq. sharing at least 1 domain]

DR BLOCKS; P09400.

DR DOMO; P09400.

DR PRESAGE; P09400.

KW Streptomycin biosynthesis; Oxidoreductase; NAD.

FT NP_BIND 2 32 NAD (BY SIMILARITY).

SQ SEQUENCE 348 AA; 36709 MW; B95BCC443EEABDF6 CRC64;

MRVGIVGAGR MGRLHARTLL ELPDPPDLVV HDVDPDGAHR LAQELAAGTK AQVTVERELA

DTVTKADAIV VATPATQRRA PLLAAARAGL PVFCEKPLTA DETEAAELVE ALAHTRLHVG

FQRRCDPEYQ RLRELIAAGE LGRVLLVRCT AFDHRPPADA YEETAGDIFT DCLIHDIDAV

HWLTGQPTVA VQADGARLLA GSGYDVATAV LTLADGARAV LSASRLDPHG YDHRVEVLGT

KGSLSVGLDA RTPLRLLGQD GTGCPPGPGA QPAYQDFTDR FEAAYRREVL AFVRTVTEGA

PSPCTGQEAL RAQRVAAAAG RAARTGTRVE LDPAPHGAPA ALVAGAAR

//

Figure 1 : Exemple du format de données de SWISS-PROT pour une protéine

A ce jour, la version la plus récente de SWISS-PROT est la version 40.25 du 2 Août 2002. Elle

contient 112657 entrées. Au total 7487 espèces différentes sont représentées, de façon inégale puisque

12

environ 45% des entrées proviennent de 20 espèces. Notons aussi que 18 espèces servent de modèles :

un soin tout particulier leur est apporté dans le domaine de l’annotation, le but étant d’être aussi

exhaustif que possible, aidé par les programmes de séquençage dont leur génome fait l’objet. Par

ailleurs, les séquences protéiques de l’espèce humaine, sont à la base d’un projet tout particulier mis

en place en 1999 qui consiste en l’annotation du protéome humain : Human Proteomic Initiative ou

HPI (O’Donovan et al., 2001). HPI à été crée dans l’espoir de fournir une documentation spécifique et

détaillée pour toutes les séquences protéiques issues du séquençage du génome humain. Dans la

version 40 de SWISS-PROT, l’annotation de 8300 séquences résulte de ce projet.

L’évolution exponentielle du nombre d’entrées au sein de la base SWISS-PROT représente un

véritable challenge dans la mesure où il faut malgré tout maintenir l’annotation et la faible redondance

qui font la qualité de cette base, et incorporer rapidement les nouvelles séquences. Ceci nécessite, pour

chaque entrée une analyse fine et représente par conséquent un frein à la croissance SWISS-PROT. Ce

paradoxe, selon lequel SWISS-PROT doit être le reflet des connaissances actuelles qui croissent très

vite et l’annotation qui doit persister a pu être contourné grâce à une base de données annotée

automatiquement : TrEMBL.

1.1.1.1.b. TrEMBL & ClusTr : 2 bases associées à SWISS-PROT

La base de données TrEMBL (Translation of EMBL nucleotide database, Bairoch et al., 2000 -

URL 2) est née en 1996 afin de faire face à l’énorme quantité de données issue des différents

programmes de séquençage de génomes entiers. Les séquences y sont annotées automatiquement et

constituent un complément à la base de données SWISS-PROT. Les séquences protéiques de TrEMBL

sont issues de la traduction des séquences codantes (CDS) de la base nucléotidique de l’EMBL, puis

une étape préliminaire d’annotation automatique des séquences traduites est effectuée. Ces annotations

sont ensuite revues et mises au niveau du standard SWISS-PROT en vue le leur incorporation dans

SWISS-PROT. Ainsi TrEMBL permet en accélérant l’annotation, non seulement de maintenir la

qualité de la documentation des entrées mais aussi de mettre à disposition rapidement les séquences

nouvelles issues de séquençage de génomes.

La version 21.6 de TrEMBL du 2 Août 2002 contient environ 750000 séquences. TrEMBL est

organisée en deux sections SP-TrEMBL et REM-TrEMBL : SP-TrEMBL (SWISS-PROT-TrEMBL)

contient environ 680000 entrées potentiellement incorporables à SWISS-PROT. Chacune d’entre elles

possède un numéro d’accession SWISS-PROT (AC), et pourront être incorporées dans la version

ultérieure de SWISS-PROT. Les séquences restantes soit 70000 séquences, constituent REM-TrEMBL

(REMaining-TrEMBL), et ne seront pas incorporées à SWISS-PROT car appartenant à une des 6

catégories suivantes :

- séquences d’Immunoglobuline ou de récepteur de lymphocyte T,

- séquences synthétiques,

13

- séquences issues de brevets,

- fragments de moins 8 acides aminés,

- traduction de CDS ne codant pas de véritable protéine,

- séquences protéiques tronquées.

Avant leur incorporation dans SWISS-PROT, les entrées de SP-TrEMBL subissent un processus de

« sélection » en deux étapes : la première consiste éliminer la redondance (O’Donovan et al., 1999) en

fusionnant automatiquement les séquences à l’aide d’outils tels que le score CRC (Cyclic Redundancy

Check) et la méthode LASSAP (LArge Scale Sequence compArison Package ; Glemet et al. 1997 ;

Codani et al. 1995). Une seconde étape vise à élever le niveau de l’annotation en utilisant d’autres

bases de données telles que PROSITE (base de motifs protéiques ; Hofmann et al, 1999) ou ENZYME

(Bairoch et al.,2000).

Une troisième base de données est associée à TrEMBL et SWISS-PROT : la base CluSTr

(Clusters of SWISS-PROT and TrEMBL proteins ; Kriventseva et al., 2000 - URL 3). Elle est

construite sur la base de la similarité qu’il existe entre les différentes séquences de SWISS-PROT et de

TrEMBL, en regroupant les séquences (clustering) selon une méthode en deux étapes : la première qui

est la comparaison de toutes les séquences deux à deux en utilisant l’algorithme de Smith & Waterman

(cf §1.2.1.2.a page 28). Puis une seconde étape à l’aide de LASSAP pour le regroupement final. Il en

résulte la constitution de différents groupes de séquences ayant des niveaux de similarité différents.

Ses domaines d’applications principaux sont la prédiction de la fonction protéique, l’annotation

automatique de nouvelles séquences (Fleischmann et al., 1999), la diminution de la redondance au

sein des bases de données de séquences protéiques (O’Donovan et al., 1999) - aspect dont profitent

d’ailleurs SWISS-PROT et TrEMBL - , la recherche de nouvelles familles protéiques, l’analyse de

protéomes (Apweiler et al., 2001), l’aide à l’analyse phylogénétique. La documentation des données

CluSTr intègre des informations quant à la présence de domaines ou sites fonctionnels provenant de

bases de données spécialisées telles que InterPro, PROSITE, PRINTS, Pfam, ProDom. ClusTr propose

aussi des références croisées avec des bases à caractère structurale telles que HSSP et PDB (§1.1.2.1

page 21).

1.1.1.1.c. PIR-PSD & les bases associées

La base PIR-PSD (Protein Information Ressource – Protein Sequence Database ; Barker et al.

2001 - URL 4) est l’une des premières base de données biologiques informatisées puisqu’elle est

disponible sur Internet depuis 1984. Elle a été mise en place par le NBRF (National Biomedical

Research Foundation - Georgetown University) et fait suite à la publication de « l’Atlas of Protein

Sequence and Structure » maintenue par Margaret Dayhoff de 1965 à 1978. Depuis 1988, le JIPID

(Japan International Protein Information Database) et le MIPS (Munich Information center for

Protein Sequence) se sont associés au NBRF dans la gestion et le maintien de PIR-PSD.

14

PIR-PSD est une base de séquences protéiques annotées, non redondante et proposant des

références croisées vers d’autres bases. Les principales sources de documentation de PIR-PSD sont les

traductions de séquences nucléotidiques contenues dans les bases GenBank, EMBL, DDBJ (Dna

Databank of Japan) ainsi que les publications et soumissions directes par les chercheurs. Les

séquences sont ensuite comparées, les informations sont fusionnées pour minimiser la redondance,

puis annotées. Les séquences sont également classées par :

• super-familles : deux familles appartiennent à la même super-famille si les longeurs

des séquences des deux familles sont comparables, et si les domaines fonctionnels sont

présents et retrouvés dans le même ordre au sein des séquences des deux familles ;

• familles : deux séquences sont de la même famille si elles ont des longueurs proches et

au moins 50% d’identité de séquences, ce seuil étant appliqué pour PIR-PSD (la

classification est automatisée) ;

• domaines d’homologie (informatif sur le plan de l’évolution des séquences) ;

• motifs de séquence (informatif sur la conservation de sites particuliers et de la

fonction).

L’intérêt de cette classification (Barker et al., 1996) à la fois structurale, séquentielle et fonctionnelle a

pour but de faciliter la caractérisation d’une séquence nouvelle et de mettre en avant les relations

séquence-structure-fonction. Ceci permet aussi de détecter et de corriger d’éventuelles erreurs dans les

annotations des génomes dont les séquences sont issues. Cette classification nécessite de réaliser des

alignements multiples de séquences, qui sont stockés au sein d’autre bases de données :

• MIPS-ProtFam, contient des alignements automatiques.

• PIR-ALN, contient des alignements contrôlés.

PIR-PSD dans sa version 73.02, qui date du 2 Août 2002, compte 283224 entrées réparties en 4 sous-

ensembles : PIR1 à PIR4 . PIR1 et PIR2 contiennent plus de 99% des entrées de PIR-PSD, les

séquences ont fait l’objet d’une analyse poussée, elles sont fortement annotées (avec un léger plus

pour PIR1). PIR3 contient les séquences en attente d’annotation en vue de leur intégration éventuelle à

PIR1 ou PIR2. Enfin PIR4 contient des séquences « non naturelles » (annotées selon la même

procédure que PIR1 et PIR2) : traduction de pseudo-gènes, ORFs (Open Reading Frame ou phase

ouverte de lecture) non exprimées, séquences synthétiques, etc…

Autour de PIR-PSD s’articulent plusieurs autres bases de données qui ne seront pas décrites dans

le détail:

• ProClass (Huang et al., 2000) qui classe les séquences non-redondantes de PIR-PSD et

de SWISS-PROT en fonction des super-familles de PIR et de motifs PROSITE

particuliers.

• iProClass (WU et al., 2001), base de donnée intégrée qui prend en compte les données

portant sur la famille, les caractéristiques structurales et fonctionnelles qui proviennent de

15

nombreuses bases : PIR-PSD, ProClass, PIR-ALN, PIR-RESID, SWISS-PROT, TrEMBL,

Pfam, BLOCKS, PRINTS, PROSITE, PDB et COG. Le haut niveau d’intégration permet

d’obtenir une information plus complète (que ces bases considérées individuellement ne

fournissent pas).

• PIR-RESID (Gravelli, 1999 ; Gravelli et al., 2001) liste les modification post-

traductionnelles documentées par des informations à caractère chimique, structurale et

bibliographique.

• PIR-NLR3D (Gravelli et al., 2001), contient des séquences annotées sur la base des

informations tridimensionnelles fournies par la PDB.

• PIR-NREF, récente base puisque la première version date du 23 octobre 2001. C’est

une base de données non redondante de références protéiques qui intègre (à l’image de

iProClass) des informations provenant des bases : PIR-PSD, SWISS-PROT, TrEMBL,

GenPept, RefSeq et PDB. Elle sera utilisée comme source principale à la réalisation des

version future de iProClass.

1.1.1.1.d. Autres bases de séquences protéiques

Il existe diverses autres bases de données dont nous citerons :

• GenPept : base de séquences issues de la traduction de CDS contenues dans la base de

séquences nucléiques GenBank ;

• ProtoMap (Yona et al., 2000) : classification hiérarchique automatique des protéines

de SWISS-PROT et TrEMBL ;

• KIND (Kallberg et Persson, 1999) : base de séquences non redondante construite à

partir de SWISS-PROT, PIR-PSD, TrEMBL et GenPept.

• IMGT (Lefranc, 2001) et Kabat (Johnson et al., 2001) : base de séquences de protéines

à caractère immunologique ;

• PMD (Kawabata et al., 1999) : base de séquences mutantes naturelles ou artificielles ;

• Base de séquences protéiques dédiées à des modèles biologiques : YPD (Hodges et al.,

1999) dédiée à Saccharomyces cerevisiae, WormPD (Costanzo et al., 2000) dédiée à

Caenorhabditis elegans, ou encore DAtA (Palm et al., 2000) dédiée à Arabidopsis

thaliana.

• HCVDB (Hepatitis C Virus Database ; Combet, 2000, URL 29) dédiée aux séquences

nucléotidiques et protéiques des virus de l’hépatite C

16

1.1.1.2. Les bases spécialisées : bases de domaines protéiques et d’alignements

multiples.

Le processus d’analyse de séquence fait intervenir diverses étapes dont l’une d’entre elle est la

comparaison de la séquence nouvelle avec les séquences dans les bases de données qui viennent d’être

décrites. Mais il convient aussi d’étudier des aspects précis, des point plus particuliers tels que la

présence de domaines fonctionnels, la recherche de sites permettant de classer la protéine au sein

d’une famille protéique, examiner la possibilité de modifications post-traductionnelles, de propriétés

physico-chimiques précises etc... Afin de pouvoir étudier ces aspects, de nombreuses bases de données

dites spécialisées ont vu le jour.

1.1.1.2.a. PROSITE

PROSITE (Hofmann et al., 1999 - URL 5) créée en 1988 contient dans sa version 17.18, du 3

Août 2002 un total de 1147 entrées décrivant 1567 motifs et profils caractérisant une particularité

biologique précise, structurale ou fonctionnelle. Cette base est très utilisée pour déterminer à quelle

famille fonctionnelle appartient une protéine, ainsi que les différentes signatures présentent au sein de

cette protéine.

Les outils de recherche et de caractérisation des motifs sont très puissants, mais ne permettent pas

d’identifier avec suffisamment de pertinence des motifs ayant des séquences divergentes, et

appartenant à une même famille. C’est le cas de certains motifs fonctionnels caractéristiques des

protéines de la famille des Immunoglobulines, des Globines ou encore des protéines à domaine SH2

ou SH3 (intervenant par exemple dans la transduction des signaux cellulaires). C’est pour répondre à

ce problème que les profils ou matrices pondérées ont été introduits dans PROSITE en 1994. Ils

consistent à l’attribution, pour chaque motif, d’une table de scores et de coûts en fonction de

l’occurrence des acides aminés et de gaps à chaque position dans le motif. Le but étant d’autoriser les

mutations et d’arriver à classer une protéine possédant des motifs peu conservés, néanmoins

caractéristiques d’une famille protéique particulière.

Les motifs et profils de PROSITE sont utilisés pour l’annotation des entrées d’autres bases de

données telles que SWISS-PROT.

1.1.1.2.b. ProDom

ProDom (Corpet et al., 2000 - URL 6) est une base de domaines protéiques définis à l’aide de

familles protéiques sous la forme d’alignements multiples. La construction des familles est

automatisée et se fait à partir des séquences contenues dans SWISS-PROT et SP-TrEMBL, ainsi que

d’alignements de la base Pfam. Les alignements de ProDom sont construits à l’aide de PSI-BLAST,

outil permettant de détecter des similarités entre des séquences protéiques (§1.2.2.2 page 39). La

17

procédure étant automatisée, des paramètres (consistancy indicators) ont été introduits afin d’estimer

la signification biologique du regroupement des séquences :

• le diamètre (diameter) obtenus à partir des deux membres les plus éloignés d’une

même famille : plus celui-ci est petit, plus la famille est homogène. Ce paramètre

caractérise le groupe ;

• le rayon de giration (radius of gyration) qui caractérise chaque séquence au sein du

groupe. Il permet de savoir si une portion de séquence se rapproche ou au contraire

s’éloigne du consensus issu du groupe.

Au jour du 13 Août 2002, la version 2001.3 de ProDom contient 373869 familles de domaines

protéiques (dont 108076 familles avec au moins 2 séquences).

ProDom facilite la compréhension de l’arrangement des domaines au sein des familles protéiques

complexes, et permet de mettre en évidence les homologies qui peuvent exister entre des protéines

modulaires de même familles mais aussi de familles différentes.

1.1.1.2.c. Pfam

Pfam (Bateman et al., 2000 - URL 7) est une base de données d’alignements multiples de

séquences et de profils HMM (Hidden Markov Models) classés par famille protéique. Chaque famille

est représentée par deux alignements multiples : le premier constitué de quelques membres

représentatifs de la famille et le second constitué de toutes les protéines de cette famille au sens de

Pfam : des profils HMM sont construits (à l’aide de l’outil HMMER) et sont ensuite utilisés pour

classer les séquences contenues dans la base séquences protéiques Pfamseq (elle même construite à

partir de SWISS-PROT et SP-TrEMBL). Pfam est divisée en deux sous-bases : Pfam-A contient des

alignements ayant fait l’objet d’une vérification manuelle et Pfma-B qui contient des alignements

générés automatiquement mais non vérifiés.

Le but premier de Pfam est de faciliter la classification et l’annotation automatiques de séquences

protéiques nouvelles.

1.1.1.2.d. DOMO et PRINTS-S

DOMO (Gracy & Argos, 1998 - URL 8), à l’image de ProDom, est une base décrivant les

domaines que l’on peut rencontrer au sein de différentes familles protéiques. Les familles et les

domaines sont définis sur la base de la similarité entre les séquences . Celles-ci sont présentées sous la

forme d’alignements multiples. DOMO utilise les séquences de SWISS-PROT et PIR-PSD, si elles

sont non redondantes, complètes et ne comptent pas plus 1000 acides aminés. DOMO, comme

ProDom est construite automatiquement : détection, regroupement et recherche de similarités locales

précèdent le calcul des alignements multiples des domaines et ainsi la constitution des familles

protéiques.

18

PRINTS-S (Attwood et al., 2000 - URL 9) est une base d’empreintes (fingerprints). Une

empreinte est un ensemble de motifs conservés au sein d’alignements multiples. Ces empreintes

permettent de travailler sur des séquences relativement divergentes, présentant des motifs peu

conservés mais ayant une signification biologique. De fait, PRINTS-S est une source d’informations

indiquée pour l’étude des super-familles de protéines.

1.1.1.3. Les bases de données intégrées

Les bases intégrées (ou unifiées) apportent une solution au problème de la spécialisation des bases

conventionnelles et l’éclatement de l’information qui en découlent. Ces bases intégrées sont

construites à partir de plusieurs autres bases ce qui permet de centraliser les informations, d’avoir des

bases représentatives des connaissances sur les familles protéiques et d’outrepasser les différents

systèmes de classifications des protéines en familles ainsi que les formats de présentation adoptés par

les autres bases. Par ailleurs, ce type de base permet de détecter les incohérences entre les bases et aide

à améliorer leur qualité, par une classification plus fiable et une annotation plus pertinente. Si chaque

base a un domaine d’application fort, chacune possède aussi des manques. Les unifier revient à pallier

les faiblesses des unes par les points forts des autres.

1.1.1.3.a. InterPro

Le projet InterPro (Apweiler et al., 2001 - URL 10) résultant d’une initiative internationale vise à

unifier les bases de signatures et de domaines ProDom, Pfam, PRINTS et PROSITE.

L’intégration des données commence par la fusion des informations contenues dans chacune des

bases : les membres de ces bases sont comparés et ceux qui décrivent des domaines, signatures ou

profils communs, sont fusionnés et constituent ainsi une entrée InterPro unique avec un numéro

d’accession unique. Chaque entrée InterPro contient :

• une description de la famille protéique, des domaines, des répétitions internes, des

modification post-traductionnelles ;

• une liste des signatures, motifs, profils HMMs ou empreintes associés à la famille ;

• une annotation résumée à partir des bases membres ;

• des exemples de séquences représentatives ;

• les références bibliographiques ;

• des liens vers d’autres bases comme SWISS-PROT et TrEMBL.

InterPro propose ainsi une définition des familles protéiques sur la base des systèmes de classification

adoptés par d’autres bases, représentant en cela une source de choix pour l’annotation des séquences.

A ce titre, L’EBI a choisi d’utiliser InterPro et entend ainsi rehausser le niveau de l’annotation

automatique de la base TrEMBL (Fleischmann et al., 1999). InterPro peut aider à définir de nouvelles

signatures ou des groupes de séquences pour lesquelles une signature s’avère utile, et ainsi mieux

19

caractériser des familles qui ne sont pas clairement définies. Une autre application est l’analyse de

protéomes eucaryotes : Drosophila melanogaster, Caenorhabditis elegans, et Saccharomyces

cerevisiae (Rubin et al., 2000).

1.1.1.3.b. MetaFam

MetaFam (Silverstein et al., 2001a ; Silverstein et al., 2001b ; Shoop et al., 2001 - URL 11), est

une base de données unifiée, intégrant de façon non redondante, les séquences issues de SWISS-

PROT, PIR, GenPept, TrEMBL et NRL3D. Les séquences y sont regroupées en familles et super-

familles (family superset). Le classement des séquences est fondé sur les regroupements effectués au

sein de dix autres bases de données dont Pfam, DOMO, PRINTS-S, PROSITE, PIR-ALN, Blocks+,

ProtoMap etc…

MetaFam procède pour les regroupements en trois étapes : la première consiste éliminer les

redondances en attribuant des clés uniques après comparaison des séquences. Ensuite les familles

auxquelles appartiennent ces séquences sont recherchées dans les dix bases de données et sont

comparées deux à deux (une famille définie dans DOMO est comparée à une famille définie dans PIR.

Puis PIR/Pfam, puis DOMO/Pfam etc…). Des pourcentages de ressemblances entre les familles deux

à deux sont calculés et sont représentés graphiquement à l’aide de MetaFamView (Figure 2).

Figure 2 : interface graphique MetaFamViewer.

20

L’avantage de ce type de représentation réside dans sa convivialité : il est facile d’accéder à

toutes les informations sur les familles et séquences protéiques disponibles dans toutes les bases de

données sur lesquelles MetaFam s’appuie. La seule critique que l’on peut faire, est la lenteur de

chargement des informations au sein de l’interface graphique.

MetaFam est un outil particulièrement intéressant pour la classification et l’annotation d’une

séquence nouvelle et la comparaison entre familles. MetaFam permet d’accéder depuis une base de

données unique à une grande quantité d’informations dispensées dans d’autres bases. Son utilité ne

sera pas des moindres si l’on en juge par l’énorme quantité de données qui est (et sera) issue des

programmes de séquençage de génomes entiers.

1.1.1.3.c. Blocks+

Blocks+ (Henikoff et al., 1999 ; Henikoff et al., 2000 - URL 12) est une extension de la base

Blocks (Henikoff et Henikoff, 1996) qui contient des alignements de séquences « non gappés » définis

en fonction des familles de PROSITE. Blocks+ intègre en plus et de façon non redondante les familles

définies dans Pfam, PRINTS, ProDom et DOMO.

Blocks+ à une couverture plus large des familles protéiques que les bases sur lesquelles elle

s’appuie, en outre ceci permet de détecter des omissions dans ses bases membres et de les combler par

l’ajout de nouvelles familles. De plus pour certaines familles protéiques la classification est plus

cohérente, comme par exemple les protéines de la famille SNF2 qui interviennent dans la régulation de

la transcription et dans le « remodelage » de la chromatine chez les eucaryotes : cette famille est

reconstituée dans Blocks+, alors qu’elle est éclatée dans ProDom, Pfam et Domo.

1.1.2. Les bases de données structurales

Si l’étude de la séquence d’une protéine est un aspect important pour l’identifier, la caractériser, et

approcher sa fonction, l’étude de sa structure tridimensionnelle représente un point fondamental pour

réellement comprendre les mécanismes biochimiques, à l’échelle atomique, qui régissent sa fonction.

La structure tridimensionnelle d’une protéine se définit par l’arrangement dans l’espace de ses atomes

constitutifs. Il faut souligner l’importance de la connaissance des structures tridimensionnelles, tant

dans le domaine de la recherche fondamentale pour comprendre les mécanismes à la base de la vie,

que dans la recherche appliquée pour la mise au point de nouvelles molécules thérapeutiques (Drug

design), pouvant aider à traiter les dysfonctionnement de certaines protéines à la base de pathologies

graves, voire mortelles et pour certaines encore incurables.

La Résonance Magnétique Nucléaire (RMN) et la cristallographie, sont les deux techniques

utilisées pour déterminer expérimentalement la structure tridimensionnelle d’une protéines. Les

21

structures ainsi déterminées sont regroupées dans une base de données principale : la Protein Data

Bank (PDB).

1.1.2.1. Protein Data Bank

La PDB (Berman et al., 2000 - URL 13) a été mise en place en 1971 au Brookhaven National

Laboratories (BNL) en tant qu’archives des structures des macromolécules biologiques et comptait

alors sept structures. Depuis 1998, le maintien de cette base est sous la responsabilité du Research

Collaboratory for Structural Bioinformatics (RCSB).

Dès le début des années 80, l’évolution des techniques de détermination de structure

tridimensionnelles et des systèmes de communication ont permis une forte croissance de la PDB :

aujourd’hui, dans sa version la plus récente du 6 Août 2002, elle compte en effet environ 17300

structures de protéines déterminées expérimentalement. Pour beaucoup d’entre elles, ces protéines ont

un taux d’identité de séquence élevé lorsqu’elles sont alignées deux à deux. On considère qu’au delà

du seuil de 25% d’identité de séquence, deux protéines ont des structures tridimensionnelles quasiment

superposables (Doolittle, 1981 ; Rost, 1999). A ce titre et sauf cas particulier, ce seuil est le minimum

requis pour prédire la structure d’une protéine nouvelle à partir d’une structure déjà existante. Si on ne

considère que les protéines ayant moins de 25% d’identité de séquence alignées deux à deux, la PDB

ne contient plus qu’environ 2000 chaînes, qui sont réellement représentatives des connaissances

structurales protéiques actuelles.

L’évolution de la PDB est très loin de suivre l’évolution des bases de données de séquences. C’est

la conséquence directe des nombreuses difficultés que soulèvent les techniques de détermination de

structures que sont la RMN et la cristallographie/diffraction aux rayons X (§1.5.1 page 50). Si la PDB

ne compte qu’un faible nombre d’entrées comparativement aux bases de séquences, elle n’en demeure

pas moins une base de grande qualité. Les entrées de la PDB contiennent en plus des coordonnées

atomiques, toutes les informations techniques concernant l’expérimentation ayant permis sa

détermination (source, séquence, cofacteur protéique ou prosthétiques, description qualitative de la

structure, conditions précises de la cristallisation ou de la solution, traitement des données, affinement

des structures, logiciels utilisés…). Les structures déposées dans la PDB sont soumises à une

validation qui consiste à une vérification très poussée de la structure (en plus de celle effectuée par les

auteurs) : mesures d’angles, de liaisons, vérification de la stéréochimie, des distances entre atomes et

contacts… Par ailleurs des informations quant à la qualité de la structure sont disponibles, une

essentielle est la résolution exprimée en Å : la structure est d’autant plus précise que celle-ci est petite.

Afin de maintenir la haute qualité de cette base de données, un format particulier d’organisation des

données a été mis au point : le format mmCIF (macromolecular Cristallographic Information File ;

Bourne et al., 1997), permettant une description plus détaillée des structures. Ce format plus souple, et

évolutif, évite les incohérences au sein des fichiers de données. Citons aussi le projet d’uniformisation

22

des données (Bath et al., 2001), qui vise à convertir les fichiers au formats PDB précédents (encore

utilisés par de nombreux logiciels) au format mmCIF, conversion qui ne peut être automatisée dans ce

sens (alors que l’inverse est possible) et qui requiert donc un travail manuel et contraignant.

1.1.2.2. Les bases de données articulées autour de la PDB

Beaucoup de bases exploitent les données structurales contenues dans la PDB pour les classifier

dans un but précis, autrement que descriptif. Ces bases, qui pour certaines tendent à regrouper les

protéines à travers leurs caractéristiques structurales et séquentielles, trouveront une grande part de

leur application dans le cadre de la génomique structurale. La génomique structurale, désigne le

parcours nécessaire, qui à partir d’un gène, permet d’arriver à la structure tridimensionnelle d’une

protéine, par le biais de méthodes prédictives et des connaissances structurales, qui ne sont pas

exhaustives : il est généralement admis que seules quelques centaines de repliement uniques sont

connus (entre 600 et 700) alors que le nombre de repliement possibles s’élèverait à un, voire plusieurs

milliers de repliements possibles (1000 à 10000 ; Chothia, 1992 ; Zhang & DeLisi, 1998 ; Orengo et

al., 1999 ; Wolf et al., 2000…). La génomique structurale va aider à combler ce vide, puisque parmi

les séquences issues des génomes, seront choisies celles susceptibles d’avoir un repliement unique

pour être étudiées en RMN ou cristallographie. Ensuite, à l’aide des structures et par

comparaison/regroupement, il sera possible d’attribuer une fonction à ces protéines et de les replacer

dans les voies métaboliques cellulaires. Toutefois, deux questions restent sans réponse : combien de

repliements uniques devront être connus avant de pouvoir prédire la structure de la quasi-totalité des

protéines ? Dans quelle mesure peut-on avoir confiance dans l'attribution de la fonction à partir de la

structure ? Dans certains cas la comparaison des séquences pour résoudre la structure et la fonction

risquent d’être délicats : les homologues structuraux très distants sur le plan de leur séquence, mais

ayant des fonctions proches ou identiques…

1.1.2.2.a. SCOP : Structural Classification Of Protein

La base SCOP (Lo Conte et al., 2000 - URL 14) est une classification des protéines de structure

connue, sur la base de leur séquence, leur fonction et leur structures secondaire et tertiaire. L’unité

véritable de la classification au sein de SCOP est le domaine protéique (zone séquentielle ayant une

structure et/une fonction indépendante du reste de la molécule, et que l’on peut retrouver dans d’autres

protéines), permettant une classification aisée des protéines mono-domaine (généralement les

protéines petites et moyennes). En ce qui concerne les protéines multidomaines, la classification est

moins aisée : l’identification des domaines structuraux n’est pas simple et par ailleurs les protéines

multidomaines n’ont généralement que quelques uns de leurs domaines en communs. D’où la

nécessité d’intégrer parallèlement à l’information structurale, l’information évolutive. SCOP adopte

une classification basée sur une hiérarchie à trois niveaux. Le premier est la famille protéique : deux

23

protéines sont de la même famille si elles ont au moins 30% d’identité de séquences, ou si elles ont des

structures et des fonctions très proches (ex : les globines), l’origine commune (en terme d’évolution)

est évidente. Le second niveau est la super-famille : deux familles sont de la même super-famille si

leur structure et leur fonction suggèrent un ancêtre commun dans leur parcours évolutif (ex : les

domaines constants et variables des Immunoglobulines). Le dernier niveau est le repliement (common

fold) : les familles et super-familles ont un repliement commun si elles ont les mêmes éléments de

structure secondaire, arrangées de la même façon. Les deux premiers niveaux mettent en commun les

protéines ayant des parcours évolutifs reliés ou semblables avec des caractéristiques fonctionnelles

communes, alors que le dernier met en commun les protéines ayant subit un processus évolutif

chimique et physique, ayant favorisé l’émergence, en leur sein, de zones ayant des caractéristiques

structurales communes identifiables indépendamment de la séquence et/ou de la fonction.

Cette classification a aboutit à quatre groupes de protéines:

• la classe « toute-α » regroupe les domaines qui sont très majoritairement en hélice α ;

• la classe « toute-β » regroupe les domaines qui sont très majoritairement en feuillet β ;

• la classe « α/β » regroupe les domaines dans lesquels il y a une alternance entre les

feuillets et hélices ;

• la classe « α+β » regroupe les domaines constitués des deux types de structures sans

aucune régularité dans la disposition.

SCOP est une base construite manuellement par inspection visuelle et comparaison des structures

fournissant une classification des protéines sur la base des relations structurales ainsi que sur la base

de leur parcours évolutif probables.

1.1.2.2.b. CATH-PFDB

CATH-PFDB (Class, Architecture, Topology, and Homologous superfamily - Protein Family

DataBase ; Orengo et al., 1999 ; Pearl et al., 2001 - URL 15) est une classification hiérarchique

(Figure 3) sur la base des similarités de séquence et de structure des protéines de la PDB. On peut

distinguer dans cette hiérarchie quatre niveaux de classification :

• le niveau C (Class) relatif à la composition en structure secondaire et l’arrangement de

celles-ci. Il y a trois classes principales : α, β, α & β.

• le niveau A (Architecture) relatif à l’arrangement globale et l’orientation spatiale des

structures secondaires sans prendre en compte leur connectivité ;

• le niveau T (Topology) qui définit les familles de repliement (fold families) sur la base

à la fois de l’arrangement des structures secondaires mais aussi de la connectivité des

structures, de leur disposition les unes à la suite des autres ;

• le niveau H (Homologous superfamily) qui regroupe les protéines, qui sur la simple

comparaison de leur structures tertiaires et secondaires, semblent avoir un ancêtre

24

commun. Les protéines y sont regroupées en familles (sequence families - niveau S). Les

protéines d’un même niveau S présentent de fortes similitudes dans leur séquences, et par

conséquent dans leur structure.

Ce type de regroupement permet à partir des informations structurales, de replacer une protéine dans

sa famille et sa super-famille et ainsi de caractériser sa fonction. Par exemple, en ce qui concerne les

protéines enzymatiques, les auteurs ont montré que dans 96% des cas, un repliement (niveau H et S)

correspondait à une fonction, suggérant que la simple classification d’une protéine sur la base de sa

structure permet d’émettre une hypothèse sur sa fonction probable. Il est facile de comprendre l’intérêt

de cette classification dans le cadre de la génomique structurale.

Figure 3 : représentation schématique des niveaux de classification (C)lasse, (A)rchitecture, (T)opologie

adoptés dans la base CATH (source URL 15)

1.1.2.2.c. DaliDD/FSSP

La base de données FSSP (Fold Classification based on Structure-Structure alignment of

Proteins ; Holm & Sander, 1996 ; Holm & Sander, 1998 - URL 16) est une classification structurale

des protéines de la PDB (dont la structure tridimensionnelle est connue). Toutes les chaînes protéiques

de plus de 30 résidus sont regroupées après avoir été toutes comparées entre elles donnant lieu, pour

chaque famille protéique, à deux groupes principaux : le premier constitué de séquences homologues

présentant au moins 25% d’identité de séquences et le second constitué de séquences représentatives

ne présentant pas une telle homologie (de sorte que la parenté ne peut pas être établie sur la base de

l’étude des séquences uniquement). Les structures des chaînes représentatives sont ensuite comparées

25

entre elles pour l’établissement de la classification des repliements, selon une méthode de

regroupement hiérarchique, donnant lieu à des alignements structuraux. Chaque entrée de la base

FSSP contient deux alignements structuraux : l’alignement de la séquence objet avec les séquences

représentatives de son groupe et l’alignement de cette séquence avec les séquences des protéines qui

lui sont homologues. La base FSSP contient, dans sa version du 16 juin 2002, 3242 familles de

séquences représentant 30624 structures protéiques. La classification est maintenue automatiquement à

l’aide de Dali et de DaliDD.

Le dictionnaire de domaine Dali (DaliDD, Dietmann et al., 2001 - URL 17) est une taxonomie

numérique des structures de la PDB. DaliDD est constitué de façon automatisée sur la base de la

comparaison des structures, des fonctions et des séquences. Les domaines sont délimités selon les

critères de compacité et de récurrence (Holm & Sander, 1998b). Chaque domaine à un numéro de

classification du type DC_l_m_n_p, où (l) est l’attracteur dans l’espace des repliements, (m) la

topologie du repliement, (n) la famille fonctionnelle, (p) la famille de séquence. Le plus haut niveau de

la classification (niveau l) regroupe les domaines en fonction de leur composition en éléments

structure secondaire et leur motifs structuraux « super-secondaires ». Pour couvrir l’espace des

repliements sur la base des connaissances structurales actuelles, cinq attracteurs (modèle de domaine à

structure secondaire, super-secondaire et tertiaire précises) ont été définis pour le niveau l (Figure 4).

Figure 4 : Archétype des structures des cinq attracteurs de Dali (source URL 18)

Bien que regroupant la plus grande partie des domaines connus, ces cinq premiers attracteurs ne

permettent pas de classer tous les domaines. A ces cinq premiers attracteurs s’ajoutent deux classes

supplémentaires pour les domaines qui sont proches de plusieurs attracteurs, regroupés dans la classe

6, ou pour les domaines qui n’ont aucun lien avec aucun des attracteurs, regroupés dans la classe 7.

Certains de ces domaines, pourront être classés, en fonction de l’évolution des connaissances

structurales et la définition de nouveaux attracteurs. Le second niveau (niveau m) est basé sur la

topologie du repliement. Ce niveau est définit en fonction de l’orientation des éléments des structures

secondaires. Les domaines sont regroupés si l’orientation et la disposition spatiale des éléments de

structure secondaire sont suffisamment proches, c’est-à-dire si le Z-score calculé par Dali (programme

d’alignement des structures tridimensionnelles des domaines) est supérieur à 2 (score seuil déterminé

Attracteur 1 α/β

Attracteur 2 Tout-β

Attracteur 3Tout-α

Attracteur 4 Tonneaux β anti-

parallèles

Attracteur 5α+β

26

empiriquement). Dans ce cas, les domaines ont la même composante (m) dans leur numéro de

classification.

1.1.2.2.d. Autres bases s’articulant autour de la PDB

Bien que n’ayant pas le souci d’être exhaustif, nous citerons dans ce paragraphe quelques autres

bases de données structurales.

PALI (Phylogeny and ALIgnment of homologous protein structures ; Balaji et al., 2001 - URL 19)

est une base de données qui présente des alignements structuraux de séquences et des arbres

phylogénétiques. Les relations mises en avant par PALI aident à mieux comprendre l’influence des

séquences et de leur mutation sur l’évolution des structures.

HOMSTRAD (HOMologous STRucture Alignment Database ; Mizuguchi et al., 1998) que l’on

peut qualifier d’équivalent structural de la base de donnée de séquence Pfam (voir §1.1.1.2.c, page 17).

HOMSTRAD est une base d’alignements structuraux, calculés à l’aide de COMPARER (Zhu et al.

1992). Les alignements sont regroupés en 800 familles. Chaque famille est composée de séquences

ayant au minimum 90% d’identité. La structure de meilleure résolution est utilisée en tant que

structure représentative de la famille.

MODBASE (Sánchez et al., 2000 - URL 21) est une base proposant des modèles structuraux

générés par le processus MODPIPE incluant PSI-BLAST (§1.2.2.2 page 39) et MODELLER (programme

de modélisation moléculaire à partir d’un alignement ; Sali & Overington, 1994).

CAMPASS (CAMbridge database of Protein Alignments organised as Structural Superfamilies ;

Sowdhamini et al., 1998 - URL 22) s’appuie sur la base SCOP (§1.1.2.2.a page 22) pour regrouper les

séquences en familles et super-familles sous la forme d’alignements de séquences calculés par

COMPARER, et corrigés pour certains par le programme SEA (Sowdhamini et al., 1996).

1.1.3. DBcat : Le catalogue des bases de données en biologie.

Afin de compléter cette brève présentation de quelques unes des bases de données les plus

utilisées dans le domaine de la protéomique, signalons l’existence de DBcat (URL 23), catalogue des

bases de données en Biologie, hébergé par le serveur national InfoBioGen. Devant la spécialisation

des données, et la création des nombreuses bases de thématique diverses, DBcat, projet en

collaboration avec l’EBI, se propose de maintenir une liste aussi exhaustive que possible des bases de

données biologiques. DBcat est une base de données, qui pour chacune de ses entrées propose : une

description de la base, le domaine auquel elle appartient, les noms des auteurs, les références

bibliographiques à citer, les adresses web, ftp et postale.

27

Domaine Nombre d’entrées

ADN 87

ARN 29

Protéine 94

Génome 58

Cartographie 29

Structure de protéine 18

Littérature 43

Divers 153

Total 511

Table 1 : domaines et nombre des bases de données listées dans DBcat (2 Août 2002).

1.1.4. Les systèmes d’interrogation des bases de données

Un effort intense a été fourni dans le stockage et la gestion des données, donnant lieu aux

nombreuses bases de données dont quelques unes ont été décrites. Ce résultat, dans la collecte des

données, est une véritable réussite de la recherche scientifique. Cependant, une telle quantité

d’information n’est réellement profitable que si elle est facilement accessible. D’où la nécessité de

systèmes d’interrogation de bases de données, permettant à l’aide de critères précis de retrouver une

information particulière et pertinente dans cette masse colossale de données. Il existe plusieurs

systèmes d’interrogation, pour certains bénéficiant d’une interface web et permettant à l’aide de mots

clefs concernant des champs (auteur, source, fonction…) et d’opérateurs logiques tels que AND (et),

OR (ou), NOT (non), de retrouver aisément une information concernant un sujet précis, de réaliser des

regroupements pour étudier un problème particulier… Ces systèmes comme ACNUC (Gouy et al.,

1985), Entrez (Wheeler et al., 2001) ou SRS (Etzold et al., 1996) sont particulièrement efficaces. SRS

est probablement l’un des plus intéressants, car associé à une interface Web, il est adaptable à

n’importe quelle base de données, pour peu que celle-ci soit stockée sous la forme de fichier texte

ASCII. En outre, ce système permet l’interrogation simultanée de plusieurs banques de données.

1.2. Outils bioinformatiques d’analyse des séquences protéiques

Les outils bioinformatiques disponibles offrent plusieurs alternatives : comparer la séquence

d’intérêt à celles qui sont connues, rechercher des motifs particuliers ou signatures fonctionnelles

permettant de rattacher la protéine à une famille fonctionnelle. Ensuite il peut être judicieux d’aligner

ces protéines par le calcul d’un alignement multiple afin de mettre en exergue les régions conservées,

28

offrant une base de travail pour l’étude expérimentale approfondie de sa fonction. D’autres outils

bioinformatiques permettent de prédire les régions hydrophobes (trans-membranaire par exemple), des

régions accessibles (antigènes potentiel pour la synthèse d’anticorps de détection), des régions

d’interaction avec d’autres molécules comme les motifs d’interaction avec l’ADN. Ainsi la

Bioinformatique offre un panel d’outils dans le domaine de l’analyse de séquence des protéines, qui

judicieusement combinés sont des moyens efficaces et rapides pour l’étude d’une protéine dont seule

la séquence est connue. Néanmoins les déductions obtenues in silico doivent être vérifiées par des

approches expérimentales in vitro et in vivo.

1.2.1. Recherche d’homologie par comparaison de séquences

1.2.1.1. Définitions

Le terme « homologie » sous-entend que les séquences (protéiques ou nucléiques) ont dans leur

évolution un ancêtre commun. C’est une notion purement qualitative, et transitive (si A est homologue

à B et B est homologue à C, alors C est homologue à A). L’homologie peut concerner des protéines

existant chez différentes espèces, ces protéines sont alors qualifiées de protéines orthologues.

L’homologie peut aussi concerner des protéines d’une même espèce, ces protéines sont des protéines

paralogues. L’homologie est à ne pas confondre avec la similarité, qui est une notion quantitative

indiquant à quel degré deux séquences se ressemblent. La similarité est exprimée le plus souvent sous

la forme d’un pourcentage calculé à partir de l’alignement des séquences d’intérêt, soit en considérant

la conservation stricte des mêmes résidus aux mêmes positions des séquences (identités), soit en

considérant la conservation des mêmes propriétés physico-chimiques aux mêmes positions (acide,

basique…). Lorsque deux protéines sont fortement similaires, elles sont homologues. En revanche

l’absence de similarité ne signifie pas que les protéines ne sont pas homologues.

La comparaison de séquence peut se faire soit de façon globale sur toute la longueur des séquences

par alignement, soit de façon locale, par la recherche de courtes portions de séquence présentant une

ou plusieurs caractéristiques particulières (domaine, signature, site, région hydrophobe…) avec des

outils de recherche plus spécialisés.

1.2.1.2. Alignement par paire de séquences

1.2.1.2.a. Principe et algorithme

Aligner deux séquences revient à les « superposer » physiquement de façon à pouvoir les

comparer et à faire ressortir les régions identiques, qui au cours de l’évolution ont été conservées. Ce

procédé repose sur l’hypothèse de la micro-évolution par mutation ponctuelle. On peut observer trois

types de mutations à l’origine de la divergence des séquences protéiques : les substitutions, les

insertions et les délétions. Au sein d’un alignement, les insertions et les délétions (indels) sont le plus

29

souvent matérialisées par un le caractère (-) ou par le caractère (.). Aligner deux séquences de façon

optimale consiste à positionner les indels de façon à faire correspondre un maximum d’acides aminés

entre les deux séquences à l’aide d’une matrice de substitution (§1.2.1.2.a.i page 31), soit sur la base

de l’identité stricte, soit sur la base de la conservation d’une propriété particulière (taille, polarité,

hydrophobie, réactivité chimique…).

La technique principalement utilisée pour trouver l’alignement optimal de deux séquences est

l’algorithme de programmation dynamique introduit par Needleman & Wunsch (1970). Considérons

un graphe à deux dimensions : une pour chacune des deux séquences. Aligner de façon optimal ces

deux séquences, revient à trouver à l’intérieur de ce graphe le meilleur chemin pour le traverser,

position par position, sachant qu’une insertion ou délétion se matérialise par un portion verticale ou

horizontale, alors que la conservation se matérialise par une portion parallèle à la diagonale. La

programmation dynamique est basée sur le raisonnement suivant : chaque sous-chemin qui termine à

un point situé sur le chemin optimal est lui même le chemin optimal qui conduit jusqu’à ce point. En

d’autres termes le chemin optimal peut être trouvé par extension des sous-chemins optimaux. A l’aide

de cet algorithme, tel qu’il a été définit par Needleman & Wunsch, l’alignement optimal doit inclure

les séquences dans leur intégralité. L’alignement obtenu est global. Ce type d’algorithme fonctionne

bien lorsque les séquences présentent des similitudes sur toute leur séquence. Cependant les protéines

ayant une organisation modulaire (Baron et al., 1991 ; Doolittle & Bork , 1993) se prêtent beaucoup

moins à ce type d’alignement car seuls certains domaines peuvent être conservés et/ou peuvent

apparaître selon un ordre différent. Ensuite Beaucoup d’autres algorithmes heuristiques ont été publiés

jusqu’à ce que Smith & Waterman (1981) proposent leur version modifiée de l’algorithme de

programmation dynamique, qui est aujourd’hui l’un des fondements sur lequel s’appuie l’alignement

de séquences et les applications qui en découlent. Cet algorithme, a stratégie locale, vise à identifier à

l’intérieur du graphe (donc à l’intérieur des séquences) tous les segments communs par des étapes

d’extension, et relie les principaux segments, de telle sorte que mathématiquement, il n’y ait pas de

meilleur alignement entre ces deux séquences. Cette méthode repose sur un système de calculs de

scores (scoring) représentés par une matrice, où chaque élément représente le taux de similarité

existant entre les deux portions de séquences se terminant par cet élément (Figure 5).

30

0 b1 b2 … bj-1 bj bj+1 … bm-1 bm

0 0 0 0 … 0 0 0 … 0 0

a1 0

a2 0

… …

ai-1 0 Hi-1,j-1 Hi-1,j

ai 0 Hi,j-1 Hi,j

ai+1 0

… …

an-1 0

an 0 Hn,m

Figure 5 : matrice de similarité entre deux séquences (tiré de Smith & Waterman, 1981).

Les deux séquences étudiées sont représentées par deux ensembles : A=(a1, …, ai, …, a n) et

B=(b1, …, bj, …, bm). L’algorithme permet d’obtenir une matrice de scores H qui va indiquer le lieu et

la taille des indels à placer pour aligner les deux séquences de façon mathématiquement optimale. Afin

de se préserver des valeurs négatives, il est postulé que :

Hk,0 = H 0,l = 0 avec 0 ≤ k ≤ n et 0 ≤ l ≤ m

La méthode consiste à trouver le chemin qui maximisera le score au sein de cette matrice, sachant

qu’un saut vertical ou horizontal matérialise une insertion. Les insertions sont pénalisantes : à chaque

insertion est appliquée la pénalité Wk=r+kt où r est la pénalité d’ouverture d’un gap (insertion), t la

penalité d’extension sur une position de ce gap et k la longueur du gap. Généralement la pénalité

d’extension est plus faible (1-2) que la pénalité d’ouverture (10-15 avec la matrice BLOSUM62), de

façon à mimer les processus évolutifs qui tendent à privilégier une insertion unique plus longue, plutôt

que de nombreuses petites insertions. Pour chaque position dans la matrice le score s(ai,bj) est tiré

d’une matrice similarité appropriée (cf §1.2.1.2.a.i page 31). Chaque élément de la matrice Hi,j

représente la similarité entre deux segments, l’un se terminant par ai, l’autre par bj et est caractérisé

par :

{ }{ }

−

−

+

=

−

−

−−

llji,

kjk,i

ji1j1,i

ij

WHMAX

WHMAX

)b,S(aH

MAXH

Ce qui signifie que la valeur du score de similarité pour les fragments se terminant par ai et bj est

obtenue comme suit :

• si les acides aminés sont similaires alors Hi-1,j-1 + S(a i,bj) s’applique ;

• si l’acide aminé ai est la terminaison d’une suppression de longueur k acides aminés

alors MAX{Hi-k,j- Wk } s’applique ;

31

• si l’acide aminé bj est la terminaison d’une suppression de longueur l acides aminés

alors MAX{Hi-l,j- Wl } s’applique ;

• sinon les acides aminés a i et bj n’appartiennent pas à des segments similaires et un 0

est appliqué de façon à éviter les valeurs négatives.

L’alignement optimal correspond au chemin qui maximise le score. Le chemin est reconstitué à partir

de plusieurs segments optimaux obtenus à l’aide des scores de similarité Hi,j de plus fortes valeurs. Ces

valeurs marquent la fin des segments optimaux. Pour retrouver le début de chaque segment il est

nécessaire de « remonter » la matrice jusqu’à obtenir la valeur 0. Ce processus est répété afin d’obtenir

tous les segments qui sont alors reliés entre eux pour obtenir l’alignement mathématiquement optimal

avec la matrice de substitution choisie.

1.2.1.2.a.i. Matrices de substitutions

La comparaison des séquences implique la comparaison des acides aminés qui les constituent. Les

matrices de substitutions sont des échelles qui quantifient la ressemblance entre les acides aminés. La

plus simple d’entre elle est la matrice identité, qui répond à la loi du tout ou rien. Cependant celle-ci ne

prend pas en compte le fait que certains acides aminés ont des propriétés biochimiques proches

(l’acide glutamique et l’acide aspartique par exemple), expliquant les mutations conservatrices

observées dans les protéines homologues. Il est donc plus intéressant de posséder une échelle graduée,

plus fine, prenant en compte la nature biochimique des acides aminés (plus que leur simple nom) et

donc plus pertinente du point de vue biologique.

1.2.1.2.a.ii. Les matrices PAM

Les matrices PAM (Point-Accepted-Mutation ; Dayhoff et al., 1978) sont les premières qui furent

largement utilisées pour la comparaison des séquences. Il en existe plusieurs selon la divergence

observée, générée au cours de l’évolution. La première PAM1 est établie sur 1 PAM. L’unité PAM

représente la divergence pour laquelle 1% des acides aminés ont changé, c’est une distance dans

l’échelle de l’évolution, totalement indépendante du temps nécessaire pour observer ces changements

(le modèle est Markovien). Si les changements étaient purement aléatoires, la fréquence des

substitutions serait déterminée par la fréquence des résidus (background frequencies Bfreq).

Cependant, dans les protéines homologues, la fréquence des mutations observées (target frequencies

Tfreq) sont biaisées par les mutations qui n’influent pas sur la fonction de la protéine (mutation

conservatrice ou acceptée). Les scores donnés par les matrices PAM sont proportionnels au logarithme

du rapport Bfreq/Tfreq. L’utilisation du logarithme népérien est simplement mathématique et permet

d’accélérer la vitesse des calculs pour obtenir les autres matrices PAM. En effet, seule la matrice

PAM1 est obtenue à partir de l’observation des mutations au sein de protéines homologues (1%

d’acides aminés mutés). Ensuite, c’est par extrapolation que les autres matrices sont obtenues à

32

différentes distances en multipliant la matrice PAM1 par elle-même, comme PAM250 pour une

distance de 250 PAM (matrice PAM1 élevée à la puissance 250) ou encore PAM 200 à une distance

de 200 PAM. La matrice PAM250 (Figure 6) autorise 250 mutations pour une séquence de 100 acides

aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à

environ 20% d'identité (il est possible de diverger au maximum jusqu’à 6% d’identité par

extrapolation pour PAM800 et plus). Plusieurs matrices PAM sont disponibles (Altschul, 1991). Selon

la divergence observée entre les séquences, différentes matrices PAM sont à utiliser (Figure 7). Ainsi

pour réaliser une recherche dans les bases de données, PAM120 est indiquée. Les matrices à moins

forte valeur de PAM sont plus appropriées pour comparer des séquences homologues (ou suspectées

comme telles) et inversement. D’une manière générale, c’est surtout PAM250 qui est la plus utilisée

lorsque l’on n’a pas d’a priori sur l’homologie qui lie les séquences ou lorsqu’elles sont divergentes.

Figure 6 : matrice PAM250. Chaque élément Mij est égal à la valeur logarithmique du rapport Bref/Tref multipliée par 10 et

arrondie à l’entier le plus proche. Mij≈10*(log10(Bfreq/Tfreq)ij).

1.2.1.2.a.iii. Les matrices BLOSUM

Les matrices de substitutions BLOSUM (BLOcks SUbsitution Matrix) sont basées sur la même

idée que les matrices PAM mais ont été créées avec une approche différente, notamment pour

l’estimation des fréquences Tfreq (Henikoff & Henikoff, 1992). Les matrices sont établies en utilisant

les alignements locaux de la base de données Blocks (cf §1.1.1.3.c p20), contenant des séquences plus

divergentes que celles utilisées pour l’établissement des matrices PAM, mais possédant des régions

communes similaires. Les matrices BLOSUM ne sont pas définies par extrapolation, mais sur la base

d’une observation réelle. Il existe plusieurs matrices BLOSUM selon le taux d’identité maximal entre

les séquences, ainsi BLOSUM62 à été établie par l’observation des séquences ayant au maximum 62%

d’identité entre elles. Comme pour les matrices PAM, selon l’homologie liant les séquences à aligner

Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr ValA R N D C Q E G H I L K M F P S T W Y V

Ala A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0Arg R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2Asn N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2Asp D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2Cys C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2Gln Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2Glu E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2Gly G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1His H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2Ile I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4

Leu L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2Lys K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2Met M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2Phe F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1Pro P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1Ser S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1Thr T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0Trp W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6Tyr Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2Val V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4

33

on utilisera des versions différentes de BLOSUM : les matrices BLOSUM de faible valeur sont

équivalentes aux matrices PAM de forte valeur et sont indiquées pour comparer des séquences

distantes (Figure 7). Comparativement aux matrices PAM, les matrices BLOSUM donnent

généralement des résultats plus cohérents du point de vue biologique. Ceci tient principalement au fait

que les matrices PAM incluent des séquences entières avec des régions qui peuvent être très

divergentes, alors que les matrices BLOSUM utilisent des alignements locaux (même si les séquences

intégrales sont plus divergentes, il y a une meilleure cohérence biologique). De plus, les matrices

BLOSUM étant plus récentes, elles incluent plus de données biologiques que les matrices PAM.

1.2.1.2.a.iv. Les matrices physico-chimiques et structurales

Ces matrices sont obtenues en comparant les propriétés physico-chimiques des acides aminés,

comme par exemple leur caractères hydrophile ou hydrophobe. C’est le cas des matrices

d’hydrophobie (Levitt, 1976 ; Kyte & Doolittle, 1982) basées sur des mesures d’énergie libre de

transfert des résidus depuis l’eau vers l’éthanol, ou encore la matrice de structure secondaire (Levin et

al., 1986) basée sur la propension d'un acide aminé à être dans une conformation donnée. L’évolution

constante du nombre de structures tridimensionnelles connues a permis le développement de matrices

basées sur l’observation des structures comme la matrice de Johnson & Overington (1993) obtenue à

partir de l’étude de 235 structures réparties en 65 familles. D’autres existent comme SDM et HSDM

(Prlic et al., 2000). Celles-ci ont été obtenues à l’aide de 122 paires de protéines homologues (URL

27). Ce type de matrice est indiqué pour l’étude de protéines homologues à faible similarité.

1.2.1.2.a.v. Choix et efficacité des matrices

Bien que de nombreuses matrices existent, il n’existe pas de matrice idéale. La matrice à choisir

pour comparer des séquences dépend évidemment de la nature des séquences et seul le biologiste peut

choisir la matrice qui conviendra le mieux à ses travaux. Il peut être bon d’utiliser pour une même

comparaison, différentes matrices. Très schématiquement, on peut conférer aux matrices PAM et

BLOSUM les domaines d’application suivant :

Figure7

Figure 7 : domaines d’utilisation des matrices PAM et BLOSUM

Testées à l’aide des programmes de recherche de similarité tels que BLAST ou FASTA (§1.2.1.3 page

35), les matrices basées sur les comparaison de séquences comme la matrice BLOSUM, ou les

matrices structurales donnent de meilleurs résultats que les matrices PAM (Johnson & Overington,

BLOSUM 45 PAM 250

BLOSUM 80 PAM 1

BLOSUM 62PAM 120

Séquences moins divergentes

Séquences plus divergentes

Recherche dans les bases de données

34

1993 ; Henikoff & Henikoff, 1993 ; Pearson 1995 ; Henikoff & Henikoff, 2000). Selon le « contexte

local » au sein des séquences, il peut être intéressant de changer de matrice, en fonction par exemple

des structures secondaires et de l’accessibilité des résidus comparés (Koshi & Goldenstein, 1995).

1.2.1.2.b. Score et signification statistique des alignements

Les matrices de similarité confèrent à la comparaison des séquences un caractère biologique,

puisqu’elles sont établies sur la base des propriétés biochimiques et structurales des résidus. Pour

chaque alignement, il est possible de calculer un score qui témoigne de la qualité avec laquelle les

séquences ont été alignées avec la matrice choisie. Cependant il reste utile de vérifier si l’alignement

observé, avec un score donné, témoigne d’une réelle homologie entre les séquences et à une véritable

signification biologique. Ceci est indispensable pour la recherche de séquences homologues au sein

des bases de données. Il faut estimer le score maximal qui serait le fruit du hasard, obtenu avec des

séquences de même composition et dans les mêmes conditions. Pour les alignements globaux, il n’y a

pas de théorie mathématique capable d’expliquer, et donc de prévoir, la distribution des scores. Le seul

moyen d’estimer cette distribution est empirique : il faut calculer des alignements avec des séquences

générées aléatoirement, de même longueur et de même composition puis en déduire les scores (Fitch,

1983). En revanche, il est possible de simplifier le problème en étudiant la distribution des scores

obtenus avec des alignements locaux non gappés (Hight Scoring Pair, HSP), pour lesquels cette

distribution peut être exprimée mathématiquement (Karlin & Altschul, 1990). La distribution aléatoire

des scores pour les HSPs peut être estimée à l’aide d’une fonction de distribution de valeur extrême

(extreme value distribution) montrant que le score normalisé S’ est :

S’ = λS-ln(nm)

où S est le score de similarité nominal, n et m les longueurs des séquences. Les deux paramètres, λ et

K, sont des constantes déterminées analytiquement et dépendent de la matrice de substitution et de la

fréquence des résidus dans les séquences. Ayant un score S’, la probabilité (p-value) qu’un alignement

présente un score identique (x) ou meilleur de façon hasardeuse est donné par la relation :

P(S’ ≥ x)=1-exp(-Kmn.e-λx)

Plus cette probabilité est faible, plus l’alignement est statistiquement significatif, pointant une

probable homologie biologique. A cette probabilité, il faut relier la valeur E (Expected value) qui

représente le nombre d’alignements attendus pouvant avoir un score égal ou supérieur, toujours par le

biais du hasard :

E(S’ ≥ x)= Kmn.e-λx

Une valeur de E faible, permet d’affirmer l’homologie qu’il existe entre les séquences comparées, la

réciproque n’est pas vraie : une valeur de E forte ne permet pas d’infirmer la possibilité d’une

homologie entre les séquences. Ces paramètres sont souvent utilisés dans les programmes de

recherches de similarité comme BLAST et FASTA (§1.2.1.3 page 36) et sont utiles pour juger la

35

pertinence des résultats issus du criblage des bases de données. Dans ce cas, les résultats sont

directement dépendants de la qualité de la base de données criblée : ils sont d’autant meilleurs que la

redondance est faible.

Si cette théorie est valable pour les alignements non gappés, elle semble aussi s’appliquer aux

alignements gappés, mais cela n’a pas été vérifié de façon formelle, d’ailleurs les paramètres λ et K ne

peuvent pas être calculés, ils sont estimés à l’aide de simulations informatiques (Waterman &

Vingron, 1994 ; Altschul & Gish, 1996).

1.2.1.3. Application : recherche d’homologie dans les bases de séquences.

L’algorithme de Smith & Waterman permet d’aligner de façon optimale deux séquences et ainsi

analyser leur parenté biologique. En comparant à l’aide de cet algorithme une séquence d’intérêt avec

toutes celles qui sont présentes dans les banques, il est possible de retrouver dans une base de

séquences, les protéines qui lui sont proches. Le programme SSEARCH (Smith & Waterman, 1981),

implémentation directe de l’algorithme de Smith & Waterman, est justement utilisé à ce titre et

garantit des résultats sûrs. Néanmoins, cet algorithme demande beaucoup de temps de calcul et de

ressources mémoire, créant ainsi une forte limitation dans l’emploi du programme SSEARCH pour la

recherche d’homologie dans les bases de données. Il y a deux solutions à ce problème. La première

consiste à utiliser un matériel approprié et spécifique, dédié à ce type de recherche rendant la vitesse

d’exécution inégalable (Shpaer et al., 1996). Mais ce gain se fait au détriment de l’universalité du

programme puisqu’il faut disposer de ce matériel précis. La seconde solution, plus universelle et donc

beaucoup plus intéressante consiste à combiner l’algorithme de programmation dynamique avec des

étapes heuristiques, de façon à minimiser le nombre des calculs à réaliser et ainsi augmenter

l’efficacité de l’algorithme. L’efficacité dont il s’agit ici se traduit par le meilleur compromis entre

vitesse d’exécution, sensibilité et spécificité. Une meilleure sensibilité autorisera une meilleure

détection pour les paires de séquences qui sont très éloignées mais reliées sur le plan biologique, en

d’autres terme une meilleure sensibilité permet de détecter plus de « vrais positifs ». La spécificité

évitera d’inclure les séquences qui ne sont pas reliées parmi celles qui le sont, donc, une spécificité

plus grande, évitera la détection des « faux positifs ». Mathématiquement ces notions sont traduites de

la façon suivante :

Sensibilité = VP/(VP+FN)

Spécificité = VN/(VN+FP)

avec VP, le nombre de vrais positifs (séquences détectées et effectivement reliées), FN le nombre des

faux négatifs non détectés (séquences non détectées mais reliées), FP le nombre des faux positifs

détectés (séquences détectées mais non reliées) et VN le nombre de vrais négatifs (séquences non

détectées et non reliées). Un programme est d’autant meilleur que spécificité, sensibilité et vitesse

d’exécution sont élevées, ce qui n’est pas chose aisée à développer, si l’on considère la taille toujours

36

croissante des bases de données. Le fait d’introduire des étapes heuristiques permet surtout

d’augmenter la vitesse de calcul et d’obtenir les résultats dans un temps raisonnable. Cependant, ces

étapes font appel à des approximations qui provoquent une légère perte en sensibilité (tous les vrais

positifs ne sont pas détectés).

Une des stratégies employée par ces méthodes heuristiques consiste à décomposer une séquence en de

courtes successions de lettres appelées mots (word). Ces méthodes, introduites au début des années 80

(Wilbur & Lipman, 1983) sont basées sur la recherche et la comparaison des mots. Le succès des

programmes BLAST et FASTA, les deux implémentations heuristiques les plus connues, tient au fait

qu’elles sont particulièrement rapides pour une sensibilité qui reste très acceptable. Elles sont basées

sur l’idée simple que deux séquences reliées ont au moins un mot en commun (word hit).

1.2.1.3.a. FASTA

Le programme FASTA (Pearson & Lipman, 1988 ; Pearson, 1990) détecte les alignements

optimaux entre les séquences à l’aide d’une matrice de substitution. L’algorithme FASTA fait

intervenir plusieurs étapes. La première consiste à détecter toutes les identités entre les séquences.

L’emploi d’une table de recherche (lookup table) facilite et accélère cette phase. Puis une étape de

filtration vise à ne considérer que les alignements locaux pour lesquelles un nombre minimal de lettres

consécutives sont alignées. Ce nombre est fixé par le paramètre ktup, permettant ainsi une sélection

des alignements locaux à examiner : ceux-ci doivent avoir au moins ktup lettres consécutives alignées.

Par conséquent, plus ktup est élevé, plus la vitesse augmente (puisque l’on sélectionne moins

d’alignement). Cependant, ce gain en rapidité se fait au détriment de la sensibilité car en augmentant la

valeur de ktup, il est plus difficile (ou impossible) de détecter les séquences reliées mais éloignées.

Pour chaque alignement obtenu, FASTA attribue un score init1 selon une méthode heuristique, en

fonction de la densité en identités partagées. Seuls les segments représentant les alignements avec les

scores les plus élevés sont conservés. Ceux qui sont situés sur la même diagonale sont fusionnés et un

nouveau score initn est calculé pour l’ensemble, le score init1 est attribué au segment le mieux aligné.

Ensuite, un alignement local optimum est calculé dans une bande étroite du graphe, centré sur le

segment de score init1 et englobant les autres, en autorisant les insertions/délétions. Un score opt est

attribué à chaque alignement local ainsi obtenu. Les alignements optimaux sont ensuite recalculés avec

l’algorithme de Smith & Waterman. Pour chaque séquence sujette identifiée par FASTA, seul

l’alignement optimal est fourni à l’utilisateur. FASTA donne le résultat de la recherche sous la forme

d’un fichier texte qui présente toutes les séquences sujettes trouvées dans la base de données de

recherche (Figure 8).

37

…

…

…

>>sw||GALR_ECOLI (P03024) Galactose operon repressor. (343 aa)

initn: 105 init1: 78 opt: 147 Z-score: 194.3 bits: 42.9 E(): 0.00053

Smith-Waterman score: 147; 26.549% identity (27.273% ungapped) in 113 aa overlap (5-117:3-112)

10 20 30 40 50 60

Exampl MKKITIYDLAELSGVSASAVSAILNGNWKKRRISAKLAEKVTRIAEEQGYAINRQASMLR

:: :.:.:.:::...:: ..:.. : . : .:: : : .: : .: :

sw||GA MATIKDVARLAGVSVATVSRVINNSPKASEAS-RLA--VHSAMESLSYHPNANARALA

10 20 30 40 50

70 80 90 100 110 120

Exampl SKKSHVIGMIIPKYDNRYFGSIAERFEEMARERGLLPIITCTRRRPELEIEAVKAMLSWQ

.. ....:... .. .::.... :..: . : . .: . . : .:.. ..

sw||GA QQTTETVGLVVGDVSDPFFGAMVKAVEQVAYHTGNFLLIGNGYHNEQKERQAIEQLIRHR

60 70 80 90 100 110

…

…

…

Figure 8 : exemple d’un résultat obtenu par FASTA. Un même recherche FASTA sur une séquence requête

permet d’obtenir plusieurs alignements avec plusieurs séquences sujettes. Un seul alignement est représentée ici.

FASTA fournit depuis sa version 2.0, une évaluation quant à la signification des résultats par le biais

du Z-score. Le Z-score est obtenu de la façon suivante :

varb.ln(n))(aSZ +−=

Le Z-score est la régression linéaire, représentée par le terme (a + b ln(n)), calculée à partir d’un

échantillon de séquence de la banque qui ne comprend pas les séquences reliées ayant un fort score. Le

terme var est la variance des scores normalisés. La distribution du Z-score suit une distribution de

valeur extrême, et l’on peut en déduire une valeur E (Expected value) qui donne le nombre

d’alignements attendus avec un score égal ou supérieur, avec une séquence de longueur (d) donnée et

dans une base de taille donnée (D).

Plus la valeur de E est faible et plus le résultat trouvé par FASTA est pertinent.

1.2.1.3.b. BLAST

BLAST (Basic Alignment Search Tool ; Altschul et al., 1990) a amélioré la recherche de

similarité et a permis d’évaluer la signification statistique des alignements. Une innovation apportée

par BLAST est la recherche de mots voisins (neighborhood words) : un mot est trouvé (hit) si le score

dD)eexp(1x)E(Z

0,57721,282Z ∗−−=>−−

38

calculé (à l’aide d’une matrice de substitution) est supérieur ou égale à un score T. Cette stratégie

permet de rechercher des mots de plusieurs lettres (valeur élevé de ktup) donc d’améliorer la rapidité

du programme. T est le paramètre déterminant pour la rapidité et la sensibilité, ktup est rarement

modifié (ktup = 3) : si T est élevé, alors le nombre de hits sera réduits et la recherche sera

particulièrement rapide. A l’inverse si T est faible, la recherche sera plus lente, mais les protéines

reliées les plus distantes pourront être trouvées.

BLAST recherche des mots, puis étend l’alignement entre les séquences aux deux extrémités

(HSP). Cette extension est réalisée tant que le score de l’alignement est supérieur à un score seuil S

(que l’utilisateur peut fixer). Ce processus d’extension représente 90% du temps de calcul de BLAST.

Depuis la version 2.0 du programme, les gaps sont traités de manières explicite, améliorant la

sensibilité de la recherche : les résidus au centre d’une HSP servent de graine (seed) pour initier un

processus de programmation dynamique qui étend l’alignement à gauche et à droite (avec introduction

de gaps). Dans ce processus, les cellules du graphe qui sont utilisées ne font pas chuter le score de

l’alignement locale d’une valeur trop importante (qui reste inférieure à un seuil). Ce qui signifie, que

contrairement à FASTA, BLAST ne se limite pas à la bande diagonale du graphe de recherche. Ce

processus est répété pour toutes les HSPs, permettant d’identifier tous les alignements gappés non

chevauchants. BLAST est donc plus exhaustif que FASTA (qui lui ne fournit que le meilleur

alignement). BLAST existe dans une version itérative plus sensible : PSI-BLAST (§1.2.2.2 page 39).

1.2.2. Autres outils de recherche d’homologie.

1.2.2.1. Recherche de motifs (pattern)

La présence d’un motif (suite de résidus précis dans un ordre précis) dans les séquences de

protéines peut être le signe d’une fonction précise ou d’une particularité biologique. La recherche de

tels motifs, sous la forme d’expressions régulières peut permettre de replacer une protéine dans sa

famille protéique. Tout le problème est d’être suffisamment spécifique tout en étant flexible et en

autorisant la recherche de motifs dégénérés. La solution la plus simple consiste à autoriser un certain

nombre de mutations dans le motif. Mais si pour des raisons biologiques, des positions sont plus

importantes que d’autres et doivent être strictement conservées, cette solution est peu efficace. Il faut

pénaliser plus lourdement la mutation des positions les plus importantes. Ceci a été mis à profit au sein

de l’algorithme PATTINPROT (Blanchet, 1999). PATTINPROT définit deux scores : Sc0 qui la

fréquence du motif (en fonction de sa composition) et Scseuil = 10 τ log Sc0. τ est le taux de similarité

minimal voulu lors de la recherche, τ est inférieur à 1. Scseuil est supérieur à Sc0. Un motif est trouvé

dans une séquence si son score calculé est compris entre Sc0 et Scseuil. Le score est calculé sur une

fenêtre de la taille du motif. Si le résidu à la position i satisfait le motif, le score de la position i est

égale à celui de la position i-1. Sinon Sc(i)=Sc(i-1)/P(i) où P(i) est la pénalité à la position i. Donc Sc(i)

39

augmente d’autant plus que P(i) est petit. Si Sc(i) > Scseuil, la fenêtre est déplacée sinon la séquence

correspondant au motif est donnée pour résultat à l’utilisateur. L’innovation consiste à prendre pour

pénalité la fréquence de la position : si plusieurs résidus sont autorisées à la même position i, alors la

pénalité est la somme des fréquences. Donc P(i) est d’autant plus grand. Par conséquent, Sc(i)

augmentera moins vite pour les positions dégénérées que lorsque la position doit être strictement

conservée (P(i) sera faible). Ainsi PATTINPROT favorise les motifs où les positions strictes sont

conservées, pour une meilleure pertinence biologique.

1.2.2.2. Utilisation des profils

Les profils sont représentés par des matrices de scores spécifiques de la position (PSSM, Position-

Specific Scoring Matrix). Ces matrices sont bidimensionnelles, les lignes sont les positions, les

colonnes représentent les résidus possibles. Les profils ressemblent aux matrices de similarité avec

l’utilisation d’un score à chaque case (entre chaque résidu de la séquence et les 20 autres possibles) : si

le score est positif, il y a une similarité, sinon il y a une dissimilarité. Les profils sont plus complexes

que les matrices de substitution. Ils fournissent, sous la forme de deux colonnes supplémentaires, des

pénalité d’insertion d’un gap et son extension, à chaque position. Selon leur mode de détermination

(matrices utilisées) il existe des profils moyens et des profils évolutifs (ces derniers étant plus

sensibles). Les profils constituent un moyen simple de représenter l’information contenue dans un

alignement de séquences homologues (Gribskov & Veretnik, 1996).

Le programme PSI-BLAST (Position Specific Iterative BLAST), version modifiée de BLAST

utilise des profils. Une première recherche est effectuée par BLAST. A l’issue de cette recherche, une

matrice PSSM est calculée à partir des résultats obtenus. Cette matrice remplace la matrice de départ

pour effectuer une nouvelle recherche. Le cycle est répété plusieurs fois. Si aucune nouvelle séquence

répondant au profil n’est trouvé, alors le cycle s’interrompt, le programme a « convergé ». Ce

programme est très sensible, c’est l’un des meilleurs outils de détection d’homologues distants à partir

des séquences protéiques.

1.2.2.3. Analyse de la compatibilité de structures secondaires.

Les structures secondaires représentent le premier niveau d’organisation structurale des protéines

(§1.4.1 page 45). Les acides aminés ont pour beaucoup des chaînes latérales hydrophobes. La chaîne

peptidique est hydrophile. Ce caractère amphipathique déstabilisant est compensé par la formation,

localement, de configurations régulières en hélice (la plus fréquente étant l’hélice α) ou en feuillet.

Un moyen d’outrepasser la divergence des séquences pour retrouver la parenté entre les protéines,

est d’analyser la compatibilité des structures secondaires. Cette quantification est possible grâce au

facteur de compatibilité de structure secondaire SOV (Zemla et al., 1999) :

40

[ ]

×

+×= ∑ ∑

∈ CE,H,i S(i)

len(Sq)St)maxov(Sq,

St)(Sq,St)minov(Sq,N1100Sov

δ

où N est la longueur de l’alignement sans les gaps ; len est longueur du segment ; H, E et C les trois

états de structures secondaires (Helix, Extended, Coil), minov est la longueur de chevauchement des

structures secondaires entre la séquence requête Sq et la séquence cible St ; maxov la longueur

maximale de chevauchement des structures secondaires entre Sq et St et δ est défini par :

δ(Sq,St)=min{(maxov(Sq,St)-minov(Sq,St)) ; minov(Sq,St) ; len(Sq/2) ; len(St/2)}

minov

E SS R Séquence 1

E SS R Séquence 2

maxov

Figure 9 : représentation des paramètres maxov et minov. ESSR représente un élément de structure

secondaire.

Alors qu’il est reconnu que le seuil d’identité minimal pour la sélection d’une empreinte structurale

afin de modéliser la structure d’une séquence protéique doit être de 25 à 30%, l’utilisation du

paramètre SOV au sein de la méthode PROCSS (PROtein Compatibility from Secondary Structure ;

Geourjon et al., 2001) permet d’abaisser ce seuil à 10% avec l’apport de l’information contenue dans

les structures secondaires. En effet, à bas taux d’identité (en dessous de 25%), les similarités de

séquences ne sont plus suffisantes pour apporter les preuves de la parenté structurale entre deux

séquences. Le SOV apporte une dimension supplémentaire qui permet d’éclater l’information

contenue dans l’alignement d’une paire de séquences, autorisant un pouvoir discriminant plus fort. Il

devient alors possible de valider les homologues structuraux à bas taux d’identité comme le montre la

Figure 10. En effet, nous pouvons constater qu’en appliquant un seuil de 60% pour le paramètre SOV,

il est possible d’établir la parenté structurale qui peut exister entre deux séquences même lorsque le

taux d'identité se situe entre 10 et 30%.

Le paramètre SOV est un outil particulièrement intéressant dans la mesure où il apporte une nette

amélioration des processus de modélisation moléculaire par homologie en augmentant le nombre

d’empreintes potentiellement utilisables. A ce titre, le paramètre SOV est utilisé dans les processus de

modélisation moléculaires automatiques dispensés à travers le web comme Geno3D (Combet et al.,

41

2002 - URL 31) au sein du serveur d’analyse de séquence NPS@ (URL 28 ; Network Protein

Sequence analysis ; Combet et al., 2000).

0 10 20 30 40 50 60 70 80 90

100

0 10 20 30 40 50 60

Figure 10 : Distribution des paires de protéine en fonction de la compatibilité des structures secondaires

expérimentales mesurée en utilisant le paramètre Sov. (faux : cercles, vrais : croix).

1.2.2.4. Utilisation des structures tridimensionnelles.

Les structures sont plus conservées que les séquences. L’utilisation des structures

tridimensionnelles permet de d’identifier des relations biologiques entre des protéines. Ceci peut être

particulièrement intéressant lorsque les séquences ont trop divergé pour être analysées à l’aide d’un

alignement significatif. Dans ces conditions, l’information d’une structure tertiaire peut servir de base

pour générer un profil, contre lequel la compatibilité d’une séquence est testée (threading, Bowie et

al., 1991).

1.3. Etude d’une famille de protéines : alignements multiples

La recherche d’homologie permet de constituer un jeu de séquences de protéines apparentées.

L’étape suivante, consiste à aligner toutes ces protéines ensemble, afin de mettre en avant les

caractéristiques conservées (sites, propriétés biochimiques, zones particulières…) et de mieux

comprendre les processus évolutifs ayant produit ces séquences. Différentes stratégies existent pour

aligner des séquences : progressive, itérative, locale et globale (pour revue : Thompson et al., 1999 ;

Notredame, 2002).

42

1.3.1. Algorithme d’alignement multiple progressif

L’algorithme de programmation dynamique garantit l’alignement optimal entre des séquences.

Pour des raisons de temps et de besoins en ressources mémoires, son usage se limite à l’alignement

d’un petit nombre de séquences. Pour aligner un nombre plus élevé de séquences, plusieurs

algorithmes heuristiques ont été développés, comme les algorithmes progressifs (Feng & Doolitle,

1987 ; Barton & Sternberg, 1987). L’approche progressive consiste à élaborer graduellement un

alignement multiple en exploitant les relations phylogénétiques entre les séquences (Sankoff, 1975).

Une première étape consiste à décomposer un alignement de N séquences en N alignements de 2

séquences, en appariant les protéines les plus proches entre elles par programmation dynamique (après

avoir réalisé Nx(N-1)/2 comparaisons). L’étape suivante consiste à aligner toutes ces paires. Cette

approche, heuristique et progressive a l’avantage d’être simple, rapide, et sensible. Cependant elle ne

garantit pas l’alignement optimal.

1.3.1.1. CLUSTALW

A partir de la comparaison des séquences par paires, CLUSTALW calcule une matrice de

distances utilisée pour construire un dendogramme (arbre de distance) selon l’algorithme des plus

proches voisins (neighbour joining ; Thompson et al., 1994). Cet arbre sert de base à la construction

de l’alignement multiple. Au fur et à mesure de la construction de l’alignement, les gaps sont crées, en

tenant compte des pénalités d’insertion et d’extension entrées par l’utilisateur. Généralement les

pénalités privilégient les extensions de gaps, plutôt que de nombreuses insertions. D’autres pénalités

spécifiques des positions sont calculées en fonction de la nature des résidus présents à chaque position

et à partir d’une table de pénalisation déduite d’alignement structuraux (Pascarella & Argos, 1992).

Enfin, les caractéristiques physico-chimiques locales sont prises en compte (e.g. insertion de gaps plus

facile dans les zones hydrophiles).

1.3.1.2. MultAlin

MultAlin (Corpet, 1988) est basé sur le même principe que CLUSTALW, avec des étapes

supplémentaires : à partir des paires alignées, une nouvelle matrice est construite et utilisée pour

reconstruire l’alignement multiple. L’approche est répétée plusieurs fois, jusqu’à ce que le processus

converge. Généralement peu de cycles suffisent (2 ou 3).

1.3.1.3. Autres programmes d’alignement multiple progressif

D’autres programmes existent et différent essentiellement par le mode de calcul du dendogramme

qui sert à construire l’alignement multiple :

43

• MULTAL (Taylor, 1988), utilise un algorithme de branchement séquentiel (sequential

branching) pour créer un arbre, en alignant d’abord deux séquences, puis ajoute à cette

paire les séquences les unes après les autres.

• MULTALIGN (Barton & Sternberg, 1987) et PILEUP créent l’arbre à l’aide de la

méthode UPGMA (Unweighted Pair-Group Method using Arithmetic average; Sneath &

Sokal, 1973)

• PIMA (Smith & Smith, 1992) aligne les motifs les plus conservés, par programmation

dynamique locale.

1.3.2. Algorithmes d’alignement multiple itératif et simultané.

L’approche progressive, rapide et simple, est avantageuse. Cependant, si au cours du processus

progressif, des résidus sont mal alignés, une correction ne pourra pas être réalisée. Ceci est encore plus

sensible lorsque les séquences sont très divergentes. Plusieurs autres programmes d’alignement

multiple adoptent d’autres approches que l’approche progressive.

L’algorithme MSA (Multiple Sequence Alignment ; Lipman et al., 1989 ; Gupta et al., 1995)

adopte une stratégie simultanée : la programmation dynamique est appliquée de façon simultanée aux

paires de séquences et à l’ensemble des séquences. La première étape consiste à calculer le graphe

standard de programmation dynamique pour toutes les paires parmi N séquences. Pour tous les

sommets, un coût est calculé pour l’alignement multiple optimal passant par ces sommets. Ensuite, un

graphe de programmation à N dimensions est considérés, mais MSA ne prend en compte que les

sommets compatibles avec ceux des graphes par paires.

SAGA (Sequence Alignment by Genetic Algorithm ; Notredame & Higgins, 1996 ) utilise un

algorithme génétique : SAGA mime les processus évolutifs supposés avoir conduit la séquence

ancestral vers les séquences à aligner, le but étant d’optimiser la fonction de cohérence COFFEE

(Consitency based Objective Function For Alignement Evaluation ; Notredame et al., 1998). COFFEE

mesure la qualité de l’alignement en vérifiant la cohérence entre l’alignement multiple et les paires

alignées selon CLUSTALW. La méthode T-COFFEE (Notredame et al., 2000) utilise aussi ce

principe, les alignements produits sont de meilleur qualité et la perte de vitesse est faible.

DIALIGN (Morgenstein et al., 1998) réalise l’alignement multiple en comparant des segments

plutôt que les résidus, un peu comme une matrice de points. Les segments sont ensuite incorporés à

l’alignement par une approche itérative.

PRRP (Gotoh, 1996) optimise un alignement multiple progressif à l’aide d’une approche itérative :

un alignement global est divisé en deux sous-groupes de séquences. L’étape est répétée avec les sous-

groupes et ainsi de suite. Ensuite les groupes sont alignés. DCA (Divide and Conquer Alignment ;

Stoye et al., 1997) utilise une approche identique.

44

HMMT (Eddy, 1995) utilise un recuit simulé (simulated annealing) pour établir un modèle

probabiliste Markovien des mutations, capable de représenter les séquences à aligner.

Progressif

Itératif

Local Global

PIMA

DIALIGN SAGA HMMT

MULTAL CLUSTAL

MULTALIGN PILEUP

PRRP

Figure 11 : Schéma représentant quelques programmes d’alignement multiple en fonction des stratégies

qu’ils adoptent (source Thompson et al., 1999).

1.3.3. Validation des méthodes d’alignement multiple

Beaucoup d’algorithmes différents existent. Chacun d’entre eux à ses forces et ses faiblesses. Un

moyen de vérifier la qualité des programmes est de les tester sur des alignements multiples de

référence, comme ceux de BAliBASE (Thompson et al., 1999 ; Bahr et al., 2001 ; §3.1.2.2 page 123)

ou encore les alignements structuraux utilisés dans l’étude de Briffeuil (et al., 1998). Ce type de

validation est un point indispensable au développement de nouvelles méthodes d’alignement multiple.

En ce qui concerne l’utilisateur, il doit s’assurer de la validité d’un alignement, voire tester plusieurs

programmes et analyser les résultats. Il peut par exemple coupler l’information des séquences à celle

des structures secondaires ou repérer de sites particuliers, afin de mieux positionner les gaps et ainsi

obtenir un alignement plus pertinent et plus informatif.

45

1.4. Outils bioinformatiques d’étude des structures secondaires des

protéines.

1.4.1. Les structures secondaires des protéines et le diagramme de Ramachandran

La nature des atomes de la chaîne peptidique (H, N, C, O) permettent aux atomes d’établir entre

eux des liaisons hydrogènes, qui vont favoriser la stabilité des structures protéiques. Lorsque ces

liaisons établissent un réseau régulier, on observe des éléments de structure secondaire. Les plus

fréquents sont l’hélice α et les brins β (Pauling & Corey, 1951).

L’hélice α se forme lorsque des liaisons hydrogènes s’établissent entre les résidus en position i et

les résidus en position i+4. Ce sont les hélices les plus fréquentes. Il en existe d’autres : hélices 310

(liaisons entre les résidus i et i+3), ou hélices π (liaisons entre les résidus i et i+5).

Les brins β n’existent pas à l’état isolés mais s’assemblent pour former des feuillets (super-

structure secondaire). Ces feuillets sont parallèles ou anti-parallèles suivant l’orientation des brins β

qui les composent. La formation des feuillets se fait par un réseau de liaisons hydrogènes entre des

résidus qui sont en général plus éloignés dans la séquence protéique que dans le cas des hélices α.

Figure 12 : représentation du réseau de liaisons hydrogènes (pointillés) d’une hélice αααα

(à gauche) et d’un

feuillet ββββ

anti-parallèle (à droite).

Des paramètres géométriques représentant les degrés de libertés d’une chaîne péptidique

permettent de définir l’état de structure secondaire des acides aminés (Figure 13-A). Les acides aminés

ont tendance à adopter des valeurs d’angles (Φ,Ψ) appartenant à des intervalles précis (Ramachandran

et al., 1968 ; Figure 13-B). L’observation statistique de ces paramètres pour les protéines de structures

connues, à permis la définition de règles structurales exploitées par les programmes d’attribution

automatique de structure secondaire.

46

Φ

Ψ

Φ

Ψ

C αααα N

O

C A )

B )

Figure 13 : A) angles (Φ,Ψ) sur le squelette carbonné. B) diagramme de Ramachandran pour la protéine

pdb1aos (réalisé avec Swiss PDB Viewer). Chaque point représente la valeur du couple (Φ,Ψ) pour un acide

aminé. Ce diagramme est composé de trois régions principales : les régions très favorables, les régions

favorables et les régions défavorables. Les régions très favorables et favorables correspondent aux éléments de

structures secondaires réguliers. Les régions défavorables représentent les couples (Φ,Ψ) tels que les contraintes

stériques (dues à la présence de la chaîne latérale) sont énergétiquement défavorables et par conséquent rarement

observés. Ce diagramme est utile pour valider les modèles structuraux (90% des résidus doivent se trouver dans

les régions très favorables).

1.4.2. Moyens d’attribution des structures secondaires des protéines à partir des

structures tridimensionnelles.

Il est assez simple de déterminer la position des structures secondaires à partir des structures

tridimensionnelles des protéines. Plusieurs programmes existent, ils s’accordent assez bien sur la

localisation et l’identification des structures secondaires. Cependant ils s’accordent rarement sur la

localisation exact (début et fin) de ces éléments.

47

1.4.2.1. DSSP

DSSP (Dictionary of Secondary Structures of Proteins ; Kabsch & Sander, 1983), est le

programme d’attribution automatique le plus ancien et le plus connu. DSSP recherche les liaisons

hydrogènes et détecte les réseaux réguliers pour localiser les éléments de structures secondaires. La

détection des liaisons est établie à l’aide du calcul d’énergie, en fonction de la distance (d) entre le

donneur et l’accepteur et de l’angle (θ) formé par « accepteur - donneur – hydrogène » :

E= 332 x q1q2 x (1/d(ON) + 1/d(OH) – 1/d(CN))

avec : q1 et q2 charges partielles sur les atomes accepteurs et donneurs, d représente la distance en Å

entre atomes. Si E est inférieure à -0,55 Kcal/mole, DSSP détecte une liaison hydrogène (la liaison

hydrogène idéale a une énergie de -3 Kcal/mole, avec d=2,9Å et θ=0°). En plus d’attribuer les

structures secondaires, DSSP donne d’autres informations, comme par exemple l’accessibilité des

résidus ou encore la localisation des ponts disulfures.

1.4.2.2. Autres outils d’attribution automatique des structures secondaires.

Il existe plusieurs autres outils d’attribution de structures secondaires, différents quant à la

définition des éléments de structure secondaire qu’ils emploient, mais aussi quant à l’algorithme

d’attribution des structures.

DEFINE (Richards et al., 1988) utilise les distances entre les résidus et plus particulièrement entre

les carbones α de la chaîne principale. STRIDE (Frishman et al., 1995) analyse la disposition des

liaisons hydrogènes couplée à la mesure d’angles dièdres (torsional angles). Enfin nous citerons P-

SEA (Protein Secondary Element Assignment ; Labesse et al., 1997), qui utilise les valeurs de distance

entre les carbones α ( i à i+3 et i à i+4), ainsi que la mesure de différents angles (dièdres, et α). P-

SEA réalise une première attribution à partir des distances, puis une seconde à partir des angles. Le

consensus issu des deux attributions est retenue comme attribution finale.

Devant ces nombreux algorithmes, des méthodes consensuelles ont été testées. L’étude menée par

Colloc’h (et al., 1993) utilise un consensus issu de DSSP, DEFINE et P-Curve (Sklenar et al., 1989)

sur un ensemble de 154 protéines, et montre que ce type de méthode consensus atténue les désaccords.

Il en résulte une prédiction de meilleure qualité.

1.4.3. Prédiction des structures secondaires des protéines

La prédiction des structures secondaires est particulièrement informative, que ce soit pour replacer

une protéine dans sa famille structurale, pour élaborer un modèle tridimensionnel notamment pour

affiner les alignements entre l’empreinte et la séquence nouvelle ou encore pour aider à résoudre les

48

structures par RMN. La prédiction des structures secondaires représente donc une part importante de

l’étude structurale d’une protéine.

1.4.3.1. Méthodes de statistiques linéaires.

1.4.3.1.a. Méthode Chou & Fasman

Cette méthode (Chou & Fasman, 1978) est l’une des premières méthodes tentant d’établir les états

de structure secondaire des séquences protéiques. Elle repose sur les préférences des résidus à être

dans un état conformationnel particulier (hélice, feuillet, apériodique). Ces préférences sont définies

selon des règles purement empiriques. La qualité de prédiction pour trois états (Q3) est de 52%. Donc

assez faible puisqu’elle fait à peine mieux que le hasard. Cette méthode a l’avantage d’être simple,

rapide et facilement compréhensible par les biologistes.

1.4.3.1.b. Méthodes GOR

Il existe quatre versions de méthodes GOR ( I à IV). Elles sont toutes basées sur la théorie de

l’information directionnelle, qui prend en compte l’environnement des résidus à prédire. Dans sa

première version, la méthode GOR (Garnier et al., 1978) considère l’information apportée par les 8

résidus précédents et suivants, qui encadrent le résidu à prédire (environnement, préférences

structurales et nature biochimique). Plusieurs versions ce sont succédées, jusqu’à la version IV

(Garnier et al., 1996), qui prend en compte l’information de toutes les paires possibles dans la fenêtre

de 17 résidus. GOR IV a un Q3 de 64,4%.

1.4.3.1.c. Méthode DPM

DPM (Double Prediciton Method ; Deléage & Roux, 1987) réalise ses prédictions en deux étapes.

Une première phase de prédiction est réalisé à l’aide de paramètres de type Chou & Fasman. Ensuite,

une seconde prédiction est réalisée pour définir la classe structurale de la protéine. Ces deux phases

permettent d’obtenir des paramètre optimums pour la prédiction finale, avec un Q3 moyen de 61,3%.

1.4.3.1.d. Méthode DSC

DSC (King & Sternberg, 1996) est une méthode statistique qui combine différent aspects de la

prédiction des structures secondaires (effets de bord, préférences structurales, hydrophobie, position

des insertions et délétions dans les alignements multiples…) en un vecteur à dix composantes. Ces

vecteurs sont mis à profit pour la prédiction des éléments de structures secondaires. Le Q3 de cette

méthode est de 70,1%.

49

1.4.3.1.e. Méthode PREDATOR

PREDATOR (Frishman & Argos, 1996) exploite l’information contenue dans les structures

tridimensionnelles. L’algorithme prédit les résidus potentiellement impliqués dans des liaisons

hydrogènes au sein d’une séquence protéique. Cette prédiction statistique est établie sur l’occurrence

(observée dans une base de structures) des résidus à être pris dans des ponts β (β-bridge) pour le

prédiction des feuillets β, ou dans des liaisons (i/i+4) pour la prédiction des hélices α. Le Q3 de

PREDATOR est de 68% et peut atteindre 75% si l’on intègre l’information apportée par des séquences

similaires (à la séquence à prédire).

1.4.3.2. Méthodes basées sur la similarité

1.4.3.2.a. Méthode de Levin

Cette méthode (Levin et al., 1988) est basée sur le concept des plus proches voisins (nearest

neighbour) : de courtes séquences similaires ont tendance à adopter des repliements semblables. La

séquence à prédire est découpée en heptapeptides à l’aide d’une fenêtre glissante. Ces derniers sont

comparés à une bibliothèque d’héptapeptides à l’aide d’une matrice de similarité spécifique. L’état

structural de chaque résidu est attribué en fonction de cette comparaison, à l’aide d’un score. La

qualité de prédiction est de 62,2%.

1.4.3.2.b. Méthode SIMPA96

SIMPA96 (Levin, 1997) est une amélioration de la méthode de Levin. La matrice de similarité

utilisée est BLOSUM62 (§1.2.1.2.a.iii page 32), la fenêtre considérée est de 13 à 17 résidus, et le

calcul des scores est amélioré. La qualité de prédiction est de 67,7% et peut atteindre 72,8% en

utilisant un alignement multiple de séquences similaires à la protéine à prédire.

1.4.3.2.c. Méthodes SOPM & SOPMA

SOPM (Self Optimized Prediction Method, Geourjon & Deléage, 1994) est basée sur la méthode

des plus proches voisins (comme les méthodes de Levin). L’algorithme de cette méthode optimise les

paramètres de prédiction à l’aide d’une sous-base de séquences similaires, spécialement construite

pour la protéine à prédire. Le Q3 de SOPM est de 69%. SOPMA (Geourjon & Deléage, 1995) est une

évolution de SOPM : SOPMA prend en compte l’information contenue dans l’alignement multiple des

séquences de la même famille que la protéine dont on veut prédire la structure, apportant ainsi des

informations biologiques utiles pour l’amélioration de la prédiction, puisque le Q3 moyen atteint

72,5%.

50

1.4.3.3. Méthodes basées sur l’apprentissage

1.4.3.3.a. Méthode PHD

PHD (Rost et al., 1994) utilise un double niveau de réseaux de neurones à couche cachée. PHD se

fonde sur l’information contenue dans un alignement multiple de séquences reliées à la séquence à

prédire sous la forme d’un profile dérivé qui sert d’entrée au réseau de neurone de premier niveau. Ce

réseau de neurones de premier niveau prédit les structures secondaires, le réseau du deuxième niveau

corrige cette prédiction en intégrant les prédiction sur les résidus adjacents de façon à supprimer les

prédictions aberrantes (HEHH => HHHH). Le Q3 de cette méthode est de 72,5%. PHD peut aussi être

utilisée pour prédire les hélices trans-membranaires (PHDhtm) et calculer l’accessibilité des résidus

(PHDacc).

1.4.3.3.b. Méthode HNN

HNN (Hierarchical Neural Networtk ; Guermeur, 1997) utilise également un double réseau de

neurones. C’est une amélioration de la méthode de Qian & Snejnowski (1998). L’architecture

algorithmique est mieux adaptée, et la méthode s’aide de paramètres physico-chimiques pour la

prédiction des états structuraux. Le Q3 est de 65,4% en utilisant la seule séquence à prédire.

1.4.3.4. Apport de l’information biologique et méthodes consensuelles.

Les méthodes utilisant l’information apportée par des séquences similaires à la protéines à prédire

sont plus performantes (DSC, SOPMA, PHD, SIMPA), ce qui montre l’utilité de replacer une protéine

dans sa famille pour mieux la caractériser. Un autre moyen d’améliorer les prédictions consiste à

utiliser des consensus (Table 19 page 125) ou encore de combiner les méthodes par régression linéaire

multiple (Guermeur et al., 1999 ; Pan, 2001).

1.5. Outils bioinformatiques d’étude des structures tridimensionnelles

des protéines.

1.5.1. Les structures tridimensionnelles des protéines

La structure tridimensionnelle est la structure active et fonctionnelle de la protéine. Elle

correspond à l’agencement des atomes dans l’espace. Grâce au repliement, des résidus éloignés dans la

séquence, peuvent être regroupés dans l’espace pour former un site catalytique, une zone d’interaction

particulière…

51

L’un des plus grands défis de la Bioinformatique dans le domaine de la protéomique est la

prédiction de la structure tridimensionnelle d’une protéine sur la base de sa seule séquence. Les

méthodes expérimentales de détermination des structures tridimensionnelles des protéines que sont la

RMN et la cristallographie ont des limites difficilement surmontables. La première difficulté est liée à

la surproduction de la protéine, afin d’obtenir au minimum 10 mg d’un échantillon extrêmement pur et

dans un état natif (la protéine doit être fonctionnelle, ce qui garantit un bon repliement). Ce qui est

d’autant plus difficile lorsqu’il s’agit de surproduire des protéines multimériques, membranaires, ou

ayant des modifications post-traductionnelles (puisque les micro-organismes utilisés ne sont pas

capables de les reproduire). Sans oublier qu’il faut enrichir les échantillons (sans les dénaturer) en

atomes lourds pour la détermination des phases en cristallographie (processus essentiel dans

l’interprétation des cartes de diffraction) et en 15N, 13C, 2D pour avoir des spectres lisibles en RMN.

Ensuite il faut considérer les difficultés inhérentes aux techniques de détermination des structures, qui

sont lourdes (du fait de l’appareillage qu’elles nécessitent), coûteuses en temps et en argent, et très

délicates dans leur mise en oeuvre : l’étude des peptides de plus de 50kDa (500 acides aminés) pose

problème en RMN, même si les évolutions récentes ont permis de repousser cette limite dans certains

cas jusqu’à 150kDa (Pervushin et al. 1997 ; Riek et al., 1999). Quant à la cristallographie, le principal

obstacle réside dans l’obtention d’un cristal de bonne qualité et permettant d’obtenir des cartes de

diffraction interprétables, et cette phase est plus un art qu’une science… Dès lors, les méthodes

prédictives sont particulièrement intéressantes, et sur la base des connaissances structurales actuelles il

est possible d’obtenir par prédiction des structures tridimensionnelles des protéines proches des

structures réelles. Mais là encore il y a plusieurs limites dont une importante : tous les repliements

(folds) uniques ne sont pas encore connus, et le seul moyen de les déterminer sont la RMN et la

cristallographie (et dans une moindre mesure la microscopie électronique), le tout étant de choisir les

protéines pouvant avoir un repliement encore inconnu. Le séquençage de génomes eucaryotes sera

particulièrement utile puisqu’il fournira un nombre important de séquences candidates. Les séquences

permettront de savoir à l’avance si une protéine a des chances d’avoir un repliement encore inconnu.

Ainsi les efforts des cristallographes et « RMNistes » seront concentrés sur les protéines pouvant avoir

un fold encore non déterminé afin de compléter nos connaissances structurales et de pouvoir prédire

« plus et mieux » les structures de nouvelles protéines.

1.5.1.1. Ponts disulfures

Le groupement thiol (-SH) d’une cystéine, peut s’oxyder et se lier à un autre groupement thiol

porté par une autre cystéine proche dans l’espace. Se forme alors un pont disuflure ou cystine, qui a un

rôle fondamental dans la stabilisation des structures tridimensionnelles protéiques. Ce sont les seuls

acides aminés qui permettent l’établissement, au sein des protéines, de liaisons covalentes entre des

52

acides aminés distants dans la séquence, mais proches dans l’espace. Ces ponts peuvent servir à la

multimérisation en unifiant différentes chaînes peptidiques, comme les chaînes A et B de l’insuline.

1.5.1.2. Interactions électrostatiques & liaisons hydrogènes

Les seuls ponts disulfures ne sont pas suffisants à l’établissement des structures tridimensionnelles

protéiques. D’autres interactions existent comme les interactions entre les acides aminés chargés

(ioniques) ou par des liaisons hydrogènes.

A chaque interaction électrostatique est associé un potentiel énergétique défini par :

Eij = 332.qi.qj/(D.rij)

avec q : charge sur l’atome, D : constante diélectrique du milieux, rij : distance entre les atomes

impliqués. Cette formule montre que l’énergie d’interaction n’est favorable (donc négative) que si qi et

qj sont opposées. Cette énergie varie de façon inversement proportionnelle à la distance entre les

atomes impliqués. Enfin Eij est d’autant plus élevée (en valeur absolue) que la constante diélectrique

est faible, donc que l’environnement est hydrophobe (comme dans le cœur des protéines). Du point de

vue énergétique, il est plus favorable d’apparier des acides aminés de charges opposées, plutôt que de

les laisser isolés. Un tiers des résidus chargés sont impliqués dans des interactions électrostatiques

(Burley & Petsko, 1985).

Les liaison hydrogènes, entre les chaînes latérales et le solvant ou entre atomes de chaînes latérales

sont stabilisantes. Les liaisons hydrogènes intra-protéiques sont d’autant plus stabilisantes qu’elles

sont enfouies. L’énergie de liaison varie de façon inversement proportionnelle à la distance entre

atomes élevée à la puissance 10.

1.5.1.3. Interactions hydrophobes

Les interactions hydrophobes sont fondamentales pour le repliement des protéines. Ces

interactions sont provoquées par la tendance qu’ont les atomes et les groupements non polaires à fuir

le milieu aqueux environnant pour des raisons thermodynamiques. Cette fuite permet aux éléments

hydrophobes de se regrouper et de diminuer leur surface de contact avec le solvant. Dans une protéine,

cela se traduit généralement par l’exposition des chaînes latérales polaires à la surface et

l’enfouissement des chaînes latérales hydrophobes dans le cœur. L’énergie de liaison varie de façon

inversement proportionnelle à la distance entre atomes élevée à la puissance 6.

Cet effet hydrophobe est un paramètre déterminant dans la mesure où il gouverne les premières

phases du repliement. Les résidus hydrophobes, vont rapprocher les acides aminés tels que les

cystéines et les résidus chargés pour que les interactions puissent se faire (Tsai et al.,1997, Dill et al.,

1993). Plusieurs travaux ont mis en évidence que la caractère hydrophobe est bien conservé qu’il soit

exposé ou enfoui, suggérant un rôle important de l’effet hydrophobe dans le maintien et la stabilité des

structures protéiques.

53

1.5.2. Prédiction des structures tridimensionnelles

1.5.2.1. Modélisation moléculaire par homologie

Les protéines homologues, avec des séquences fortement similaires ont des structures

tridimensionnelles proches. Il est donc possible d’utiliser la structure connue, d’une protéine

homologue qui sert d’empreinte. Les coordonnées atomiques de cette empreinte sont affectées à la

séquence nouvelle. Le seuil de similarité nécessaire pour réaliser cette modélisation est variable, et

dépend de la longueur de l’alignement (Sander & Schneider, 1991). Cependant, nous pouvons décrire

trois cas principaux :

• plus de 60% d’identité entre les séquences : la modélisation est automatique ;

• entre 30 et 60% d’identité, la modélisation est manuelle ;

• à moins de 30%, la modélisation n’est pas raisonnable, il est nécessaire de disposer

d’autres arguments.

Dans ce dernier cas, le plus fréquent, et sans doute le plus intéressant, d’autres éléments sont

nécessaires pour valider le choix de l’empreinte. L’étude de la compatibilité des structures secondaires

(Geourjon et al., 2001 ; §1.2.2.3 page 39) peut permettre dans certains cas d’abaisser le seuil d’identité

à 10% entre l’empreinte et la protéine d’intérêt. Si toutefois, on ne dispose pas d’une empreinte

réunissant les conditions adéquates, il est aussi possible de réaliser une modélisation par fragments, en

utilisant différentes empreintes selon le segment de la protéine à modéliser (Jones & Thirup, 1986 ;

Levitt , 1992). Le programme COMPOSER (Blundell et al., 1987) a été développé dans ce but. En fin

de processus une étape de régularisation du modèle est nécessaire. Le plus souvent, ceci est réalisé par

minimisation d’énergie sur la base de la chimie théorique (distances et angles de liaison).

1.5.2.2. Threading

Le threading (ou enfilage) consiste à utiliser les motifs structuraux connus pour y « enfiler » la

séquence. On estime que pour une séquence dont on ne connaît pas la structure et pour laquelle il

n’existe pas d’empreinte satisfaisante, il y a une chance sur deux que son repliement soit déjà connu.

Par threading, on identifie les repliements les mieux adaptés à une séquence en utilisant des profils

dérivés de structures tridimensionnelles connues (Bryant & Lawrence, 1993).

1.6. Outils bioinformatiques d’analyse spécialisée des protéines

1.6.1. Profils physico-chimiques

Ces méthodes consiste à définir de manière statistique, en utilisant une fenêtre glissante, les

caractéristiques physico-chimiques d’une séquence. Il existe une cinquantaine d’échelle physico-

54

chimiques (URL 30), les plus connues sont : l’hydrophobie (Kyte & Doolittle, 1982), l’antigénie

(Hopp & Woods, 1983), l’hydrophilie (Parker et al., 1986), le caractère trans-membranaire (Argos et

al., 1982).

1.6.2. Détection de motifs coiled-coils (super hélices)

Ces motifs sont des hélices oligomérisées enroulées les unes autour des autres pour former des

super hélices. Ces motifs sont caractéristiques des protéines de fixation à l’ADN ou des protéines

trans-membranaires des enveloppes de virus. Dans ces structures, les résidus présents toutes les sept

positions sont équivalents : les coiled-coils sont des répétitions d’héptapeptides, dans lesquels les

résidus 1 et 4 assurent les contacts entre hélices, les autres constituent les surfaces.

Plusieurs programmes de prédiction des coiled-coils existent : COILS (Lupas et al., 1991),

PAIRCOIL (Berger et al., 1995) et MULTICOIL (Berger et al., 1997). Afin d’établir avec le plus de

certitude possible la présence ce coiled-coils, il est conseillé de combiner ces programmes : COILS est

moins spécifique, alors que PAIRCOIL/MULTICOIL sont moins sensibles.

1.6.3. Détection de motifs hélice-coude-hélice (fixation à l’ADN)

La méthode Dodd & Egan (1990) fournit un score de prédiction lorsqu’un motif de fixation à

l’ADN est détecté. Ce score est basé sur l’utilisation d’une matrice de scores dérivée de 91 séquences

présentant un motif hélice-double-hélice.

1.6.4. Prédiction de segments trans-membranaires

Ces segments sont assez souvent en hélices et assez rarement sous forme de brin β (en forme de

barrils). La prédiction de ce type de segments est intéressante que ce soit pour l’élimination de

protéine membranaire pour une étude structurale expérimentale (très difficile), ou encore pour

déterminer la localisation cellulaire d’une protéine. Il existe plusieurs méthodes, parmi les plus

efficaces : PHDhtm (Rost et al., 1996) et SignalP (Nielsen et al., 1999), deux méthodes

d’apprentissage. SignalP prédit les peptides signaux d’ancrage à la membrane (à l’aide d’un modèle

probabiliste Markovien). PHDhtm permet en plus de prédire la topologie des protéines en précisant les

résidus intra et extra cellulaires. Une autre méthode plus récente est basée sur le point d’inversion

d’ondelette (wavelet change-point ; Lio & Vannuci, 2000). Le principe est la détection de doubles

inversions brutales des propriétés hydrophobes d’une séquence pour localiser les portions trans-

membranaires.

55

56

2. Analyse de la conservation des acides aminés à rôle structural

au sein des protéines.

Partant du constat selon lequel les structures sont plus conservées que les séquences (Chothia &

Lesk, 1986), nous espérons montrer une plus forte conservation des acides aminés impliqués dans des

interactions. Nous savons aujourd’hui que deux protéines homologues (ayant au moins 30% d’identité

de séquence) adoptent des structures tridimensionnelles proches. Cependant les mécanismes

moléculaires qui régissent cette loi sont encore inconnus. Ceci devient d’autant plus intrigant lorsque

l’on sait que des protéines peuvent être homologues avec des taux d’identité pouvant descendre

jusqu’à 10% après évolution. Une façon d’apporter une réponse à cette question, consiste à démontrer

qu’à de tels taux d’identité, les acides aminés impliqués dans des interactions sont préférentiellement

conservés, permettant ainsi de garder la propriété structurale.

Il n’existe aucune étude exhaustive de la conservation des acides aminés impliqués dans les

interactions, réalisée pour toutes les protéines de structures connues, et pour ces trois types

d’interaction. C’est pourquoi nous avons réalisé une telle étude. Grossièrement, notre stratégie

(détaillée dans le paragraphe suivant) vise à analyser la conservation des interactions au sein

d’alignements multiples contenant une protéine de structure connue ainsi que les protéines qui lui sont

apparentées, dont les structures ne sont pas forcément connues. Cette étude est entièrement

automatique, la rendant exhaustive et objective. Le but de cette étude est de mettre en avant les

relations séquence-structure qui aideront à déterminer des règles structurales ayant un double emploi

potentiel :

• apporter les premières bases à la mise en place d’algorithme de prédiction des

interactions faibles au sein des structures, à partir de la séquence, et éventuellement en

considérant d’autres aspects obtenus par prédiction (hydrophobie, structures

secondaires…). Ce type d’algorithme serait d’une aide considérable non seulement pour

faire avancer la modélisation ab initio, mais aussi pour étayer les techniques de validation

des modèles structuraux que l’on peut obtenir avec des techniques de modélisation

moléculaire, par homologie, ou sous contraintes RMN, ou encore par des techniques de

threading ;

• apporter des éléments de validation des alignements multiples contenant une ou

plusieurs structures connues. En effet, l’observation de la conservation des acides aminés

impliqués dans les interactions, sera un argument supplémentaire pour la validation

automatique des alignements multiples et des familles protéiques. Par ailleurs, les

informations apportées par cette étude, peuvent être intégrées au sein des programmes

d’alignements multiples, pour aider à calculer des alignements plus pertinents du point de

vue biologique.

57

2.1. Stratégie globale

Afin de déterminer les relations séquence-structure, un procédé automatique original a été mis en

place (Figure 14).

Figure 14 : stratégie d’analyse de la conservation des interactions au sein des alignements multiples.

Ce procédé, entièrement automatisé a été construit dans un souci d’exhaustivité. Le programme global

fait intervenir différents sous-programmes. Ainsi, à partir d’un fichier PDB contenant la structure

d’une protéine, l’analyse de la conservation des interactions au sein de la famille protéique de cette

protéine, est automatique. Ce procédé est donc applicable à tous les fichiers PDB, permettant une

analyse exhaustive de toutes les protéines de structures connues. Nous allons maintenant présenter les

outils mis en place et utilisés afin de réaliser notre étude statistique.

2.2. Matériels et méthodes

2.2.1. Matériel informatique

Les différents programmes développés l’ont été sous trois systèmes différents : IRIX (Silicon

Graphics) LINUX (Redhat) et Windows (Microsoft). Les systèmes IRIX et LINUX sont des

Recherche de séquences similaires

Sous-base de séquences

Base de données d’interactions

Analyse de la conservation des

interactions

Ponts disulfures

Interactions Hydrophobes

Ponts Salins

Alignement Multiple

Extractblast & Extractfasta

Structure tridimensionnelle (fichier PDB).

DSSP modifié

58

implémentations du système d’exploitation UNIX. Ce système est très intéressant pour le

développement car il est robuste, et présente une capacité multitâche. Quant à Windows, il fût utilisé

pour le développement de l’interface graphique BioRead.

Nom de la machine Type et OS Programmes utilisés

Pc-bioinfo 2 PC MEDION

Windows 98

Pentium III 650 Mhz

Disque 5 GO et RAM 192 MO

Microsoft Office

Visual Studio

Rasmol, SwissPDBViewer

Netscape communicator

Mktclapp/Tcl-Tk

Pc-mod PC GATEWAY

Windows 98

Redhat Linux

Pentium II G6-450 Mhz MMX

Disque 10 G0 et RAM 256 MO

Staroffice

gcc (compilateur)

AnTheProt

Saab Origin 2000 SGI

IRIX 6.4

Quadri-processeurs R10 000 à 195 Mhz

Disque 54 MO et RAM 1000 MO

CC (compilateur C++)

cc (compilateur C)

FASTA, BLAST, SSEARCH,

CLUSTALW, MPSA

Table 2 : matériels informatiques utilisés pour le développement au laboratoire.

2.2.2. Les langages de programmation C/C++ et la fonction system()

2.2.2.1. Le C

Le langage C est une langage de troisième génération, typé, structuré et compilé. Il fût développé à

partir de 1970 par Denis Ritchie aux laboratoires Bell. Ce langage est lui-même dérivé de deux autres

langages antérieurs le B et le BPCL. Le C utilise le typage de données en procurant des types pré-

définis (void, int, double…). Le C permet aussi à l’utilisateur de définir de nouveaux types de

données à l’aide du mot clé typedef ou même des structures entières de données (typedef

struct). Un des avantages du C est qu’il est compilé. Il n’est donc pas lié à un matériel donné. Ceci

est d’autant plus vrai qu’il existe une version normalisé du C : Cansi définie par l’American National

Standardization Institute. Cette normalisation a permis d’établir une version « universelle du C » et à

éliminer toute les variantes de ce langage qui représentaient un obstacle au caractère portable des

programmes écrits en C : un même programme peut être exécuté sur des machines différentes, à

condition que les fichiers sources soient soumis à une phase de compilation sur ces machines. La

compilation consiste à traduire les instructions écrites en C (de haut niveau) en langage machine (de

59

bas niveau). Une autre des caractéristiques intéressante du C est l’existence d’un pré-processeur, qui

permet l’inclusion de fichier d’en-tête (#include <stdlib.h>), la définition de lexème (#define

SALTBRIDGE_DIST 3.0) ou la compilation conditionnelle par définition d’une constante symbolique

appropriée (#ifdef OS_UNIX), utile pour différencier les différents systèmes d’exploitations (UNIX,

Windows, LINUX…).

Le C propose des fonctionnalités de gestion dynamique des ressources mémoire à l’aide de

fonction d’allocation (malloc, calloc, realloc) et de libération (free). Ces fonctions font du C

un langage particulièrement puissant, car il permet d’utiliser la mémoire en fonction des besoins, pour

mettre à profit toutes les ressources disponibles, sans gaspillage inutile. De plus le C permet d’utiliser

des pointeurs sur des zones mémoires, aidant à obtenir des processus très rapides puisque cela évite les

phases de copie des données.

Ce langage a été utilisé au cours de ce travail, notamment pour modifier DSSP (§1.4.2.1 page 47),

un programme d’attribution des structures secondaires écrit en C.

2.2.2.2. Le C++

Le C++ est une extension du C développée par Bjarne Strousup au début des années 80. Le C++

fournit des fonctionnalités qui ré-haussent le C, offrant en plus des possibilités pour la programmation

orientée objets (POO). Le C++ repose sur quatre piliers de la POO : l’encapsulation, le masquage,

l’héritage et le polymorphisme.

• l’encapsulation et le masquage des données : il est possible de regrouper plusieurs

données et fonction au sein d’une classe ou objet. Ainsi les données sont encapsulées, ce

qui améliore la cohérence du programme. Le C++ permet aussi de masquer des données et

donc de les protéger, évitant ainsi les modifications provoquées par des anomalies du

programme. Les classes permettent de modéliser les objets de la vie courante et aident à

établir une architecture plus claire et plus efficace ;

• l’héritage et le polymorphisme : l’héritage permet de définir une nouvelle classe en

utilisant une classe déjà définie. Ces notions améliorent la réutilisabilité du code, le rendant

très souple. Ainsi, il est toujours possible d’améliorer le code, ou de définir de nouveaux

objets adaptés, sans pour autant modifier tout le programme. Le polymorphisme ou

héritage multiple, résout les problème lié à l’héritage simple, « en croisant » différents

objets pour obtenir un nouvel objet (oiseau + cheval = pégase).

Le C++ comme le C est livré avec des bibliothèques standards indispensables au programmeur.

Elles réunissent les fonctions couramment utilisées : gestion entrées/sorties, fonctions mathématiques,

gestion des chaînes de caractères, dates…

60

2.2.2.3. La fonction system()

La fonction system(char *) est très utile, car elle permet d’exécuter un programme depuis un

autre. Lorsque l’instruction system(ligne_de_commande) est rencontrée, le programme principal

stoppe momentanément son exécution, le temps que l’instruction ligne_de_commande s’exécute.

Après exécution, le programme principal reprend son exécution.

2.2.3. Le langage Tcl et le package Tk

Le langage Tcl et un langage de script, interprété et relativement simple. Il offre plusieurs

fonctionnalités : manipulation de variables, définition de fonctions, exécution conditionnelle, gestion

de boucle. Voici l’exemple d’une fonction qui prend en entrée un nombre n et une puissance p et qui

fournit le résultat np. proc power {n p} { #définition de la fonction power

set result 1 # on fixe result = 1

while {$p > 0} { # tant que le contenu de p est supérieur à 0

set result [expr $result * $base] # result = result * n

set p [expr $p - 1] # on décrémente p de -1

}

return $result #renvoi du résultat.

}

Cet exemple illustre la simplicité du langage Tcl. Pour accéder au contenu d’une variable, il faut

ajouter le signe ‘$’ devant le nom de cette variable. La fonction expr exécute une opération

mathématique, la fonction set est utilisée pour affecter une valeur à une variable. La fonction proc

exécute une boucle p fois et multiplie le nombre n par lui même à chaque boucle.

Les commandes Tcl ont trois sources principales. La première sont les commandes fournies

avec l’interpréteur Tcl lui-même (builtin commands). La deuxième source sont les procédures

(fonctions) que l’on définit à l’aide du mot clé proc, comme pour la fonction power. Enfin la dernière

source sont les commandes personnelles que l’on peut écrire selon un mécanisme d’extension en C et

C++. Les « packages » regroupent plusieurs commandes définies par le mécanisme d’extension. Ceci

permet d’utiliser les packages appropriés à l’application que l’on veut développer. L’extension la plus

connue est l’extension Tk, qui fournit des fonctionnalités graphiques. Il est ainsi assez facile de définir

rapidement les éléments graphiques qui vont constituer une application. En deux lignes de code, il est

possible de créer un bouton, lorsque l’on clique dessus l’application se ferme :

instruction pour définir le bouton et la fonction associée :

button .b –text {bouton de sortie} –command exit #défini l’élément

pack .b #affiche l’élément :

61

Figure 15 : création d’un bouton de commande en Tcl/Tk. Un clique sur le bouton provoque la sortie de

l’application et la fermeture des fenêtres.

La combinaison Tcl/Tk allie la simplicité du codage et la rapidité de la mise en place d’éléments

graphiques. De plus, le code est facilement portable, puisqu’il suffit simplement de disposer de la

librairie Tcl/Tk appropriée au système d’exploitation. Ce langage a été utilisé pour le développement

de BioRead. Le langage Tcl/Tk n’est utilisé que pour gérer l’environnement graphique, mais les

fonctions plus complexes sont écrites en C++ (pour une exécution plus rapide)…

2.2.4. Protéines de structures connues

Nous avons utilisé toutes les protéines de structure connue (en janvier 2000) ayant moins de 25%

d’identité de séquences deux à deux, soit un total de 1567 protéines dans cette étude (Annexe C)

2.2.5. Création de la base de données d’interactions, modifications du programme

DSSP

Nous avons crée une banque de données qui répertorie les interactions dans les protéines, à l’aide

d’une version modifiée du programme DSSP ( §1.4.2.1 page 47). DSSP donne la structure secondaire

des protéines à partir de leur structure tridimensionnelle. Ce choix représente un double avantage. Tout

d’abord, il n’est pas nécessaire de coder un programme spécifique pour relire les fichiers PDB,

puisque DSSP le fait. Ensuite, DSSP permet de calculer l’accessibilité des résidus, qui est l’un des

paramètres que nous avons pris en compte. La modification du programme ne s’est pas avérée simple,

puisqu’à la base, DSSP a été écrit en Pascal et a été traduit en Fortran, puis en langage C. Si bien que

le code source en langage C est difficile à lire et à comprendre. Le seul fichier à modifier est le fichier

DsspCMBI.c. La plus grande difficulté a été de placer correctement les modifications pour arriver à

récupérer les informations intéressantes, sans alourdir le programme ni trop le ralentir.

Quelles que soient les interactions considérées, celles-ci ont été définies sur la base de la proximité

spatiale entre les groupements chimiques des acides aminés. Pour chaque acide aminé les atomes des

groupements qui ont été considérés sont listés Table 3.

62

Table 3 : atomes considérés pour la recherche de contacts et types affectés aux résidus.

Pour les résidus non listés, le type considéré est le type NUL. Les coordonnées atomiques (x, y, z) des

atomes des groupements chimiques présentés Table 3 sont utilisées dans la recherche des contacts.

En ce qui concerne le stockage de données, celui-ci a été organisé au sein de structures ou objets.

Bien que le langage C ne soit pas fortement orienté objet, il permet de définir des structures de

données en regroupant les données au sein d’une même entité, qui peut être considérée comme un

objet. J’ai donc défini une structure myAA (Code 1) : typedef struct myAA{

char name;

char LeterTo3Code[5]; /*nom a trois lettres de l'AA*/

long position; /*position dans la PDB=position vraie*/

char chain; /*identifiant chaine*/

char Grpname[5]; /*Groupement(Grpt) atomique*/

float Grpcoord[3]; /*coordonnées du Grpt atomiques */

ABTYPE type; /*type ACIDE,BASE,CYS,HYDROPHOBE ou NUL*/

char altlocation; /*idem PDB*/

char iCode; /*idem PDB*/

BOOL AAtag; /*étiquette de marquage*/

long resnumero; /*donne le numéro un au premier aa*/

/* A noter que chaque aa a deux atomes chargés au max. Chaque atome a trois

coordonnées*/

}myAA; /*structure d'un objet Grpt d' un AA ex : NH2 de l'ARG ou OE1 de

ASP*/

Code 1 : structure de données d’un objet myAA. Les lignes ent /* et */ sont des commentaires. Ce code a été

placé dans le fichier DsspCMBI.c

Nom de l'AA Synonyme Atomes fonctionnels à rechercher dans le fichier PDB Type pour programmationGly G GLYArg R NH1, NH2 BASEAsp D OD1, OD2 ACIDECys C SG CYSGlu E OE1, OE2 ACIDEHis H ND1, CD2, CE1, NE2 BASEIle I CD1 HYDROPHOBE

Leu L CD1, CD2 HYDROPHOBELys K NZ BASEMet M CE HYDROPHOBEPhe F CD1, CD2, CE1, CE2, CZ HYDROPHOBETrp W CD1 ,CD2, CE2, CE3, CZ2, CZ3, NE1, CH2 HYDROPHOBEVal V CG1, CG2 HYDROPHOBE

63

Un objet myAA (Code 1) est en réalité un atome de groupement chimique particulier. Par exemple

l’acide glutamique donnera lieu à deux objets myAA, un premier pour l’atome OE1 et un second pour

l’atome OE2. Les éléments contenus dans myAA sont le nom de l’acide aminé à une lettre (char

name), ses coordonnées (tableau à 1 dimension et 3 cases : float Grpcoord[3]), son type

chimique (ABTYPE type), le numéro du résidu dans la séquence (long resnumero), et pour des

raisons techniques, l’étiquette de marquage (BOOL AAtag). Le programme DSSP lit le fichier PDB

ligne à ligne grâce à la fonction de lecture :

myAA * Readcard(cardcontents *cardinfo, struct LOC_Inputcoordinates *LINK)

Cette dernière a été modifiée pour construire les objets myAA et pour renvoyer un pointeur sur ces

objet myAA. A chaque appel de la fonction Readcard(), un objet myAA est crée, stocké en mémoire

et un pointeur et renvoyé par la fonction Readcard() pour être récupéré dans la fonction appelante

comme nous le verrons plus loin. Avant de rechercher les interactions, il faut stocker en mémoire tous

les objets myAA que l’on trouve dans un fichier PDB. Pour chaque fichier PDB, tous les objets myAA

sont stockés sous la forme d’un tableau de pointeurs (dont la taille en mémoire est définie de façon

dynamique) : myAA **pmyAA. La fonction Inputcoordinates() de DSSP appelle la fonction

readcard() en boucle, pour chaque ligne du fichier PDB. Les objets myAA, sont stockés dans un

tableau au sein de la fonction Inputcoordinates().

64

myAA **Inputcoordinates(long *lchain_, int *ipmyAA)

{

...

int imyAA=0

myAA *thismyAA=NULL; /*pointeur sur un objet myAA*/

myAA **pmyAA=NULL; /*tableau de pointeurs sur objet myAA*/

...

do{/*debut de la boucle pour la lecture du fichier PDB*/

thismyAA=Readcard(&cardinfo, &V) ;/*création d’un objet myAA*/

...

/*réallocation dynamique de mémoire pour le tableau pmyAA*/

pmyAA=(myAA **) realloc (pmyAA,(imyAA+1)*sizeof(myAA *));

/*stockage du pointeur thismyAA à la suite dans le tableau*/

pmyAA[imyAA]=thismyAA;

/*incrémentation du nombre d’éléments dans le tableau*/

imyAA++ ;

...

}while ( !(finish || limit))/*fin de la boucle de lecture*/

...

*ipmyAA=imyAA ;/*stockage du nombre d’éléments dans le tableau pmyAA*/

return pmyAA ;/*renvoie du tableau myAA pour le récupérer à la sortie de

la fonction Inputcoordinates*/

}

Code 2 : principales modifications apportées à la fonction Inputcoordinates() de DSSP.

Pour simplifier, les modifications de la fonction Inputcoordinates() ont plusieurs rôles :

• récupérer un pointeur sur chaque objet myAA crée lors de l’appel en boucle de la

fonction readcard() ;

• compter le nombre de ces objets pour allouer de façon dynamique la taille du tableau

de pointeur pmyAA ;

• stocker tous les pointeur au sein du tableau pmyAA ;

• renvoyer à la fin du traitement le tableau pmyAA pour l’utiliser ensuite lors de la

recherche des contacts.

Ensuite il faut définir les structures pour les interactions. C’est la structure pmyAApair

(Code 3).

65

typedef struct pmyAApair{

myAA *myAA_bas; /*AA bas de l’intéraction*/

myAA *myAA_acd; /*AA acd de l’intéraction */

int tagsalt; /*étiquette numérique de l’intéraction*/

float dist; /*distance entre les 2 aas de l’intéraction*/

SALTYPE slt_type; /*type INTRA- ou INTER- chaine*/

BOOL is_acdtagged; /*repère pour accélérer Printout()*/

BOOL is_bastagged; /*repère pour accélérer Printout()*/

BOOL is_tagged; /*repère pour accélérer Printout()*/

int acdacc; /*accessibilité de l'AA acd*/

int basacc; /*accessibilité de l'AA bas*/

char acd_struct; /*structure secondaire de l'AA acd*/

char bas_struct; /*structure secondaire de l'AA*/

int bas_reseqnum; /*numérotation aa_bas colonne 1 DSSP*/

int acd_reseqnum; /*numérotation aa_acd colonne 1 DSSP*/

float fglypsi; /*uniquement pour les glycines*/

float fglyphi; /*uniquement pour les glycines*/

}pmyAApair; /*structure d'un objet interaction*/

Code 3 : structure de données d’un objet pmyAApair

Cette structure a été définie au départ pour les interactions électrostatiques, expliquant la nomenclature

utilisée. Elle a été appliquée à tous les types d’interaction (hydrophobes et disuflures). Cette structure

contient deux pointeurs sur deux objets myAA (*myAA_acd et *myAA_bas), puisque chaque

interaction est considérée comme comptant deux acides aminés, ou deux groupements chimiques. Afin

de ne considérer que les interactions intra-chaîne, le type d’interaction (SALTYPE slt_type) est

stocké, il est soit intra-chaîne (INTRA) soit inter-chaîne (INTER). Le stockage des valeurs

d’accessibilité des acides aminés se fait au niveau de la structure pmyAApair (int acdacc et int

basacc) et non pas au niveau des acides aminés myAA. Ceci peut sembler absurde, mais la faible

commodité du code permet difficilement de faire autrement. En effet, le calcul de l’accessibilité est un

traitement ultérieur à la lecture du fichier PDB, il n’est donc pas possible de les stocker à la volée lors

de la création des objets myAA. Par ailleurs, ceci évite de faire appel au pointeur *myAA_acd ou

*myAA_bas non seulement pour stocker l’information, mais aussi pour la restituer au moment

opportun. Le traitement est moins lourd et surtout un peu plus rapide. C’est pourquoi j’ai préféré ce

type de stockage, sans parler du gain de temps à éviter la résolution de problèmes liés à la conception

du programme DSSP.

L’étape suivante consiste à effectuer la recherche de contacts. Nous disposons maintenant d’un tableau

contenant les pointeurs sur les objets myAA et leurs coordonnées, ainsi que d’une structure

66

matérialisant les interactions entre les atomes. Les interactions sont détectées par un calcul de distance

entre les atomes chimiques de tous les objets myAA stockés. En considérant les coordonnées

atomiques, la distance entre deux atomes appartenant à deux objets myAA distincts myAA1 et myAA2

de coordonnées respectives x1, y1, z1 et x2, y2, z2 est la suivante :

D=[(x1-x2)2+ (y1-y2)2 + (z1-z2)2]1/2

Cette opération est effectuée entre tous les objets myAA du tableau deux à deux. Sans oublier de

considérer le type de groupement et le seuil de distance en fonction du type d’interaction. Nous avons

choisi d’établir la présence des interactions uniquement sur la base des distances entre atome pour

deux raisons. La première est purement pratique. La distance entre les atomes est le paramètre le plus

important dans la définition de l’énergie d’une interaction. Prendre en compte la valeur de la constante

diélectrique du milieu aurait compliqué les algorithmes pour un résultat sans doute très proche voir

identique. De plus, définir les interactions sur la base des énergies nécessite la définition d’un seuil

énergétique, qui aurait été arbitraire. La seconde raison de ce choix est que nous voulons analyser la

conservation corrélée des acides aminés en contact dans l’espace, la distance est donc un paramètre

suffisant. Nous avons procédé à l’analyse visuelle d’une cinquantaine de structures pour vérifier que

les contacts ainsi déterminés étaient effectivement observés. L’interaction électrostatique est

considérée comme existante si un objet myAA de type ACIDE est au maximum à 3.0 Å d’un objet

myAA de type BASE. En ce qui concerne les interactions hydrophobes, les deux objets myAA de type

HYDROPHOBE doivent être à un maximum de 3.3 Å. Enfin, concernant les ponts disulfures, la

distance entre deux atomes de souffre des groupements thiol (atomes SG selon la nomenclature PDB)

doit être au maximum de 3.0 Å.

Ces paramètres ont donné naissance à trois fonctions de recherche d’interaction, une pour chaque type

d’interaction. Les trois sont basées sur le même modèle. Elle reçoivent en entrée le tableau de

pointeurs sur les objets myAA et retourne un tableau de pointeurs sur les interactions pmyAApair,

listant ainsi toutes les interactions trouvées dans une structure protéique. Ces fonctions de recherche

gèrent elles aussi les ressources mémoire de façon dynamique.

pmyAApair ** saltpair_seek(myAA **pmyAA, int imyAA, int *i2aapair)

pmyAApair ** SSbond_seek(myAA **pmyAA, int imyAA, int *i2aapair)

pmyAApair ** Allpair_seek(myAA **pmyAA, int imyAA, int *i2aapair)

Bien que DSSP repère déjà les ponts disulfures, il nous a parut bon de les répertorier en utilisant ces

modifications, de façon à vérifier la fiabilité des modifications. Nous avons constaté que la fonction

67

SSbond_seek permet de retrouver les ponts disulfures indexés par DSSP, prouvant que les

modifications sont parfaitement valides et fonctionnelles (résultats non présentés).

L’avant-dernière étape, consiste à récupérer l’accessibilité des résidus après que celle-ci ait été

calculée par DSSP. Le moyen le plus simple a été de la stocker lors de l’écriture du fichier sortie de

DSSP généré à l’aide de sa fonction printout(). Ce fichier résultat contient l’accessibilité totale des

résidus en Å2. C’est dans cette fonction que quelques lignes de codes ajoutées affectent à chaque objet

pmyAApair l’accessibilité calculée des résidus, ainsi que les éléments de structures secondaires

auxquels appartiennent les acides aminés impliqués. La dernière étape consiste à renvoyer le résultat.

Les modifications apportées ont permis de récupérer les informations recherchées sur la sortie standard

selon la forme suivante :

> chemin/nom du fichier PDB

Séquence du de la protéine de la PDB

TRUE : AA1 position1- AA2 position2 Dist = acc1: acc2: ss1: ss2:

Le tag « TRUE » ou « FALSE » indiquent s’il y a interaction ou non, selon la distance entre les

fonctions chimiques. AA1 et AA2 sont les résidus contenant les fonctions chimiques en question. Dist

est la distance entre les fonction chimique en Å. Acc1 et acc2 sont les valeurs d’accessibilité des

résidus 1 et 2 en Å2. Ss1 et Ss2 sont les éléments de structures secondaires auxquels appartiennent les

acides aminés 1 et 2. Un exemple de sortie pour la recherche des interactions électrostatiques est

présenté Figure 16.

>/bioinfo/db/Pdb/Entries/PDB1a9o.ent

MQNGYTYEDYQDTAKWLLSHTEQRPQVAVICGSGLGGLVNKLTQAQTFD...

TRUE : GLU 183 - LYS 270 Dist = 2.818 acc1:39 acc2:70 Ss1: Ss2:H

TRUE : ASP 215 - ARG 210 Dist = 2.734 acc1:13 acc2:67 Ss1:S Ss2:H

FALSE : GLU 8 - HIS 230 Dist = 15.699 acc1:96 acc2:8 Ss1:H Ss2:H

Figure 16 : exemple de fichier résultat donné par le programme DSSPm

Le programme DSSP est appelé en boucle sur tous les fichiers PDB. Un petit programme

loop_dssp_PDB a été écrit dans ce but. Il prend en entrée un listing des entrées PDB, il génère un

fichier résultat listant les interactions pour toutes les protéines de la PDB, selon le modèle détaillé

précédemment. Notre base de données est constituée de trois fichiers résultats générés à l’aide de

DSSPm :

• allPDB25CYS qui répertorie les ponts disulfures dans les protéines de la PDB.

• allPDB25HYD3.3 qui répertorie les interactions hydrophobes dans les protéines de la

PDB.

• allPDB25SB3.0 qui répertorie les interactions électrostatiques dans les protéines de la

PDB.

68

Les modifications apportées au programmes DSSP représentent un peu plus de 2100 lignes de codes

en langage C, réparties en différents endroits dans le fichier DsspCMBI.c. Ce nouveau programme

obtenu sera référencé dans la suite du rapport sous le nom de DSSPm.

2.2.6. Recherche de protéines homologues aux protéines de la PDB

2.2.6.1. Recherche d’homologie

Afin de constituer une sous-base de séquences apparentées, pour chaque protéine de la PDB, une

recherche d’homologie dans la base de données SWISSPROT+SPTrEMBL a été effectuée pour

chacune d’entre elles en utilisant deux programmes principaux : BLAST et FASTA. BLASTp permet

de rechercher les similitudes locales, alors que FASTA permet de rechercher les similitudes globales.

Les paramètres de recherche utilisés sont les paramètres standards, par défaut. Ces programmes

génèrent des fichiers résultats sous des formes difficilement utilisables. Il a donc fallu relire ces

fichiers, re-formater les données, puis extraire les séquences intéressantes. Ainsi pour chaque protéine

de la PDB, le but est de constituer à partir des résultats des BLAST et FASTA, une sous-base de

séquences échantillonnée, non redondante, que l’on espère être pertinente du point de vue biologique.

Les fichiers résultats de BLAST et FASTA étant écrits dans différents formats, deux programmes

différents ont été mis au point pour relire et traiter les résultats : Extractblast et Extractfasta. Les

premiers résultats ont vite montré que l’emploi de BLAST était plus indiqué. De plus, devant le

nombre élevé de fichier BLAST et FASTA à analyser manuellement ou plutôt visuellement lors du

développement d’Extractblast et Extractfasta, j’ai choisi de développer une interface graphique

relativement simple, dont le but était uniquement de faciliter la tâche : BioRead. Ces programmes

ayant été utilisés, nous les décrirons brièvement ici et donnerons quelques informations quant aux

paramètres utilisés pour comprendre comment les sous-bases de séquences ont été constituées à l’aide

d’Extractblast. La description complète des programmes utilisés (Extractblast, Extractfasta et

BioRead) se trouve dans la partie « Résultats » de ce rapport.

2.2.6.2. Constitution des sous-bases de séquences

Cette phase vise à constituer à partir des résultats BLAST une sous-base de séquences non

redondante. Cette sous-base se veut être un échantillon représentatif des séquences proches existantes

dans les bases de données de recherche. Une procédure de sélection automatique des séquences,

adaptée aux résultats obtenus pour chaque protéine a été effectuée grâce à Extractblast. Voici la ligne

de commande utilisée : Extractblast –i BlastFile –o outFile –r remFile –Z –e 1e-6 –a start –z stop

–l len –T

69

Ces paramètres ont fait l’objet de nombreux tests et d’une longue phase de développement afin de les

optimiser pour obtenir les meilleurs résultats. Voici le détail des paramètres :

• l’option –i permet de spécifier le fichier BLAST à traiter ; BlastFile représente le

nom (chemin complet) du fichier BLAST à traiter ;

• l’option –o permet de spécifier le fichier qui contiendra les séquences sélectionnées ;

outFile représente le nom (chemin complet) du fichier contenant la sous-base issue de

l’extraction ;

• l’option –r évite la redondance en éliminant toutes les séquences identiques. Les

séquences éliminées sont stockées dans le fichier remFile ;

• l’option –Z est utilisée pour ne sélectionner qu’une séquence trouvée par BLAST avec

une E-value de 0. Il arrive que plusieurs séquences soient trouvées avec une E-value nulle,

elles sont donc très proches voire identiques. Cette option permet de ne prendre qu’une

seule de ces séquences. Là encore le but étant de diminuer la redondance.

• l’option –e spécifie la E-value seuil, au dessus de laquelle les séquences ne sont plus

sélectionnées. Lors de cette étude, le seuil est fixé de manière classique à 1e-6. Lorsque

des séquences sont trouvées par BLAST avec une E-value inférieure à ce seuil, celles-ci

sont considérées comme reliées et faisant partie de la même famille protéique. Elles sont

donc sélectionnées.

• Les options –a et -z permettent de spécifier un segment particulier sur la protéine

requête. Seront sélectionnées les séquences qui auront des régions communes avec ce

segment. Lorsqu’une structure protéique PDB compte plusieurs interactions, ces options

permettent de spécifier le segment protéique qui les contient toutes. Comme par exemple

pour les ponts disulfures :

Figure 17 : schématisation d’une séquence de structure connue et de deux ponts disulfures 35-

172 et 80-220.

La Figure 17 schématise une séquence avec deux ponts disulfures. Dans ce cas les bornes

fixées seront –a 30 –z 225. On étend à +/- 5 acides aminés de chaque côté (dans la

mesure du possible) afin d’éviter les effets de bord dans les alignements multiples qui

seront calculés avec ces séquences. Ici, la portion 30-225 contient toutes les interactions.

Toutes les protéines ayant une région commune à celle-ci seront ainsi sélectionnées.

S S

CYS 80 CYS 220

S S

CYS 35 CYS 172 Séquence PDB

70

• l’option –l spécifie la longueur seuil. Seules les séquences ayant une portion

commune avec la séquence requête, et ayant une longueur supérieure ou égale à cette

longueur seront sélectionnées. Avec la protéine schématisée Figure 17 , le seuil serait égal

à (225-30+1), soit une longueur minimale de 196. Ceci nous assure d’avoir dans les

alignements, les portions homologues à celles qui contient toutes les interactions dans la

structure PDB. De plus, les alignements obtenus ne contiendront que peu de gaps dans les

portions d’intérêt.

• Enfin l’option –T, appelle une fonction d’échantillonnage. Cette option permet de

réaliser, à partir des résultats de la recherche BLAST, un échantillon représentatif des

séquences trouvées. La fonction d’échantillonnage réalise une sélection par palier : une

seule séquence est sélectionnée par palier p donné par la formule :

∑−=

=

+

−+−=

1ni

1i

)1i()i(

1n)Elog()Elog(p

Avec E = E-value tel que 0 < E ≤ 1e-6, n le nombre des séquences vérifiant la condition

précédente. La valeur du palier p, est l’écart moyen entre les log(E) successifs des

séquences. Dès lors que les valeurs –log(E) entre deux séquences sont distantes de p, alors

la seconde séquence est sélectionnée, et est utilisée comme référence pour la sélection de la

séquence suivante, etc…

Finalement, sont sélectionnées toutes les séquences vérifiant toutes ces conditions. Pour récapituler

voici les conditions de sélection pour la constitution des sous-bases de séquences apparentées à la

protéine PDB de départ :

• si plusieurs séquences ont une E-value nulle, une seule d’entre elles est sélectionnée ;

• une seule séquence est sélectionnée par palier p, tant que E-value ≤ 1e-6 ;

• sont sélectionnées toutes les séquences ayant un segment homologue à la protéine de la

PDB, équivalent à celui qui contient toutes les interactions du type considéré, avec une

taille minimum ;

• chaque segment de séquence de la sous-base constituée est unique ; la redondance en

est absente ;

• cette sous-base contient la protéine PDB de départ.

Ce choix de sélection est issu d’une longue phase de test et de mise au point pour optimiser les

paramètres présentés. Ces paramètres ont été définis notamment pour maximiser la conservation des

cystéines impliquées dans les ponts disulfures. Les conditions de sélection devaient refléter la très

nette conservation de ces cystéines, comparativement aux cystéines réduites. Nous avons d’ailleurs pu

constater que ces évolutions étaient aussi visibles sur la conservation des autres interactions. Citons

par exemple le paramètre de palier p. Au départ celui-ci était fixe ( p = 1 ; p = 1,1 ; p = 1,2…). Les

résultats obtenus (non présentés) ont montré qu’il était préférable de l’adapter aux résultats de

71

recherche BLAST, au cas par cas. D’où la définition d’un palier p pour chaque fichier. De même pour

la valeur seuil de E qui fût fixée à 1e-6. De nombreux tests ont montré que cette valeur est la plus

propice à de meilleurs résultats. Quand à la définition de la longueur minimum et des bornes (spécifiée

avec les options –a et -z ), là encore, ces paramètres ont été optimisés pour des résultats plus

probants. Ce processus de sélection des séquences est une phase très critique, dans la mesure où il

conditionne la représentativité des séquences dans les alignements multiples, la qualité des

alignements qui seront obtenus, et donc la qualité des statistiques qui seront calculées quant à la

conservation des acides aminés impliqués dans les interactions. Le but de cette phase de sélection est

de permettre d’obtenir des alignements multiples représentatifs des homologies présentes dans les

bases de données de recherche. Nous les voulons aussi divergents que possible afin d’autoriser des

mutations, en espérant que celles-ci n’affecteront que dans une moindre mesure, les acides aminés

impliqués dans les interactions considérées. Il devrait s’en suivre une plus forte conservation de ces

derniers par rapport aux mêmes acides aminés libres…

2.2.7. Calcul des alignements multiples

Pour chaque protéine de la PDB, la sous-base de séquences est utilisée pour calculer un

alignement multiple à l’aide de CLUSTALW dans sa version 1.8, avec les paramètres standards. On

obtient ainsi pour chacune des protéines de la PDB, un alignement de protéines qui lui sont proches, et

qui ont en commun la portion contenant les interactions d’un type particulier (hydrophobes,

électrostatiques, disulfures). Ces alignements vont être utilisés pour le calcul des statistiques,

notamment la conservation des acides aminés impliqués dans ces interactions.

Concernant l’étude des cystéines, la coexistence des cystéines réduites et des cystéines oxydées

étant rares, nous avons été contraints d’utiliser des alignements différents pour l’analyse de ces deux

populations de cystéines.

2.2.8. Calculs statistiques

2.2.8.1. Conservation des interactions

Les interactions sont définies sur la base de la distance existant entre deux groupements

chimiques. Ces interactions sont repérées à l’aide du programme DSSPm (DSSP modifié) et stockées

dans une banque de données. Nous avons étudié trois types principaux d’interactions : les interactions

électrostatiques, les interactions hydrophobes et les ponts disulfures.

Lorsqu’une interaction a été repérée dans une structure protéique et listée à l’aide DSSPm dans le

fichier résultat adéquat (allPDB25CYS, allPDB25HYD3.3 ou allPDB25SB3.0), la première étape vise

à identifier l’interaction au sein de l’alignement multiple correspondant. On considère que l’interaction

72

est conservée dans une séquence si les deux acides aminés impliqués dans l’interaction sont présents,

ou si des acides aminés de même type les remplacent (mutations compensatrices). Les types des acides

aminés sont répertoriés dans la Table 3 (page 62). La Figure 18 représente un alignement (fictif) et une

interaction électrostatique répertoriée dans la séquence PDB entre les acides aminés R10 et D40. Dans

cet alignement cette interaction est conservée à 50%. On s’intéresse donc à la conservation corrélée

d’un couple d’acides aminés et non pas à la conservation des acides aminés individuellement. La

conservation f (ou fréquence) d’une interaction peut être exprimée mathématiquement selon la

formule :.

fa(i)b(j)=Na(i)b(j)/n

avec n le nombre de séquences dans l’alignement, Na(i)b(j) le nombre de séquences de l’alignement où

un acide aminé de type a est présent à la position i et un acide aminé de type b est présent à la position

j. Les types considérés dépendent de l’interaction en question (Table 3 page 62). Dans le cas des

interactions électrostatiques, les permutations sont considérées comme une conservation : D10-K40

équivaut à R10-E40.

La représentation mathématique de f sous-entend que chaque interaction est considérée comme binaire

(implique deux acides aminés), ce qui en pratique n’est pas totalement vrai (sauf pour les ponts

disulfures), puisque les interactions électrostatiques et les interactions hydrophobes peuvent être plus

complexes et peuvent faire intervenir plus de deux acides aminés (trois ou quatre, voire davantage).

Considérer plusieurs positions pour une interaction est l’un des travaux qu’il faudra réaliser, cependant

ceci risque de compliquer singulièrement les programmes, que ce soit pour leur détection, le calcul

statistique ou encore pour la réalisation de témoins de comparaison. La complexité des interactions est

un paramètre relativement lourd à considérer, et pourra l’être ultérieurement, si toutefois les résultats

encouragent une telle démarche.

séquence PDB ALTERTHTPRTLKMIEVAGIPVVELMDSKSPCLDIAVGFDNFEAAR

séquence 2 DATGATNPDKISALCQQAGVPTVNLDLPGS--LSPSVISDNYGGAK

séquence 3 IFTDTQGQIKISKHANECGLPTIHTPSKTK--LQPSVFYCVFPGSK

séquence 4 KDDAGPCDINILGECNLSGEFWLVKPLLER--LGIRVRADIPGDAR

| | | | |

numérotation 1 10 20 30 40

Figure 18 : alignement fictif d’une séquence PDB avec trois autres séquences. Les rectangles représentent

les positions impliquées dans une interaction électrostatique au sein de la structure PDB (entre R10 et D40).

2.2.8.2. Paires d’acides aminés témoins

« Il faut comparer ce qui est comparable ». Puisque nous nous sommes intéressés à la conservation

corrélée des acides aminés en interaction deux à deux, les témoins doivent reproduire ce schéma. Il

73

s’agit de constituer des paires d’acides aminés témoins, contenant des acides aminés non impliqués

dans une interaction. Ce paires sont réalisées de façon aléatoire. Les témoins réalisés ici, le sont pour

des raisons statistiques uniquement, et n’ont aucune signification biologique. Concernant les cystéines,

les paires témoins ont été réalisées avec des cystéines réduites. En ce qui concerne les interactions

électrostatiques et hydrophobes, nous avons utilisé deux méthodes pour réaliser ces paires témoins. La

première a consisté à repérer les acides aminés de même type et suffisamment distants. Les valeurs de

distance choisies l’ont été arbitrairement : ont été considérées les acides aminés distants de 15 à 16 Å.

La limite inférieure nous assure d’avoir des acides aminés trop éloignés pour être en contact. La

distance supérieure a été fixée de façon à minimiser le nombre de paires témoins. Par ailleurs nous

avons fixé une limitation : un résidu ne peut pas faire partie de deux paires témoins différentes. Cette

phase a pu être réalisée grâce au programme DSSPm. Le résultat donné par DSSPm présente des

interactions marquées de deux étiquettes (Figure 16, page 67). L’étiquette « TRUE » marque les

interactions vraies, l’étiquette « FALSE » marque les paires témoins formées d’acides aminés distants

de 15 à 16 Å.

Par la suite, nous nous sommes rendu compte que cette façon de faire n’était pas adaptée, notamment

pour les interactions électrostatiques : compte tenu de la taille des protéines, il est possible que deux

acides aminés distants de 15 à 16 Å l’un de l’autre, soient à la surface, opposés l’un à l’autre. Or, les

acides aminés chargés, présents à la surfaces des protéines, ont un rôle essentiel dans leur solvatation

au sein des milieux biologiques aqueux. Ces paires témoins peuvent être particulièrement conservées

et ainsi provoquer une minimisation des différences de conservation entre ces témoins et les

interactions. Nous avons donc opté pour une seconde méthode de constitution des témoins : tous les

acides aminés d’un type donné et non impliqués dans une interaction, sont répertoriés au sein des

séquences. Des paires sont formées par brassage aléatoire des positions. Plusieurs brassages sont

effectués. L’effet du nombre de brassage est pris en compte. Les conservations témoins ont été

calculées après 10, 100, 1000 brassages. Un brassage est une étape au cours de laquelle on forme des

paires entre tous les acides aminés au hasard. Lorsque on réalise 10 brassages, cette opération est

réalisée 10 fois. La conservation des paires témoins est calculée après chaque brassage. La

conservation témoin finale est une moyenne de toutes les conservations calculées après chaque

brassage. Par exemple, lorsqu’ on a répertorié n acides aminés de type ACIDE et n acides aminés de

type BASE dans une structure PDB, on a n(n-1) paires témoins possibles. Après 10 brassages nous

avons 10n(n-1) paires témoins, après 100 brassages 100n(n-1) paires témoins et après 1000 brassages,

1000n(n-1) paires témoins, qui servent au calcul de la conservation témoin moyenne. Cette seconde

méthode a permis d’améliorer légèrement les résultats.

74

2.2.8.3. Paramètres statistiques étudiés

2.2.8.3.a. Identité et conservation globale dans les alignements

Il était bon de connaître l’influence de l’identité moyenne et de la conservation globale des acides

aminés dans les alignements. En effet, on peut s’attendre à des variations selon la valeur de ces taux.

L’identité a été estimée en comptant le nombre de positions strictement conservées (inchangées)

dans l’alignement. Ce nombre est divisé par la longueur de l’alignement, donnant ainsi le taux

d’identité.

La conservation globale a été estimée à l’aide du programme AL2CO (Pei et al., 2001). AL2CO

est un programme qui calcule un indice de conservation pour chaque position d’un alignement en

fonction de la fréquence des acides aminé. Afin de privilégier la ressemblance structurale des acides

aminés pour le calcul de l’indice de conservation, nous avons utilisé la matrice structurale HSDM

(Homologous Structure-Derived Matrix, Prlic et al., 2000). La ligne de commande utilisée est la

suivante :

Al2CO –i inFile –o outFile –c 2 –s hsdm

AL2CO génère un fichier résultat (outFile), qui donne un indice de conservation pour chaque

position. Un indice moyen est calculé pour chaque alignement. Dans un premier temps nous avons

vérifié les possibilités du programme AL2CO à calculer un indice de conservation représentatif de

l’alignement. Pour cela, AL2CO a été utilisé sur les alignements test de BAliBASE, et comparé au

résultats obtenus sur les alignements équivalents (avec les mêmes séquences) calculés par

CLUSTALW. Les résultats (non présentés) montrent que l’indice de conservation est légèrement

meilleur pour les alignements de BAliBASE, démontrant la capacité du programme à calculer un

indice représentatif de l’alignement. Ceci montre par ailleurs l’efficacité du programme d’alignement

multiple CLUSTALW, qui calcule des alignements proches de ceux de BAliBASE (ayant fait l’objet

d’optimisations manuelles). Le programme AL2CO a donc été utilisé sur les alignements calculés pour

les protéines de la PDB.

L’étude de ces paramètres permet d’analyser la corrélation entre la conservation des interactions

dans les alignements et l’indice de conservation globale, ou l’identité d’un alignement. Les notions

d’indice de conservation globale et d’identité étant proches, nous nous attendons à obtenir des résultats

cohérents entre ces deux paramètres.

2.2.8.3.b. Accessibilité des résidus au solvant

Le programme DSSP calcule l’accessibilité des résidus selon l’algorithme de Lee & Richards

(1971). Cet algorithme (geodesic sphere integration algorithm) consiste à échantillonner la surface de

la protéine au moyen d’une sphère de 1,4 Å de diamètre (équivalent au diamètre d’une molécule

75

d’eau). L’accessibilité calculée représente la surface totale des résidus, en Å2 en contact avec cette

sphère. L’accessibilité totale d’un résidu est la somme des accessibilités de ses atomes. L’accessibilité

relative d’un résidu est sa surface accessible divisée par sa surface totale.

2.2.8.3.c. Structures secondaires

Les structures secondaires ont été prédites pour toutes les protéines des alignements, puisque dans

chaque alignement, toutes les protéines à l’exception de la protéine PDB n’ont pas de structure

connue. En revanche pour la protéine PDB, bien qu’ayant sa structure, il est plus cohérent de prédire

sa structure secondaire, plutôt que de la déterminer à partir de la structure tridimensionnelle, comme

DSSP le fait. Les prédictions de structures secondaires ne sont pas fiables à 100%. Les méthodes

utilisées réalisent par endroit de mauvaises prédictions (30% environ). Ces erreurs sont reproductibles

selon la configuration locale des séquences. Par conséquent, il est plus judicieux de prédire toutes les

séquences, même celles issues de la PDB, de façon à reproduire les mêmes erreurs aux mêmes

endroits. Cette constatation rejoint les résultats de Geourjon et al. (2001) : l’utilisation des structures

secondaires prédites est plus fiable et plus sensible que l’utilisation des structures secondaires

observées (obtenues avec DSSP) pour établir les relations d’homologie entre des protéines distantes de

structures tridimensionnelles connues. Par ailleurs, nous avons choisi d’utiliser trois méthodes

prédictives basées sur des algorithmes et des théories différentes (§1.4.3 page 47) DSC, SOPMA et

PHD. La prédiction finale retenue est un consensus calculé à partir des trois méthodes. Ce consensus

donne de meilleurs résultats, puisqu’il a tendance à conserver les accords entre les méthodes et à

atténuer les désaccords. (Table 19 page 125).

2.2.8.4. Analyse de la conservation des glycines

L’architecture logicielle bioinformatique mise en place nous a permis d’établir un diagramme de

Ramachandran pour tous les résidus de la PDB (Figure 19). Cette analyse nous a conduit à définir

assez grossièrement les régions favorables et défavorables du diagramme de Ramachandran (Figure

20). De par sa petite taille, la glycine est le seul résidu capable d’adopter des combinaisons d’angles

(Φ,Ψ) qui le situent dans les zones interdites du diagramme de Ramachandran. Il nous semble donc

intéressant de voir si cette spécificité est à l’origine d’une conservation préférentielle des glycines

situées dans ces zones interdites du diagramme comparativement aux glycines ayant des valeurs de

combinaison d’angles (Φ,Ψ) plus favorables.

76

Figure 19 : diagrammes de Ramachandran pour les alanines, phényl-alanines et glycines de la PDB

réalisés à l’aide de DSSPm. Les zones encadrées en noires représentent les zones favorables. Les glycines

témoins ont été choisi dans ces zones, les glycines d’intérêt ont été choisies à l’extérieur de ces zones.

77

Le Code 3 (page 65) présente la structure d’un objet pmyAApair, utilisé pour modifier le

programme DSSP. Deux variables float fglypsi et float fglyphi sont utilisées pour stocker

les valeurs d’angles et ainsi repérer les glycines intéressantes et les glycines témoins. C’est l’une des

fonctionnalités qui a été ajouté au programme DSSPm.

Figure 20 : Définition simplifiée de la zone défavorable du diagramme de Ramachandran. Les glycines

intéressantes ont été choisies dans cette zone, les glycines témoins ont été choisies dans les zones représentées en

blanc. Cette zone a été définie après observation des diagrammes réalisés pour tous les résidus de la PDB

(Figure 19).

2.2.9. Implémentation des concepts et définition des objets en C++

Cette partie technique a pour but d’expliquer le travail effectué pour agencer toutes les étapes qui,

à partir d’une structure PDB, permettent d’obtenir la conservation des interactions dans un alignement

multiple contenant la séquence PDB et certaines protéines qui lui sont apparentées. Nous montrerons

aussi, que le procédé mis en place a permis de réaliser une étude statistique exhaustive sur toutes les

protéines de la PDB présentant entre elles moins de 25% d’identité de séquence.

2.2.9.1. Matérialisation des interactions

Le langage C++ est un langage fortement orienté objet. Les objets sont définis au sein de classes

qui contiennent des données spécifiques à l’objet, mais aussi des fonctions qui lui sont propres. C’est

-180

-90

0

90

180

-180 -90 0 90 180

-37,5

-10

100

138,75 30 97,5

-138

Angle Ψ (degrés)

Angle Φ (degrés)

78

le principe de l’encapsulation des données. Pour chaque protéine de la PDB, une première phase

consiste à récupérer et stocker les informations concernant les interactions présentes dans la base de

données générée à l’aide de DSSPm. Ces données sont stockées dans un objet de classe totseq

(Code 4). La fonction readtotfile_one_seq() est fondamentale. Celle-ci permet de construire un

objet totseq à partir de la base de donnée, et de remplir ses champs de données qui sont la séquence

PDB et le nom de la protéine (char * seq ; char * nomseq), les positions des résidus en

interactions sotckées dans deux tableaux d’entiers (int * pos1 ; int * pos2). Sont stockées

également dans des tableaux, les accessibilités de ces acides aminés (int * acc1, int * acc2),

ainsi que les éléments de structures secondaires auxquels appartiennent ces acides aminés (char *

secondstruct1, char * secondstruct2).

class totseq

{

public:

void deftot_entry(char*,char*,int*, int*, bool*, int*, int*, char*,

char*, int );

char* lire_entryseq(){return seq;}

char* lire_entrynom(){return nomseq;}

int liretotcouple(){return totcouple;}

int min;

int max;

friend void readtotfile_one_seq(char* argvinput, char* argvoutput,

char * runfile) ;

void Delete_Totseq();

private:

char * seq;

char * nomseq;

int * pos1;

int * pos2;

int * access1;

int * access2;

char * secondstruct1;

char * secondstruct2;

bool * value;

int totcouple;

};

Code 4 : définition d’un objet totseq, dans le fichier totfile.h

79

La fonction readtotfile_one_seq() est au centre de tout le procédé : en plus de construire l’objet

totseq équivalent à chaque protéine et ses interactions, elle appelle toutes les fonctions qui vont dans

un premier temps effectuer la recherche BLAST, puis effectuer la sélection à l’aide d’Extractblast,

réaliser l’alignement, et effectuer les calculs de conservation des interactions au sein de ce dernier. Ces

étapes, à l’exception de l’analyse statistique, sont effectuées grâce à l’utilisation de la fonction

system(ligne_de_commande_unix) (§2.2.2 page 58).

2.2.9.2. Recherche d’homologie et alignement multiple

Nous possédons un objet totseq qui matérialise pour chaque protéine les interactions. Après

avoir crée l’objet totseq, la fonction readtotfile_one_seq()appelle le programme BLAST.

Avant l’appel de BLAST, la séquence de la protéine PDB en question est écrite au format adéquat

dans un fichier (seqout) qui servira d’entrée au programme BLAST. L’appelle du programme se fait

à l’aide de la ligne de commande suivante : system("blastall2.0.12-sgi -p blastp -i seqout -d /SPTrembl/trall.seq -a 4

-o blastout");

Le programme BLAST donne un fichier blastout résultat. Ce fichier sert d’entrée au programme

Extractblast : system("Extractblast -i blastout -T -R rem -o blastselect –e 1e-6 –l len –a

start –z stop -Z"),

Les paramètres d’extraction ont été détaillés dans le §2.2.6.2 page 68. Ces paramètres d’extraction

permettent d’obtenir une sous-base de séquences apparentées à la protéine PDB en question. La sous-

base est écrite selon un format approprié dans le fichier blastselect qui sert d’entrée au

programme CLUSTALW (dans sa version parallèle open MP réalisée au sein de l’équipe par le Dr C.

Blanchet) pour calculer l’alignement multiple : system ("clustalw-mp –infile blastselect –TYPE PROTEIN –outfile

align.aln");

On obtient donc un alignement multiple contenant la protéine PDB et les protéine sélectionnées

automatiquement après une recherche d’homologie dans SWISSPROT+SPTrEMBL à l’aide de

BLAST. Ces lignes de commandes ont été volontairement simplifiées. En réalité les noms des fichiers,

principalement les fichiers d’alignements, ont été associés à un compteur numérique pour les

différencier et les retrouver aisément. Ainsi les alignements ont pu être stockés, ce qui a permis de

réaliser les statistiques plusieurs fois, sans avoir à recalculer les alignements multiples pour chacune

des protéines de la PDB.

80

2.2.9.3. Prédictions des structures secondaires

Cette phase de l’étude a été réalisée par le Dr. Christophe Geourjon. Il est le concepteur d’un

programme, écrit en Fortran, qui à partir d’un alignement de séquence au format CLUSTALW, génère

un fichier au format MPSA (Blanchet et al., 2000), contenant les prédictions de structures secondaires

DSC, SOPMA et PHD, ainsi qu’un consensus qui est la prédiction retenue.

2.2.9.4. Calcul de la conservation des interactions dans les alignements multiples.

Des fonctions de lecture des fichiers d’alignements multiples, compatibles avec les formats

CLUSTALW et MPSA ont été écrites. Nous avons mis à profit les propriétés du langages C++ par la

définition de deux objets principaux : l’objet Sequence et l’objet fileclustal. Ce choix est

simple : chaque fichier d’alignement multiple contient plusieurs séquences avec un nom, une

séquence, et éventuellement les prédiction de structures secondaires associées. Toutes les données

d’une séquence sont regroupées dans un objet Sequence. Et tous les objets Sequence, sont regroupés

dans un objet fileclustal représentant au fichier alignement.

2.2.9.4.a. L’objet Sequence

L’objet séquence (Code 5) contient le nom de la séquence dans l’alignement (char *

S_seqname), la séquence dans l’alignement (char * S_seq), et les prédictions de structures

secondaires (char * S_secstr). Les gaps dans les séquences sont conservés . La classe d’objet

fileclustal est déclarée comme « amie » (friend). Ce détail technique à son importance : ceci

permet d’outrepasser l’encapsulation, et autorisera les fonctions de la classe fileclustal, à accéder

aux données privées de la classe Sequence.

81

class Sequence

{

public:

Sequence();

~Sequence(){delete []S_seqname; delete []S_seq; delete []S_secstr ;}

friend class fileclustal;

void defseqname(char *seq);

void defseq (char *seq);

void sequenceDestrcuct(){delete [] S_seqname;delete [] S_seq;}

char *readseqname(){return S_seqname;}

char *readseq(){return S_seq;}

private:

char *S_seqname;

char *S_seq;

char *S_secstr;

};

Code 5 : définition d’un objet Sequence dans le fichier stat_sequence.h

Les objets séquences sont construits par deux fonctions de lecture des alignements compatibles avec

les formats CLUSTALW (readCLUSTAL()) et MPSA (readMPSASS()). L’une ou l’autre est appelée

automatiquement selon le type de fichier à lire.

2.2.9.4.b. L’objet fileclustal

Cet objet représente un fichier d’alignement multiple (Code 6). Il contient plusieurs séquences,

donc plusieurs objets Sequence sous la forme d’un tableau d’objets (Sequence * pClustal). Cet

objet contient l’identité dans l’alignement (float C_alignID) et le nombre de séquences alignées

(Clustal_entries). Beaucoup de fonctions sont associées à cet objet, à commencer par la fonction

amie readtotfile_one_seq(). Puisque c’est elle qui appelle le programme d’alignement, elle

construit aussi l’objet fileclustal. Pour remplir les champs privés de cet objet, la fonction doit

donc être déclarée amie.

82

class fileclustal

{

public:

fileclustal():Mask(false),C_nameformat(0),C_seqformat(0)

~fileclustal(){}

friend void readtotfile_one_seq(char* argvinput, char*

argvoutput,char * runfile);

void displayClustal ();

void displayClustalMask ();

int readentries (){return Clustal_entries;}

void pClustalConstruct(char*argv);

void pID_Mask();

void pAA_Conserv(char*);

void pAA_Homol_Conserv(char*);

void write_Clustal_file(char*);

void SalBriSeek(char*,char*);

void Clustal2Fasta(int);

float readalignID(){return C_alignID;}

void pClustalDestruct();

float Qualign();

void SbStat(totseq, int, char*, char*) ;

void HydStat(totseq, int, char*, char*) ;

void Couple_Stat( totseq,int,char*,char*);

private:

Sequence * pClustal;

int Clustal_entries;

Sequence * pClustal_Mask;

bool Mask;

int C_nameformat, C_seqformat;

float C_alignID;

char * C_alignfilename;

float m_AlignQuality;

};

Code 6 : définition de l’objet fileclustal dans le fichier stat_fileclustal.h

83

Les fonctions associées servent essentiellement à manipuler les fichiers d’alignement multiple. Il y

a aussi trois fonctions de calculs statistiques sur les interactions :

SbStat(totseq, int, char*, char*) (analyse des interactions électrostatiques)

HydStat(totseq, int, char*, char*) (analyse des interactions hydrophobes) Couple_Stat( totseq,int,char*,char*);

Couple_Stat() sert à l’analyse des ponts disulfures (elle peut aussi servir à l’analyse de toutes les

autres interactions). Elle est aussi beaucoup plus complexe, et permet notamment l’analyse de la

conservation des acides aminés individuellement, ainsi que la composition des séquences locales

encadrant les positions impliquées dans les interactions. Elle fût la première à être développée, mais sa

complexité se paie par sa gourmandise en terme de ressources et sa lenteur. C’est pourquoi les autres

fonctions (SbStat() et HydStat()) ont été développées. Celles-ci sont moins lourdes et réalisent

l’analyse statistique des couples d’acides aminés, ainsi que le brassage aléatoire des positions pour la

réalisation des témoins. Ces fonctions prennent en entrée un objet totseq, qui contient les positions

des interactions dont on veut calculer la conservation. En effet, à chaque alignement correspond l’objet

totseq qui a servi à le constituer grâce à la fonction readtotfile_one_seq(). Du fait de la

présence de gap, il y a une phase de correction des positions entre celles données par l’objet totseq et

les positions dans l’alignement, afin de se situer au bon endroit lors du calcul de la conservation.

2.2.9.5. Schéma récapitulatif

Grâce à l’architecture logicielle mise en place (Figure 21), il a été possible de réaliser une analyse

statistique exhaustive. La fonction readtotfile_one_seq() est récursive. Elle est appelée en

boucle, tant que toutes les protéines de la PDB n’ont pas été analysées. Si les modifications apportées

à DSSP, et les lignes de code nécessaires à l’élaboration d’Exctrablast ne sont pas prises en compte,

cette architecture représente un total avoisinant 4000 lignes de codes écrites en C++.

84

Figure 21 : schéma simplifié de l’architecture mise en place pour l’analyse de la conservation des

interactions structurales au sein d’alignements multiples. (b) bases de données, (F) fonctions principales, (d)

programmes développés.

2.3. Résultats

Tout d’abord sont présentés les logiciels développés, puisque cette phase a constitué une part

importante de mon travail. Seront présentés trois logiciels, qui ont été utilisés au sein du laboratoire, et

qui sont donc pleinement fonctionnels. Ces logiciels sont tous disponibles sur ma page internet

personnelle (URL 26, section « Software Development »). Dans un second temps, seront présentés les

résultats du travail de recherche, visant à effectuer une analyse statistique de la conservation des

interactions dans les alignements multiples de séquences.

readtotfile_one_seq()F

Protein Data Bank-25%b allPDBCYS allPDBHYD3.

3allPDBSB3.0

Base de données d’interactions b

Objet totseq

Blast

Extractblastd

CLUSTALW

Prediction de structuctures secondaires

Objet fileclustal

system()F

readCLUSTAL()F

readMPSASS()F

DSSPmd

CoupleStat()F

SbStat()F

HydStat()F

IndivStat()F

MotifCons()F

RESULTATSb system()F

system()F

Recalage des positions (gaps dans les alignements)

85

2.3.1. Développement logiciel

2.3.1.1.a. Extractfasta

La stratégie d’analyse des interactions faisait intervenir au départ des recherches FASTA et

SSEARCH plutôt que des recherches BLAST. Devant le manque d’outil informatique pour le

traitement de ces fichiers résultats, il a été nécessaire de développer ce logiciel. Son rôle est de

constituer une base de données de séquences à partir des résultats de recherche FASTA ou SSEARCH

obtenus. Ce programme est l’équivalent d’Extracblast pour les fichiers résultats FASTA ou

SSEARCH. Son architecture ne sera pas détaillée, elle est très semblable à celle d’Extracblast qui elle

en revanche sera détaillée, puisque ce programme fût particulièrement utilisé lors du travail de

recherche.

Extractfasta permet de réaliser une base de données, échantillonnée et non redondante à partir des

fichiers résultats FASTA et SSEARCH. Ce programme est utilisable avec une simple ligne de

commande, selon les options voulues. Il est fonctionnel sous UNIX, linux et Win9X. Une différence

toutefois pour Win9X : les options sont introduites avec un signe « = » supplémentaire : voici deux

exemples d’appels à Extracfasta :

Extractfasta –i fichier_fasta –o fichier_result pour UNIX et linux ;

WinExFasta.exe –i= fichier_ssearch –o= fichier_result pour Win9X

En fin de traitement, Extractfasta (comme Extractblast) fournit un récapitulatif quant au nombre de

séquences sélectionnées avec chaque option (Figure 23, page 91). Les fonctionnalités d’Extractfasta

sont détaillées dans l’Annexe A (page 138).

Ce sont au total 3500 lignes de codes qui ont été écrites en C++ pour l’élaboration d’Extractfasta.

Extractfasta n’est fonctionnel que pour le traitement des fichiers FASTA et SSEARCH à caractère

protéique.

2.3.1.2. Extractblast

Etant donné l’utilisation importante qui a été faite du programme Extracblast, son architecture sera

détaillée. Par ailleurs, ceci permettra aussi d’illustrer les détails de la conception d’Extractfasta

puisque ces deux programmes ont des architectures voisines. Enfin, comme pour Extractfasta, seront

détaillées les fonctionnalités intéressantes d’Extractblast qui ont largement été mises à profit lors de

l’analyse statistique sur les structures tridimensionnelles protéiques.

2.3.1.2.a. Architecture

Chaque fichier résultat BLAST contient différents alignements entre la séquence requête et la une

séquence sujette trouvée par BLAST. Deux objets ont été définis lors de l’écriture du code

d’Extractblast Blast_entry et fileBlast. L’objet Blast_entry matérialise un alignement (Code

86

7), et regroupe les informations proposées par BLAST : les noms de la séquence sujette (char *

sbjname) et de la banque dont elle est issue (char * bankname), les séquences sujettes (char *

sbjseq) et requêtes (char * queryseq) alignées, le z-score (float score), la E-value (double

expect), le nombre de gaps dans chacune des séquences (int gapquery, int gapsbj), le nombre

d’identité (int identities), les positions de début et de fin d’alignement pour la séquence requête

(unsigned long int qstart, unsigned long int qstop) et la séquence sujette (unsigned

long int sstart, unsigned long int sstop), ainsi que les indications quant au cadre de

lecture pour les séquences nucléiques (char * strand_or_frame, int frame). Plusieurs

fonctions sont associées à cet objet dont deux importantes : defBlastEntry() qui construit l’objet

en lui passant en argument toutes les variables qui viennent d’être citées. La seconde fonction

importante : readBlast()va être appelée pour lire un fichier BLAST et, stocker ces variables pour

les passer à la fonction defBlastEntry(). La fonction readBlast() sert aussi à stocker les objets

dans un tableau, qui est utilisé pour la construction du second objet : fileBlast.

class Blast_entry

{

public:

Blast_entry();

virtual ~Blast_entry();

friend class fileBlast;

friend int readBlast(Blast_entry*&,char*,int,BlastFileType&);

void defBlastEntry (char* bkname, char *sbname, char *qseq, char

*sbseq, char *com, int id, int pos, float scx, double ex, char *strfr,

BlastFileType bft);

void indicate(){indicator=true;}

bool readindicator(){return indicator;}

void defposition(ulong sttq, ulong stpq, ulong stts, ulong stps){

qstart = sttq; qstop = stpq; sstart = stts; sstop= stps;}

protected:

char * bankname;

char * sbjname;

char * queryseq;

char * sbjseq;

char * comment;

int identities;

int positives;

float score;

double expect;

87

int gapquery;

int gapsbj;

int sbj_length;

char * strand_or_frame;

int frame;

bool indicator;

unsigned long int qstart;

unsigned long int qstop;

unsigned long int sstart;

unsigned long int sstop;

};

Code 7 : définition d’un objet Blast_entry, dans le fichier Blast_entry.h

L’objet fileBlast représente les informations contenues dans un fichier résultat (Code 8). Il contient

trois tableaux (ou pointeurs) d’objets Blast_entry : un qui contient tous les alignements du fichier

BLAST (Blast_entry * pfBlast), un second qui contient les alignements retenus après sélection

(Blast_entry * pfBlastselect), et enfin un dernier qui contient les alignements rejetés par le

processus de sélection (Blast_entry * pfBlastremoved). Ensuite une information

particulièrement importante est le type de fichier BLAST (BlastFileType ThisFileType).

Extractblast est fonctionnel avec tous les fichiers BLAST. Pour chaque type de fichiers des

fonctionnalités particulières ont été implémentées et sont détaillées Annexe B (page 141). Une ligne de

code, ajoutée dans Blast_entry.h permet de spécifier les valeurs possibles des variables de type

BlastFileType : enum BlastFileType {blastp,blastn,tblastn,blastx,tblastx,psi_blast};

Le type de fichier BLAST est reconnu automatiquement et pour chaque objet fileBlast, la valeur

adéquate est affectée à la variable ThisFileType (qui est du type BlastFileType). Les fonctions

associées à l’objet fileBlast, sont les fonctions de manipulations de fichiers et de sélection des

alignements intéressants pour ensuite extraire les séquences sujettes contenues dans ces alignements.

La fonction lengthextract() permet de sélectionner les séquences sujettes avec une longueur

minimum. La fonction Expectextract() sert à sélectionner les séquences trouvées avec une E-

value inférieure à un seuil. Les fonctions Stepextract() et StepRatioExtract1_2() réalisent

des sélections par palier. La fonction STRFRextract() permet de choisir les « frames » (cadre de

lecture) ou les « strands » (brin d’acide nucléique avec un orientation précise) d’interêt pour la

sélection des séquences sujettes alignées avec ces frames ou ces strands. La fonction removal()

élimine les séquences sujettes redondantes. La fonction Positionextract() quant à elle permet de

définir le segment intéressant de la séquence requête.

88

class fileBlast

{

public:

void lengthextract(int );

void Expectextract(double );

void Stepextract(float );

void StepRatioExtract1_2(float );

void pfBlastConstruct(char*, int);

void displayTab(char*, int);

void STRFRextract(char*);

void removal();

void displayremoval(char*,int);

void Positionextract(ulong,ulong);

int readblastselected(){return Blastselected;}

int readblastentries(){return Blastentries;}

private:

int Blastentries;

int Blastselected;

int Blastremoved;

Blast_entry * pfBlast;

Blast_entry * pfBlastselect;

Blast_entry * pfBlastremoved;

bool selection;

BlastFileType ThisFileType;

};

Code 8 : définition d’un objet fileblast dans le fichier fileblast.h

Un total de 2500 lignes de codes en langage C++ constituent le code source de Extractblast.

89

Figure 22 : architecture mise en place pour l’élaboration d’Extractblast. (OP) objets Blast_entry pointés,

(P) pointeurs fileBlast sur tableaux d’objets Blast_entry, (F) fonctions.

Blast_entry (alignement 1) Blast_entry (alignement 2)Blast_entry (alignement 3)………Blast_entry (alignement n)

Objet fileBlast

* PfBlastP

* PfBlastselectP

* PfBlastremovedP

Blast_entry (Selectionné 1) Blast_entry (selectionné 2)Blast_entry (selectionné 3)………Blast_entry (selectionné m)

Blast_entry (rejeté 1) Blast_entry (rejeté 2)Blast_entry (rejeté 3)………Blast_entry (rejeté p)

Pointe sur

Pointe sur

Pointe sur

lengthextract()F

Expectextract()F

Stepextract()F

StepRatioExtract1_2()F

STRFRextract()F

removal()F

Fichier desséquences

sélectionnées

Fichier desséquences nonsélectionnées

Fichier detoutes lesséquences

FichierBLAST

readBlast()F

pfBlastConstruct()F

OP

OP

OP

90

2.3.1.2.b. Fonctionnalités

Extractblast propose plusieurs fonctionnalités, qui pour certaines sont spécifiques des types de

fichier BLAST. En effet, BLAST existe dans différentes versions :

• BLASTp est utilisé pour effectuer une recherche d’homologie avec un séquence

requête protéique dans une base de séquences protéiques.

• PSI-BLAST version améliorée de BLASTp. Il est plus sensible car il établit un profil

positionnel à partir des premiers « hits » trouvés. PSI-BLAST propose donc plusieurs

« run ». Il faut tenir compte de ce paramètre afin de pouvoir travailler sur les séquences

d’un run particulier.

• BLASTx est utilisé pour effectuer une recherche d’homologie avec une séquence

requête nucléique dans une base de séquences protéiques. BLASTx réalise 6 traductions

car il y a 6 frames ou cadres de lecture numérotés de –3 à +3 (trois sur le brin requête,

trois sur le brin complémentaire).

• tBLASTn est utilisé pour effectuer une recherche d’homologie avec une séquence

requête protéique dans une base de séquences nucléiques. tBLASTn réalise pour chaque

séquence de la base nucléique 6 traductions.

• BLASTn est utilisé avec une séquence requête nucléique dans une base de séquences

nucléiques. Les alignements spécifient l’orientation des brins (Plus/Minus strands). Il faut

pouvoir sélectionner les séquences sujettes alignées selon une orientation précise de la

séquence requête.

• tBLASTx est utilisé avec une séquence requête nucléique dans une base de séquences

nucléiques. A la différence de BLASTn, tBLASTx traduit d’abord la séquence requête

(selon 6 cadres de lecture). Les séquences protéiques obtenues sont comparées avec les 6

traductions de chacune des séquences de la base nucléique.

Extractblast reconnaît automatiquement le type de fichier BLAST à traiter et permet de travailler avec

tous ces types de fichier. Avec les fichiers de type BLASTn, Extractblast permet de sélectionner les

séquences sujettes alignées avec une orientation précise de la séquence requête (Plus/Minus). Avec les

fichiers de type BLASTx, tBLASTx il est possible de choisir un cadre de lecture particulier de la

séquence requête. Ne seront sélectionnées que les protéines alignées avec la traduction de la séquence

protéique selon ce cadre de lecture précis. Toutes les fonctionnalités d’Extractblast sont détaillées

Annexe B (page 141).

Extractblast est fonctionnel sous UNIX, linux et Win9X. Les conventions d’appel au programme sont

les mêmes que pour Extractblast (ajout d’un signe « = » après les options sous WIN9X, l’exécutable

sous WIN9X est WinExBlast.exe). Enfin Extractblast propose aussi un récapitulatif du processus de

sélection (Figure 23).

91

Figure 23 : récapitulatif d’un processus de sélection effectué avec WinExBlast.exe (sous WIN98).

2.3.1.3. BioRead

Ce logiciel est l’implémentation graphique des programmes Extractfasta et Extractblast. Ce

programme a eu simplement pour but d’aider à l’analyse et la visualisation d’un grand nombre de

fichiers BLAST et FASTA, nécessaires au développement d’Extractfasta et Extractblast. Ensuite,

lorsque ces programmes étaient développés, leur code fut lié à celui de BioRead, de façon à intégrer

les fonctionnalités d’Extraction. Ce programme a été écrit en langage Tcl/Tk avantageux à plus d’un

titre : simple, rapide à coder et facilement portable. Cependant les fonctions plus complexes,

nécessitent d’être écrites dans un langage plus efficace : C++ . Ceci est possible grâce à l’utilisation

d’un programme « adaptateur » : Mktclapp (URL 24).

BioRead est un éditeur des fichiers BLAST, FASTA et SSEARCH. Il offre une coloration des

résidus conservés au sein des alignements présentés. Ceci rend les fichiers plus faciles à lire et à

analyser. BioRead est une application de type MDI (Multiple Document Interface) permettant d’ouvrir

simultanément plusieurs fichiers. Le menu offre la possibilité d’effectuer une extraction et de

constituer une sous base de données. Le type de fichier est reconnu automatiquement et la disponibilité

des fonctions du menu s’adapte.

92

Figure 24 : interface graphique BioRead sous windows (WinBioRead). Ouverture d’un fichier BLAST. 1-

Menu adapté au fichier. 2- Coloration des noms de séquences trouvées (en bleu) et des résidus en fonction de

leur conservation dans les alignements (rouge=identité, vert=similaire). 3- Jauge d’état d’avancement du

processus de coloration. 4- Liste des fichiers ouverts (double-clique pour passer de l’un à l’autre). 5- Fichier

affiché à l’écran.

L’utilisateur peut étudier simultanément plusieurs fichiers, donc essayer plusieurs paramètres pour

l’extraction des fichiers afin de garder les plus appropriés. Pour réaliser l’extraction, des boites de

dialogues s’affichent pour permettre à l’utilisateur de paramétrer sa sélection. Il y a deux types de

boites de dialogue en fonction du type de fichier (BLAST ou FASTA/SSEARCH).

1

2

4

3

5

93

1

2

3

4

Figure 25 : boite de dialogue pour l’extraction des séquences depuis un fichier PSI-BLAST. 1- Options

pour le fichier d’entrée, résultats et éventuellement pour l’élimination des séquences redondantes. 2- Options sur

les positions, la longueur et la E-value seuil. 3- Options spécifiques aux fichiers PSI-BLAST, par défaut, le

numéro du dernier run est affiché. 4-Options pour les fichiers BLAST de type n, x, tn, tx. Selon le type de

fichier, les options s’activent ou de se désactivent de façon à aider l’utilisateur.

2

1

Figure 26 : boite de dialogue pour les fichiers FASTA ou SSEARCH. 1- Options pour les fichiers. 2- Options

de longueur, de positions et de E-value seuil pour la sélection des séquences sujettes.

Après l’extraction, une petite fenêtre récapitulative informe l’utilisateur sur le nombre de séquences

qui ont été sélectionnées avec les paramètres choisis. Le fichier résultat est affiché automatiquement à

l’utilisateur.

94

Figure 27 : affichage du résultat et fenêtre récapitulative quant au processus de sélection des séquences.

Ce logiciel a nécessité 1050 lignes de code en Tcl/Tk ainsi que 1010 lignes de codes en C++ pour

la gestion des documents et le lien entre les fonctionnalités et le graphisme. Au total, si l’on prend en

compte Extractblast et Extractfasta, BioRead représente un peu plus de 7000 lignes de code.

Ce logiciel est particulièrement simple. Il dispose encore de peu de fonctionnalités et a été

développé simplement pour aider à l’analyse des fichiers BLAST et FASTA, lors de la mise au point

des programmes d’extraction. D’autres fonctionnalités seront ajoutées. Par exemple permettre à

l’utilisateur de sélectionner uniquement les séquences de son choix. Une autre fonctionnalité serait de

présenter les résultats BLAST ou FASTA sous la forme d’un alignement multiple, de façon à repérer

les zones les plus conservées dans le fichier de recherche. Il serait aussi bon de donner à l’utilisateur la

possibilité d’aligner les séquences à l’aide de différents programmes (CLUSTAL, MULTALIN…) et

la possibilité de visualiser les arbres phylogénétiques issus des alignements. Ainsi BioRead se voudrait

aussi un éditeur d’alignement multiple. Cependant, il faut souligner que d’autres éditeurs très complets

existent tels que ceux qui sont développés et utilisés au sein de notre équipe : MPSA (Multiple Protein

Sequence Analysis ; Blanchet et al., 2000) ou encore ANTHEPROT (ANalyse THE PROTein,

Deléage et al., 2001). Le logiciel BioRead n’était pas un objectif mais un outil utilitaire pratique pour

mettre au point les différents paramètres d’Extractblast et Extractfasta.

95

2.3.2. Conservation des acides aminés dans les alignements multiples

2.3.2.1. Conservation des ponts disulfures

La diversité des protéines au sein d’une même famille protéique s’explique par la suite

d’événements qui ont provoqué des mutations, insertions et délétions au sein d’une séquence

ancestrale. Une famille protéique est un ensemble de protéines ayant des séquences plus ou moins

différentes. Mais la notion de famille implique aussi que la fonction et/ou la structure ait/aient été

conservée(s), malgré les évènements liés à l’évolution. Trois éléments principaux ont permis cet état

de chose. Le premier est dû à la dégénérescence du code génétique. Plusieurs codons codent le même

acide aminé. La mutation d’un nucléotide ne suffit pas forcément à changer un acide aminé. Le

deuxième élément est dû à la nature des acides aminés : une mutation peut provoquer le remplacement

d’un acide aminé par un autre avec des propriétés biochimiques proches. Enfin le dernier élément est

simplement la conservation des acides aminés clés comme les cystéines. Les processus évolutifs ont

dû épargner les cystéines importantes pour l’établissement et le maintien des structures

tridimensionnelles des protéines. Par conséquent, une différence doit apparaître entre la conservation

des cystéines réduites et la conservation des cystéines oxydées au sein d’alignements multiples

représentatifs de ces structures.

La stratégie mise en place nous a permis d’analyser la conservation des ponts disulfures dans les

protéines de structure connue. Pour valider notre stratégie, nous avons vérifié que celle-ci met en

évidence une conservation préférentielle des cystéines oxydées.

Figure 28 : conservation des ponts disulfures (gris) et des paires témoins de cystéines réduites (hachures).

0

10

20

30

40

50

60

70

80

90

100

Tous les alignements

alignements de moins de 10 séquences

alignements de plus de 10 séquences

Conservation (%)

96

Effectifs Tous les

alignements

Alignements de moins

de 10 séquences

Alignements de plus de

10 séquences

Nombre d’alignements 440(SS)/282(SH) 263(SS)/161(SH) 177(SS)/121(SH)

Nombre de ponts disulfures 1303 859 444

Nombre de paires témoins 283 173 110

Table 4 : effectifs étudiés pour l’analyse de la conservation des cystéines oxydées et réduites. Les

alignements pour l’analyse des cystéines réduites (SH) et des cystéines oxydées (SS) sont différents (cf 2.2.7

page 71 )

La Figure 28 montre le résultat de l’analyse statistique de la conservation des cystéines oxydées et

des cystéines réduites. Sur l’ensemble des alignements étudiés, la conservation des ponts disulfures est

de 94,5% en moyenne contre 57,6% pour les paires témoins formées de cystéines réduites. Si l’on

considère les alignements de plus de dix séquences, cette différence s’accroît puisque les ponts

disulfures sont conservés à 90% alors que les paires témoins sont conservées à 35%. Il existe donc une

corrélation entre la conservation des acides aminés dans les alignements multiples et leur importance

pour la structure des protéines. Ces résultats prouvent la validité de la stratégie bioinformatique

appliquée et de l’architecture logicielle mise en place. Nous avons utilisé les mêmes outils

bioinformatiques pour étudier la conservation des interactions électrostatiques et hydrophobes dans les

alignements multiples.

Cett étude statistique montre aussi qu’il relativement rare d’observer, au sein de la même protéine

la présence de plusieurs cystéines réduites et oxydées. En d’autres termes, si une protéine possède

plusieurs cystéines, alors il y a de fortes chances pour qu’elles soient toutes dans le même état

d’oxydo-réduction. Dans notre base de séquences, 597 protéines possèdent au moins un pont disulfure

(trouvé avec le programme DSSPm). Parmi elles, seules 34 possèdent aussi au moins 2 cystéines

réduites, soit 5,7% ce qui est assez faible.

Nous n’avons pas étudié la conservation des ponts disulfures dans le détail. Le souci majeur était

de valider notre stratégie et les programmes développés.

2.3.2.2. Conservation des interactions électrostatiques.

Comme dans le cas des cystéines, les acides aminés chargés importants pour la structure protéique

doivent être conservés au cours de l’évolution. Cependant les interactions électrostatiques sont

beaucoup plus faibles que les ponts disulfures. De plus les acides aminés chargés ont différents rôles

au sein des protéines : solvatation des molécules dans les milieux physiologiques, reconnaissance et

interactions avec d’autres partenaires, régulation allostérique, catalyse enzymatique... En conséquence,

la conservation des acides aminés chargés ne peut pas être imputée exclusivement à leur importance

97

structurale. Cette étude à pour but de déterminer dans quelle mesure, le rôle structural des résidus

chargés (en interactions) influe sur leur conservation. Lors de cette analyse, nous avons tenu compte

de l’accessibilité, de la taille des alignements, de l’identité et de la conservation globale dans les

alignements, afin de déterminer l’influence de ces différents paramètres sur la conservation des

interactions.

2.3.2.2.a. Conservation globale des interactions électrostatiques dans les alignements

La Figure 29 montre le résultat de l’analyse statistique. La conservation des interactions

électrostatiques est 63,5% contre 54,3% pour les paires témoins. La différence est donc sensible, mais

assez faible. La conservation varie selon la taille des alignements, puisque pour les alignements de

moins de 10 séquences les interactions sont conservées à 71,2% (62% pour les paires témoins). Alors

que pour les alignements de plus de 10 séquences, la conservation des interaction diminue à 55,1%

(42,8% pour les témoins). La différence de conservation entre interactions et témoins croît légèrement

avec la taille des alignements. Cependant, même si cette différence est réelle, elle est assez faible, et

semble difficilement exploitable à des fins prédictives. Nous avons revu la définition de nos paires

témoins. En effet, les paires témoins sont constituées de deux acides aminés de charges opposées

distants de 15 à 16 Å. Or du fait de la taille des protéines, lorsque résidus sont éloignés d’une telle

distance, ils ont de fortes chances d’être accessibles au solvant. Aussi leur conservation peut être

imputable à leur rôle dans la solvatation des molécules, créant ainsi un biais.

Figure 29 : conservation des interactions électrostatiques (gris) et des paires témoins (hachures) dans les

alignements multiples de séquences. Les paires témoins sont constituées par deux acides aminés de charges

opposés distants de 15 à 16 Å. Les témoins sont réalisés à l’aide de DSSPm.

0

10

20

30

40

50

60

70

80

tous alignements alignements de moinsde 10 sequences

alignements de plus de 10 sequences

Conservation (%)

98

Effectifs Tous les

alignements


de 10 séquences


10 séquences

Nombre d’alignements 570 346 224

Nombre de ponts salins 3075 1992 1083

Nombre de paires témoins 8198 5519 2679

Table 5 : effectifs étudiés pour l’analyse de la conservation des interactions électrostatiques. Les

alignements comptant moins de quatre séquences alignées ont été exclus.

2.3.2.2.b. Redéfinition des témoins et effet du nombre de brassages aléatoires

Nous avons redéfini les paires témoins : au sein d’une séquence, sont utilisés tous les acides

aminés chargés qui n’interviennent pas dans une interaction électrostatique (selon DSSPm). Des paires

sont formées entre des acides aminés de charges opposées de façon aléatoire par « brassage ». A l’issu

de chaque brassage on obtient un lot de paires témoins. Nous avons aussi étudié l’effet du nombre de

brassages aléatoires.

Effectifs Tous les

alignements


de 10 séquences


10 séquences


Nombre de ponts salins 3075 1992 1083

Nombre de paires témoins

avec 10 brassages 144 113 94 232 49 881


avec 100 brassages 1 437 658 939 492 498 166


avec 1000 brassages 14 382 706 9 393 334 4 989 372

Table 6 : effectifs étudiés pour l’analyse de la conservation des interactions électrostatiques lors de la

redéfinition des paires témoins.

99

0

10

20

30

40

50

60

70

80

tous alignements alignements de moinsde 10 sequences


conservation (%)

Ponts salins témoins(15-16A) témoins10

témoins100 témoins1000

Figure 30 : Effet de la redéfinition des témoins et du nombre de brassages aléatoires réalisés pour la

constitution des témoins. Avec témoins(15-16A) : témoins définis à l’aide de DSSPm, une paire est constituée

des deux acides aminés de charges opposées distant de 15 à 16 Å de distance. Témoins10 : témoins obtenus avec

10 brassages aléatoires. Témoins100 : témoins obtenus avec 100 brassages aléatoires. Témoins1000 : témoins

obtenus avec 1000 brassages aléatoires. Un brassage aléatoire est une opération au cours de laquelle on apparie

de façon aléatoire tous les acides aminés chargés d’une séquence. Ces acides aminés ne sont pas impliqués dans

des interactions électrostatiques. Les appariements se font entre les acides aminés de charges opposées. La

conservation est calculée pour chaque paire et après chaque brassage aléatoire.

Les résultats présentés Figure 30 montrent que cette nouvelle définition des témoins augmente très

légèrement les différences de conservation. Ces témoins sont légèrement moins conservés. Pour plus

de clarté et afin de faciliter la comparaison, les résultats sont reportés Table 7. Les paires témoins

nouvellement définies ont une conservation d’environ 2% plus faible en moyenne que ne l’était la

conservation des témoins définis d’après la distance entre les acides aminés (15 à 16 Å). Le nombre de

brassages n’a quasiment aucun effet sur les valeurs de conservation des témoins.

100

Conservation

% Ponts

salins

Témoins

(15-16 Å)

Témoins

10 Brassages

Témoins

100 Brassages

Témoins

1000 Brassages

Moyenne

Ecart-type

Témoins brassés Tous les

alignements 64,37 54,28 52,22 52,28 52,20 52,23±0,04

Alignements

de moins de 10

séquences

71,20 62,00 60,24 60,31 60,23 60,26±0,05

Alignements

de plus de 10

séquences

55,05 42,76 40,39 41,18 41,13 40,90±0,44

Table 7 : résultats des conservations des interactions électrostatiques et des paires témoins avec différents

nombre de brassages aléatoires.

Ces résultats montrent que les acides aminés chargés impliqués dans des interactions sont plus

conservés que les acides aminés chargés libres (non impliqués dans une interaction électrostatique). La

différence existe, mais reste trop faible pour être mise à profit dans une méthode de prédiction des

interactions électrostatiques sur la base de la seule séquence.

Un autre thème de l’étude concerne les permutations corrélées. Est-ce que les permutations

corrélées au sein des positions en interactions sont la preuve de la présence d’une interaction entre les

deux acides aminés qui permutent?

Les résultas présentés Table 8 montre que les acides aminés permutent légèrement plus lorsqu’ils sont

impliqués dans une interaction électrostatique (12,4 contre 8,07 pour les témoins). Cependant cette

différence est relativement faible.

Taux de permutations Ponts salins Témoins1000 Différence

Tous alignements 12,41 8,07 4,33

Alignements de moins de 10 séquences 4,62 3,03 1,59

Alignements de plus de 10 séquences 26,16 17,44 8,72

Table 8 : taux de permutations corrélées pour les ponts salins et les témoins obtenus avec 1000 brassages.

Le taux de permutation est le nombre de permutations observées rapportées au nombre de paires étudiés. Une

permutation est observée lorsqu’il y a inversion des charges impliquées dans une interaction par rapport à la

séquence PDB de l’alignement. A chaque fois qu’il y a une inversion, une permutation est comptabilisée.

2.3.2.2.c. Relation entre l’identité moyenne des alignements et la conservation des

interactions électrostatiques

101

La Figure 31 montre que la conservation des ponts salins et des paires témoins augmentent avec le

taux d’identité dans alignements. La différence de conservation entre les interactions et les témoins est

d’autant plus importante que l’identité moyenne dans les alignements est faible. A 5% d’identité la

différence atteint un maximum de 12,61 alors qu’à 50% d’identité elle n’est que de 8% En conclusion,

la divergence favorise la conservation préférentielle des interactions électrostatiques (comparativement

aux témoins).

Figure 31 : représentation des conservations des interactions électrostatiques (gris) et de la conservation

des témoins (hachures) en fonction de l’identité moyenne des alignements. La droite représente la différence

simple entre les conservations des ponts salins et des paires témoins, l’axe des ordonnées correspondant est à

droite. Les témoins sont obtenus après 1000 brassages aléatoires. Le sigle « Id » représente l’identité moyenne

des alignements.

2.3.2.2.d. Relation entre la conservation globale dans les alignements et la conservation des

interactions électrostatiques

L’identité au sein d’un alignement multiple n’est pas un paramètre suffisamment fin. L’identité ne

prend en considération que les positions strictement conservées. Elle ne reflète pas la conservation

réelle au sein d’un alignement. Une position peut être conservée à 90% ou à 10%, l’identité n’en tient

pas compte. Afin de contourner ce problème, nous avons utilisé le programme AL2CO. Ce

programme calcule pour chaque position de l’alignement un indice de conservation en utilisant une

matrice structurale (HSDM) qui sert à pondérer les résultats. Nous avons calculé pour chaque

alignement un indice de conservation moyen, représentatif du taux de conservation globale dans les

alignements (cf §2.2.8.3.a, page 74).

Tous les alignements ont été soumis à AL2CO (Figure 32). Deux groupes d’alignements ont été

constitués avec des effectifs comparables (nombre et taille des alignements proches) : un premier

groupe d’alignement avec un indice élevé, et un second avec un indice faible (Figure 33). Les

0 10 20 30 40 50 60 70 80 90

100

Id<5% 5%< =Id <=50% 50%< =Id <=100%

Conservation (%)

0 2 4 6 8 10 12 14 16 18 20

Différence simple

102

alignements sélectionnés ont tous au moins une quinzaine de séquences, ils sont plus propices à

l’étude de la conservation des interactions.

Figure 32 : indice moyen AL2CO pour les alignements utilisés dans l’analyse de la conservation des

interactions électrostatiques. Les points sélectionnés sont reportés sur la figure suivante.

Figure 33 : indice moyen AL2CO des alignements sélectionnés pour la constitution des deux groupes

d’alignements. Les ronds représentent les alignements à indice élevé, les losanges représentent les alignements à

indice faible.

-0,5

-0,45

-0,4

-0,35

-0,3

-0,25

-0,2

-0,15

-0,1

-0,05

0

0 20 40 60 80 100 120 140 160

Nombre de séquences dans les alignements

moy

enne

de

l'ind

ice

Al2

Co

Indices faibles

Indices élevés

-0,5

-0,45

-0,4

-0,35

-0,3

-0,25

-0,2

-0,15

-0,1

-0,05

0

0 10 20 30 40 50 60 70

Nombre de séquences dans les alignements

indi

ce A

l2C

o m

oyen

103

Nombre d’alignements Nombre moyen de

séquences Indice AL2CO moyen

Alignements à

indices faibles 37 28 -0,29

Alignements à

indices élevés 32 25 -0,04

Table 9 : alignements sélectionnés avec l’indice AL2CO moyen.

La Figure 34 présente les résultats de l’analyse. La conservation des interactions et des témoins

(1000 brassages) est plus faible dans les alignements à indice faible, ce qui est normal du fait de la

plus grande divergence des séquences. En revanche la différence de conservation est d’autant plus

élevée que l’indice de conservation est faible : pour les alignements à indices faibles (-0,29), la

différence de conservation atteint 20,10% pour descendre à 13,13% pour les alignements à indices

élevés (-0,04). Ces résultats confirment l’observation réalisée avec l’influence de l’identité : la

conservation préférentielle des résidus formant des interactions électrostatiques est d’autant plus

marquée que les séquences au sein des alignements sont plus divergentes. De plus les différences

décelées sont plus élevées montrant que la similarité globale est un paramètre plus intéressant à

considérer que la simple identité stricte.

Figure 34 : analyse de la conservation des interactions et des paires témoins (1000 brassages) en fonction

de l’indice de conservation moyen obtenu avec AL2CO. Les interactions sont en orange, les témoins en vert.

La droite représente la variation de la différence de conservation, l’axe des ordonnées correspondant est à droite.

0

10

20

30

40

50

60

70

80

Alignements à indices faibles Alignements à indices élevés

Conservation (%)

0,00

5,00

10,00

15,00

20,00

25,00Différence de conservation

104

2.3.2.2.e. Relation entre l’accessibilité des interactions électrostatiques et leur conservation

dans les alignements multiples

En surface, les charges des résidus chargés, provoquent pour des raisons énergétiques, un

recrutement de molécules d’eau ou d’ions qui vont servir d’écran et éviter les répulsions entre charges

identiques, permettant du coup la solvatation de la molécule. En revanche, dans le cœur des protéines,

l’absence de molécules d’eau implique des contraintes énergétiques, qui favorisent l’appariement des

acides aminés de charges opposées, puisque le phénomène « écran » n’est pas possible. L’accessibilité

des interactions peut donc influer sur la conservation des interactions.

Afin de caractériser les interactions les plus enfouies, nous fixons un seuil arbitraire de 10 Å2

d’accessibilité. Sont considérés les interactions formées par deux acides aminés ayant une accessibilité

totale inférieure ou égale à 10 Å2. Pour ces interactions, nous retrouvons les mêmes tendances :

conservation préférentielle des interaction plus nette dans les alignements les plus grands (Figure 35).

Dans les alignements de moins de 10 séquences les interactions sont conservées à 82,50% contre

71,23% pour les témoins, soit une différence simple de 11,27. Alors que dans les alignements de plus

de 10 séquences, les interactions sont conservées à 72,59%, et les témoins à 41,57%, soit une

différence simple qui atteint 31,02%. Par conséquent, nous constatons encore une fois que la

divergence tend à être plus favorable à la conservation des interactions qu’à la conservation des paires

témoins.

Figure 35 : conservation des interactions et des paires témoins formées de deux acides aminés ayant une

accessibilité totale de moins de 10 Å2. Les témoins (hachures) ont été obtenus avec DSSPm. Chaque paire

témoin est composée de deux acides aminés de charges opposées distants de 15 à 16 Å. L’accessibilité est

déterminée à l’aide de DSSPm.

Les valeurs de conservation des acides aminés chargés enfouis sont plus élevées que les valeurs

obtenues lors de l’analyse globale (Table 10). La différence est surtout importante pour les

0

10

20

30

40

50

60

70

80

90

tous les alignements alignements demoins de 10séquences

alignement de plus de 10 séquences

Conservation (%)

105

alignements les plus grands : elle atteint 31,02, alors qu’elle n’est que de 12,29 pour la totalité des

interactions (indépendamment de l’accessibilité des acides aminés). Ces valeurs sont cohérentes avec

le fait que les d’acides aminés enfouis ont intérêt à s’apparier pour des raisons énergétiques et ainsi

stabiliser la structure protéique.

Les effectifs utilisés pour cette étude (Table 11). sont relativement réduits ce qui pose le

problème de la représentativité et il faut donc considérer les résultats avec soin. Ces effectifs montrent

néanmoins un élément statistique supplémentaire. Le nombre de ponts salins et le nombre de paires

témoins ayant servis à l’étude de l’effet de l’accessibilité sont comparables, puisque nous avons 277

ponts salins et 233 paires témoins. Cependant les effectifs de départ utilisés lors de l’analyse globale

sont loin d’être égaux, puisque nous avons 3075 ponts salins et 8198 paires témoins. Or le seul critère

qui a été appliqué pour la sélection des interactions et des témoins est l’accessibilité, qui nous conduit

aux effectifs obtenus (277 ponts salins et 233 paires témoins). Par conséquent, seuls 2,84% des paires

témoins totales sont enfouies alors que cette proportion est de 9% pour les interactions salines. Ceci

montre deux choses : la propension des acides aminés chargés à « éviter » les zones les plus enfouies

des protéines et la propension à former des interactions lorsque les acides aminés chargés sont dans les

zones enfouies.

Accessibilité ≤ 10 Å2 Analyse globale (§2.3.2.2.a page 97)

Conservation (%) Ponts salins T(15-16) Différence Ponts salins T(15-16) Différence

Tous alignements 79,40 59,04 20,36 64,37 54,28 10,09

Alignements de moins de

10 séquences 82,50 71,23 11,27 71,20 62,00 9,20


10 séquences 72,59 41,57 31,02 55,05 42,76 12,29

Table 10 : conservations des interactions et des paires témoins enfouies comparées aux valeurs obtenues

lors de l’analyse globale. Les témoins (T15-16) sont obtenus avec DSSPm.

106

Accessibilité ≤ 10 Å2 Analyse globale (§2.3.2.2.a page 97)

Effectifs AlignementsPonts

salins T(15-16) Alignements Ponts salins T(15-16)

Tous les alignements 153 277 233 570 3075 8198

Alignements de moins de

10 séquences 103 184 144 346 1992 5519


10 séquences 50 93 89 224 1083 2679

Table 11 : effectifs utilisés pour l’analyse des interactions et des paires témoins enfouies comparés aux

effectifs utilisés lors de l’analyse globale.

2.3.2.2.f. Prise en compte des structures secondaires dans la définition des interactions et des

paires témoins

Nous avons pris en compte les structures secondaires : une paire (interaction ou témoin) est

conservée si les acides aminés sont conservés et si l’état structural de chacun des acides aminés est

conservé. Les résultats présentés Figure 36 montrent que l’on retrouve ici la même évolution en

fonction de la taille des alignements : une conservation préférentielle des interactions plus nette

lorsque les alignements sont plus grands (comptent plus de 10 séquences). La considération des

structures secondaires tend à augmenter très légèrement les différences de conservation entre les

interactions et les témoins comparativement à l’analyse globale (Table 12). Rappelons que lors de

l’analyse globale (cf §2.3.2.2.a page 97) les interactions ne sont définies que par la nature biochimique

des acides aminés, les états structuraux ne sont pas pris en compte.

107

Figure 36 : Effet de la prise en compte des structures secondaire dans les définitions des interactions

électrostatiques (gris) et des paires témoins (hachures, témoins obtenus avec 1000 brassages).

Conservation des ponts

salins

Conservation des paires

témoins Différence simple

Sans prise en compte

des SS 63,5 54,3 9,2

Avec prise en

compte des SS 56,3 46,5 9,8

Table 12 : comparaison des valeurs de conservations avec et sans prise en compte des états de structures

secondaires (SS) des acides aminés impliqués. Les structures secondaires sont prédites par trois méthodes :

DSC (citer ou renvoi), SOPMA, PHD. La prédiction retenue est un consensus de ses trois méthodes.

2.3.2.3. Conservation des interactions hydrophobes.

2.3.2.3.a. Conservation globale des interactions hydrophobes dans les alignements et effet de

la définition des témoins.

Les résultats sont proches de ceux observés pour les interactions électrostatiques (Figure 37). Les

interactions sont plus conservées que les témoins. La différence de conservation entre les témoins et

les interactions est réelle, mais est relativement faible. De plus on retrouve la même variation avec la

taille des alignements. Les conservations diminuent lorsque les alignements sont plus grands. La

différence de conservation entre les interactions et les témoins croît avec la taille des alignements :

cette différence est de 6,45 pour les alignements de moins de 10 séquences, pour passer à 10,8 lorsque

les alignements comptent plus de 10 séquences.

0

10

20

30

40

50

60

70

tous les alignements alignements de moinsde 10 sequences


Conservation (%)

108

50

55

60

65

70

75

80

85

Tous les alignements alignements de moins de10 séquences


Conservation (%)

Figure 37 : Conservation des interactions hydrophobes (gris) et des paires témoins (hachures) dans les

alignements multiples de séquences. Les paires témoins sont constituées par deux acides aminés hydrophobes

distants de 15 à 16 Å, à l’aide de DSSPm.

0 10 20 30 40 50 60 70 80 90

alignements de moins de 10 séquences


Conservation (%)

Int. Hydrophobes témoins (15-16A) témoins10 témoins100 témoins1000

Figure 38 : Effet de la redéfinition des témoins et du nombre de brassages aléatoires réalisés pour la

constitution des témoins. Avec témoins(15-16A) : témoins définis à l’aide de DSSPm, une paire est constituée

des deux acides aminés de charges opposées distant de 15 à 16 Å de distance. Témoins10 : témoins obtenus avec

10 brassages aléatoires. Témoins100 : témoins obtenus avec 100 brassages aléatoires. Témoins1000 : témoins

obtenus avec 1000 brassages aléatoires.

La Figure 38 montre l’effet du nombre de brassages pour les témoins redéfinis (de la même façon

que pour les interactions électrostatiques, cf § 2.3.2.2.b page 98). Cette nouvelle définition est assez

intéressante, au moins pour les alignements de moins de 10 séquences, puisque ceux-ci sont moins

conservés.

109

La différence de conservation est légèrement plus élevée avec les nouveaux témoins (Table 13).

Pour les alignements de moins de 10 séquences, celle-ci passe de 6,45 (ancienne définition : 15 à 16 Å)

à 10 (nouvelle définition : brassages aléatoires).

Différence de

Conservation

Témoins

(15-16 Å)

Témoins

10 Brassages

Témoins

100 Brassages

Témoins

1000 Brassages


de 10 séquences 6,45 10 9,97 10,01


10 séquences 10,8 11,89 11,95 11,97

Table 13 : différences de conservations des interactions hydrophobes et des paires témoins avec différents

nombre de brassages aléatoires.

Effectifs Tous les

alignements


de 10 séquences


10 séquences


Nombre d’interaction hydrophobes 2248 1209 1039

Nombre de témoins (15-16 Å) 6902 4025 2877

Nombre de paires témoins avec 10

brassages 180 611 108 717 71 894

Nombre de paires témoins avec 100

brassages 1 798 612 1 082 484 716 128

Nombre de paires témoins avec

1000 brassages 17 994 378 10 829 637 7 164 741

Table 14 : effectifs étudiés pour l’analyse de la conservation des interactions électrostatiques lors de la

redéfinition des paires témoins.

2.3.2.3.b. Identité et similarité globales dans les alignements : relations avec la conservation

des interactions hydrophobes.

La question est de savoir si, comme dans les cas des interactions, la divergence des séquences au

sein des alignements multiples est plus favorable à la conservation des interactions hydrophobes qu’à

la conservation des témoins. Nous avons procédé exactement de la même manière que pour les

interactions électrostatiques (§2.3.2.2.a page 97).

110

Les valeurs de conservations augmentent lorsque l’identité globale dans les alignements augmente

(Figure 39), ce qui n’a rien d’étonnant. En revanche, la différence de conservation ne varie pas pour

les alignements les plus divergents à moins de 5% d’identité de séquence, et les alignements ayant

entre 5 à 50% d’identité de séquences. La différence est de l’ordre de 8,4 pour ces deux groupes

d’alignements. Par conséquent, au-delà d’une certaine divergence (ici à moins de 50% d’identité), les

mutations qui touchent les acides aminés hydrophobes semblent indifférentes à leur rôle structural.

0 10 20 30 40 50 60 70 80 90

100

Id<5% 5%< =Id <=50% 50%< =Id <=100%

Conservation(%)

0 1 2 3 4 5

6

7

8

9 Différence simple

Figure 39 : représentation des conservations des interactions hydrophobes (gris) et de la conservation des

témoins (hachures) en fonction de l’identité moyenne des alignements. La courbe représente la différence

simple entre les conservations des interactions hydrophobes et des paires témoins, l’axe des ordonnées

correspondant est à droite . Les témoins sont obtenus après 1000 brassages aléatoires. Le sigle « Id » représente

l’identité moyenne des alignements.

L’identité donne une idée assez grossière de la divergence des séquences dans les alignements

multiples. La similarité globale est une mesure plus fine que le pourcentage d’identités strictes. Nous

avons donc mis à profit le programme AL2CO pour étudier la relation entre la similarité globale et la

conservation des interactions hydrophobes. Dans un premier temps nous avons sélectionné (comme

dans le cas des interactions électrostatiques) deux groupes d’alignements en fonction de l’indice

AL2CO moyen : un premier pour lequel la similarité globale est faible (indice faible) et un second

ayant un indice moyen élevé (Figure 40).

111

Figure 40 : A) indice moyen AL2CO pour les alignements utilisés dans l’analyse de la conservation des

interactions électrostatiques. B) indice moyen AL2CO pour les alignements sélectionnés.

La Figure 41 représente la relation entre la similarité globale des alignements multiples et la

conservation des interactions hydrophobes. Dans les alignements divergents (indice faible), les valeurs

de conservations sont plus faibles. Il en va de même pour la différence de conservation entre

interaction et témoins, qui croît lorsque la similarité globale dans les alignements est plus importante.

La divergence des séquences n’est donc pas favorable à la conservation préférentielle des interactions

hydrophobes, comme ce fût le cas pour les interactions électrostatiques. Cette constatation va dans le

même sens que l’observation faite concernant l’identité : au-delà d’une certaine divergence, les

mutations sont indifférentes au rôle structural des acides aminés hydrophobes. Cette observation peut

être expliquée par le fait que les acides aminés hydrophobes, contrairement aux résidus chargés, ne

s’attirent pas entre eux, mais se retrouvent en fuyant le milieu aqueux environnant. Il n’y a donc pas de

spécificité propre qui peut expliquer la conservation corrélée entre deux positions hydrophobes comme

dans le cas des cystéines, ou dans le cas d’acides aminés de charges opposées.

-0,5

-0,4

-0,3

-0,2

-0,1

0

0 20 40 60 80 100 120 140 160Nombre de séquences

Indi

ce A

l2C

o

Indices élevés

Indices faibles

-0,5

-0,4

-0,3

-0,2

-0,1

0

0 20 40 60 80 100 120 140 160

Nombre de séquences

Indi

ce A

l2C

o

A B

112

0 10 20 30 40 5 0 60 70 80 90

Alignements à indices faibles Alignements à indices élevés

Conservation (%)

0

2

4

6

8

10

12

14

16 Différence de conservation

Figure 41 : analyse de la conservation des interactions hydrophobes (gris) et des paires témoins (1000

brassages, hachures) en fonction de l’indice de conservation moyen obtenu avec AL2CO. La droite

représente la variation de la différence de conservation, l’axe des ordonnées correspondant est à droite.

2.3.2.3.c. Relation entre l’accessibilité des interactions hydrophobes et leur conservation dans

les alignements multiples

Nous avons suivi le même raisonnement que pour les acides aminés chargés. Dans le cas des

résidus hydrophobes, il est intéressant d’étudier la conservation, non pas des résidus enfouis, mais des

résidus exposés. L’exposition de résidus hydrophobes est défavorable du point de vue

thermodynamique. Par conséquent, ces résidus hydrophobes exposés ont un rôle biologique expliquant

leur présence, il est donc possible qu’ils soient plus conservés.

La Table 15 présente les résultats d’analyse. Sont pris en compte les interactions formées par deux

résidus hydrophobes ayant chacun une surface accessible (selon DSSP) au minimum de 30 Å2. Ce

seuil est fixé arbitrairement, afin d’avoir un effectif suffisant d’interactions hydrophobes exposés

(Table 16). L’effet de l’accessibilité est très faible. D’une façon générale, les interactions exposées

sont moins conservées que celle qui sont enfouies, ce qui est normal, pour des considérations

thermodynamiques. Cependant on peut constater que la différence de conservation est légèrement plus

élevée entre les interactions et les témoins exposés qu’entre les interactions et les témoins enfouis. On

observe donc un très légère conservation préférentielle des interactions hydrophobes accessibles.

113

Accessibilité > 30 Å2 Analyse globale (§2.3.2.3.a page 107)

Conservation (%) Int.

Hydrophobes T(15-16) Différence

Int.

HydrophobesT(15-16) Différence

Tous alignements 64,60 54,47 10,13 76,38 66,66 9,71


de 10 séquences 71,05 65,00 6,04 80,13 73,68 6,45


10 séquences 62,46 50,96 11,49 75,12 64,32 10,80

Table 15 : conservations des interactions hydrophobes et des paires témoins exposées comparées aux

valeurs obtenues lors de l’analyse globale. Les témoins (T15-16) sont obtenus avec DSSPm.

La Table 16 présente les effectifs utilisés pour l’étude de l’accessibilité. Une remarque

intéressante, mais peu étonnante ressort de la comparaison de ces effectifs. Parmi les 6902 paires

témoins de l’étude globale 1240 sont constituées de deux acides aminés ayant chacun au moins 30 Å2

de surface accessible, soit une proportion d’environ 20%. Cette proportion est bien moindre pour les

interactions hydrophobes puisqu’elle est de 6% seulement. Ceci s’explique par le fait que les

interactions hydrophobes regroupent des résidus dans l’espace, créant une zone hydrophobe plus

importante qui a moins de chance d’être accessible, alors que les témoins sont constitués de résidus

distants de 15 à 16 Å.

Accessibilité > 30 Å2 Analyse globale (§2.3.2.3.a page 107)

Effectifs AlignementsInt

HydrophobesT(15-16) Alignements

Int

Hydrophobes T(15-16)

Tous les alignements 592 135 1240 762 2248 6902


de 10 séquences 393 73 509 353 1209 4025

Alignements de plus

de 10 séquences 199 62 731 409 1039 2877

Table 16 : effectifs utilisés pour l’analyse des interactions hydrophobes et des paires témoins exposées

comparés aux effectifs utilisés lors de l’analyse globale.

114

2.3.2.4. Conservation des glycines.

La spécificité des glycines réside dans leur pouvoir à adopter des combinaison d’angles (Φ,Ψ) qui

les situent dans la zone interdite du diagramme de Ramachandran (Figure 20 page 77). De ce point de

vue, les glycines ayant adopté ces angles peuvent être difficilement remplacées. Les logiciels

bioinformatiques et l’architecture logicielle développés nous ont permis de comparer la conservation

des glycines dans ces zones interdites à la conservation des glycines dans les zones favorables qui font

office de témoins.

Cette analyse a l’intérêt, en plus de son caractère exhaustif de vérifier l’hypothèse de départ : les

glycines des zones interdites sont plus conservées que les glycines témoins (Figure 42). La différence

de conservation est sensible. Par ailleurs, la divergence est un facteur favorable à la conservation

préférentielle des glycines d’intérêt puisque ce sont dans les alignements les plus grands que la

différence de conservation est la plus importante (les alignements les plus grands sont aussi ceux où

les séquences sont les plus divergentes comme en atteste la Table 17). Les alignements multiples sont

donc une des bases à considérer pour s’orienter vers la prédiction des glycines dans ces zones. Ceci

peut être intéressant pour orienter des expériences de mutagénèse ou pour vérifier et étoffer les

moyens de prédiction des structures.

Figure 42 : conservation des glycines des zones interdites du diagramme de Ramachandran (gris)

comparées aux glycines dans les zones favorables du diagramme (hachures).

50

55

60

65

70

75

80

85

Tous les alignements alignements de moins de

10 séquences

alignements de plus de

10 séquences

Conservation (%)

115

Tous les

alignements


de 10 séquences


10 séquences

Identité moyenne (%) 18,95 26,36 11,50


Nombre de glycines d’intérêt 5866 2993 2873

Nombre de glycines témoins 11052 5935 5117

Table 17 : identité moyenne des alignements multiple et effectifs étudiés pour l’analyse de la conservation

des glycines. Les alignements de moins de quatre séquences n’ont pas été retenus (représentants 3159 glycines

d’intérêt).

2.4. Conclusion et discussion des résultats concernant la conservation

des acides aminés au sein des alignements multiples.

L’analyse de la conservation des ponts disulfures est concluante puisqu’elle met nettement en

évidence la conservation des cystéines oxydées au sein des alignements multiples. Ces résultats

démontrent le bien fondé de notre stratégie ainsi que l’utilité des programmes développés. Par ailleurs,

les valeurs de conservations et les différences décelées sont particulièrement élevées. Elles sont donc

statistiquement significatives. Par conséquent, la conservation des cystéines dans les alignements

multiples peut servir de base au développement d’algorithmes prédictifs. La dernière méthode en date

(Fiser et Simon, 2000) est basée sur la conservation des cystéines dans les alignements multiples. La

qualité de prédiction de cette méthode s’élève à 82%, démontrant l’utilité de l’information contenue

dans une alignement de séquence pour la prédiction des états d’oxydation des cystéines.

La conservation des ponts disulfures est plus nette dans les alignements comptant un nombre élevé

de séquences (au moins 10). Les alignements sont des outils qui représentent l’effet de l’évolution et

les conséquences des mutations ayant aboutit à une famille protéique. Plus la famille est hétérogène, et

plus les acides aminés conservés sont représentatifs et importants pour la fonction biologique et/ou le

maintien de la structure protéique. Une des phases clé de notre étude est la sélection des séquences

depuis les fichiers BLAST résultats. C’est pour constituer des sous-bases de séquences échantillonnées

et représentatives des protéines de structures connues que nous avons développé Extractblast. Ainsi,

avec une procédure de sélection par palier, il est plus facile d’obtenir un échantillon représentatif, non

biaisé, des séquences protéiques apparentées. On obtient une sous-base non redondante, dans laquelle

le but est d’autoriser suffisamment de divergence, tout en maintenant la parenté structurale. Ceci

explique la conservation plus nette des ponts disulfures lorsque les alignements comptent plusieurs

séquences : du fait de la sélection par palier, on a une meilleure représentation de l’effet de l’évolution

sur une protéine ancestrale. Les cystéines qui ne sont pas fondamentales au maintien de la structure ont

116

d’autant plus de chances de disparaître que le nombre de représentants dans la famille protéique est

important. A l’inverse les cystéines clés, sont forcément épargnées. En autorisant donc plus de

divergence, il est plus facile de mettre en évidence les cystéines oxydées, essentielles au maintien de la

structure protéique. Mais trop de divergence peut aussi conduire au calcul d’alignements qui ne sont

pas suffisamment pertinents du point de vue biologique et donc de mauvaise qualité (longues

insertions, insertions mal placées, structure secondaires non conservées…). De ce point de vue, un

travail important reste à fournir pour la validation automatique des alignements multiples. Nous ne

disposons actuellement pas d’outil automatique permettant d’estimer la pertinence biologique et la

qualité d’un alignement multiple.

Ces constatations valables pour les ponts disulfures le sont aussi pour les interactions électrostatiques

et les interactions hydrophobes. En outre c’est dans la divergence que l’on observe une conservation

préférentielle plus marquée des interactions, même si la divergence a un effet moindre dans le cas des

interactions hydrophobes. Il y a plusieurs explications à cela.

Tout d’abord ces interactions ne sont pas aussi fortes que les ponts disulfures. Il est toujours possible

pour une protéine de mettre en place d’autres interactions faibles (interactions hydrophobes,

interactions électrostatiques, liaisons hydrogènes) pour compenser l’absence d’une interaction.

Concernant les ponts salins, Musafia et al. (1995) ont étudié la conservation des ponts salins

complexes (impliquant au moins trois acides aminés différents). Leur étude portait sur 94 protéines de

structures connues. Leurs résultats montrent que la plupart de ces ponts salins complexes ne sont pas

conservés, mais ils sont remplacés par des ponts salins proches ou par d’autres interactions

(interactions hydrophobes et liaisons hydrogène). De plus ces ponts salins font intervenir plusieurs

acides aminés. La disparition d’un ou deux acides aminés ne suffit pas toujours à l’élimination du pont

salin en lui même. Russell & Barton (1994), après avoir étudié la conservation des interactions

électrostatiques sur 607 paires de protéines de structures connues, démontrent que beaucoup des

interactions faibles ne sont pas conservées au sein des paires protéiques, bien que les protéines aient

des structures proches. Leur conclusion est qu’il ne faut pas chercher à expliquer la conservation des

structures tridimensionnelles dans la conservation des acides aminés impliqués dans les interactions,

mais plus par la conservation des caractéristiques globales (enfouissement des acides aminés

hydrophobes, exposition des acides aminés chargés…). Cependant on peut faire une critique à cette

dernière étude : il est difficile de parler de conservation lorsque les alignements ne comptent que deux

séquences protéiques. C’est d’ailleurs cette opinion qui nous à amené à ne considérer que les

alignements comptant au moins quatre séquences.

Une autre explication de la faible conservation relative des interactions est que les structures

protéiques ne sont pas figées, elles sont dynamiques. La dynamique des structures se fait par la

modulation des interactions faibles. Par conséquent certaines interactions peuvent être déterminées

expérimentalement et ne pas persister dans la structure de la protéine, et inversement.

117

Un autre élément à prendre en considération est la polyvalence des acides aminés impliqués dans les

interactions. Pour les interactions électrostatiques : du fait de leur charges, les résidus sont impliqués

dans différents processus : catalyse enzymatique, régulation allostérique, interaction et reconnaissance

avec d’autres partenaires (protéines, acides nucléiques, ligands…). Quant aux acides aminés

hydrophobes, leur conservation peut être due à leur rôle dans la constitution des zones hydrophobes

internes des protéines globulaires. L’exclusion d’eau aboutit à un abaissement de la constante

diélectrique dans cette zone, favorisant les échanges électroniques, phénomènes fréquents dans les

processus de catalyse réactionnelle. Ces acides aminés hydrophobes sont aussi très importants dans les

interactions avec d’autre partenaires, ou avec les membranes biologiques. En conséquence, il n’est pas

possible d’imputer la conservation des acides aminés chargés ou hydrophobes uniquement à leur rôle

structural, puisqu’ils en ont d’autres qui sont tout aussi importants pour les fonctions des protéines.

En plus de l’information des séquences dans les alignements, nous avons essayé d’exploiter

l’information des structures secondaires (obtenues par prédiction à partir des séquences). Nous avons

pu constater (dans le cas des interactions électrostatiques) que la considération des états de structures

secondaires n’améliorent que très légèrement les résultats. Leur apport est donc négligeable. Il

convient de rappeler les paramètres de sélection des séquences à partir des fichier BLAST résultats

pour le calcul des alignements multiples : le seuil de E-value imposé est de 1e-6. Or lorsque l’on a des

séquences trouvées avec des E-value inférieures à ce seuil, les structures secondaires sont conservées.

Pour avoir un réel effet des structures secondaires, il serait bon de réaliser des extractions avec un seuil

plus élevé comme 1e-4 par exemple (le seuil reste à déterminer de façon à optimiser les résultats).

Ceci autoriserait une divergence plus grande des séquences, mais aussi une divergence plus importante

des structures secondaires. Ce sont des conditions plus appropriées pour observer l’effet de la prise en

compte de structures secondaires, puisque les résultats précédents montrent clairement que la

divergence des séquences dans les alignements offre une conservation préférentielle des interactions

plus nette. De la même manière, une plus grande divergence des structures secondaires peut améliorer

les résultats.

Un effort important a été fourni pour réaliser une étude aussi exhaustive et objective que possible.

Nous sommes malgré tout liés à la taille de la PDB et aux critères de sélections des séquences et des

alignements. Néanmoins, nous considérons avoir atteint cet objectif. Les études précédentes sur le

sujet sont beaucoup plus restrictives, ce qui n’empêche pas nos résultats d’être cohérents avec les

études précédentes. Nos résultats apportent des données chiffrées aux grands principes généraux qui

restent valables.

Un paramètre important de notre étude sur les interactions est l’accessibilité des acides aminés. En

effet, la conservation des interactions electrostatiques est particulièrement importante pour les acides

aminés enfouis au cœur des protéines. Ceci est probablement dû à la nature déstabilisante des charges

isolées dans le cœur des protéines, du fait de l’absence des molécules d’eau et du phénomène d’écran

dont elles sont à l’origine. L’accessibilité est le paramètre le plus concluant puisque c’est en

118

considérant l’accessibilité des interactions et des paires témoins que les variations de conservation sont

les plus importantes. Néanmoins, ce paramètre conduit à restreindre les effectifs, nous obligeant à

considérer les résultats avec soin : il est difficile de généraliser, même si nos résultats sont cohérents

avec les données de la littérature (résumées ci-dessous). L’accessibilité reste probablement le

paramètre le plus important dans le cadre du développement d’un algorithme prédictif. La corrélation

entre l’accessibilité des résidus et la conservation des interactions électrostatiques dans les alignements

multiples a fait l’objet d’autres travaux. Schueler & Margalit (1995) ont réalisé leur étude sur 8

familles de protéines de structures connues. L’études des ponts salins conservés et des ponts salins non

conservés dans les structures n’a révélé aucune différence de conservation dans les alignements

multiples, même en considérant les éléments de structures secondaires impliqués. Toutefois, ils ont

mis en évidence le fait que la conservation des interactions électrostatiques dans les alignements

multiples est d’autant plus forte que les acides aminés impliqués sont enfouis. Cette constatation est

aussi retrouvée dans les travaux de Fiser & Simon (1996) portant sur 81 protéines de structures

connues. Cependant, ces travaux s’attardent plus sur la conservation individuelle des acides aminés

plutôt que sur la conservation des interactions. Enfin, concernant l’accessibilité, plusieurs expériences

de mutations, ont montré que les ponts salins en surface ont un rôle mineur dans la stabilité des

structures protéiques (Horovitz et al., 1990 ; Sali et al., 1991). Ainsi, si les interactions en surface ne

sont pas essentielles, elles peuvent disparaître sans trop de conséquences pour la stabilité protéique.

Quant aux interactions hydrophobes nous avons retrouvé des notions déjà démontrées. La

première est la propension des acides aminés hydrophobes à fuire le solvant pour se retrouver dans les

zones enfouies des protéines, allant dans le sens de travaux de calorimétrie à haute résolution, de

mutagénèses dirigées (Matsumura et al., 1988 ; Kellis et al., 1989), de mécanique statistique (Wertz &

Schegara, 1978 ; Guy, 1985) ou encore d’étude de conservation des résidus topohydrophobes dans les

familles structurales (Poupon & Mornon, 1998). Une autre observation cohérente avec les données de

la littérature, concerne la bonne conservation du caractère hydrophobe indépendamment de

l’accessibilité des résidus (Ladunga & smith, 1997 ; Lawrence et al., 1987), puisque nous avons

montré que l’accessibilité n’a qu’une influence négligeable sur la conservation des interactions

hydrophobes.

Un élément n’a pas été pris en compte lors de l’étude de la conservations des interactions : le

nombre d’acides aminés qui séparent les acides aminés impliqués dans les interactions. De ce point de

vue, l’étude de Brocchieri & Karlin (1995) montrent qu’il y a une corrélation entre la distance des

acides aminés impliqués dans les interactions et leur accessibilité : les acides aminés enfouis en

interaction sont généralement éloignés c’est à dire séparés au minimum de 20 acides aminés voire au

delà de 50 résidus (interactions hydrophobes). Inversement pour les interactions de surfaces

(interactions électrostatiques) qui sont formées d’acides aminés proches : séparés de 1 à 4 acides

aminés.

119

Concernant l’étude des glycines, nous avons montré que lorsque celles-ci sont dans les zones

défavorables du diagramme de Ramachandran, elles ont tendance à être plus conservées dans les

alignements multiples. Et ceci est d’autant plus vrai que les séquences des alignements divergent.

Cependant, la conservation de ces glycines n’est pas aussi importante que nous l’espérions : ces

résidus dans les zones interdites du diagramme de Ramachandran sont difficilement remplaçables. Dès

lors comment peut-on expliquer que la différence de conservation entre les glycines dans les zones

défavorables du diagramme et les glycines témoins soit aussi faible ? De récents travaux de Pal &

Chakrabarti (2002) apportent certaines précisions à ce sujet. Ces glycines peuvent être remplacées par

des résidus tels que Ser, Asn, Thr et Cys qui se situent en bordure d’hélice ou de feuillet et sont

généralement pris dans des interactions faibles, expliquant l’adoption de couples (Φ,Ψ) dans les zones

défavorables du diagramme.

Dans cette étude des acides aminés à rôle structural, nous retrouvons un caractère

particulièrement important qui est la divergence des séquences. Il convient donc d’essayer de mettre à

profit ce critère pour l’étude des séquences protéiques, de façon à en tirer autant d’informations

structurales que possible.

2.5. Perspectives

Ce travail montre que les alignements multiples de séquences contiennent de l’information, et

représente des outils qui peuvent aider à mieux exploiter les séquences protéiques afin d’en tirer autant

d’informations structurales que possible. Nous avons mis en évidence la tendance des acides aminés

particuliers pour la structure (en interaction et glycine dans les zones interdites) à être plus conservés

que leurs homologues lorsqu’ils n’ont pas ce rôle structural. Cependant ces résidus n’ont pas toujours

uniquement ce rôle structural, expliquant que ces conservations ne sont pas exploitables pour la mise

au point d’algorithmes prédictifs, qui permettrait à partir d’une séquence de prédire les positions en

interaction.

Une constatation particulièrement intéressante qui ressort de ce travail est que la divergence

favorise la conservation des acides aminés clés pour la structure protéique. Il est intéressant de pouvoir

exploiter des alignements de séquences apparentées aussi divergentes que possibles. Il faut donc être

capable de constituer de tels alignements et de disposer de moyen de valider ces familles structurales à

bas taux d’identité. De ce point de vue, les outils de validation automatique manquent. Une première

perspective est de développer un tel outil. C’est ce qui sera exposé dans la suite de ce rapport.

Une autre perspective intéressante, consiste à voir s’il est possible (bien que ne pouvant

développer un algorithme prédictif des interactions), de trouver des interactions par comparaisons. La

méthode consisterait à prendre en compte les informations contenues dans la PDB, sous la forme

d’une base de données d’interactions comme celle constituée lors de ce travail. Sont réalisées, à partir

120

d’une séquence, toutes les paires de résidus de charges opposées, ou de résidus hydrophobes. Ensuite

en prenant en compte l’accessibilité prédite, la distance entre les résidus, les structures secondaires

prédites d’essayer de retrouver des interactions dans la base précédemment constituée. En croisant les

résultats pour les interactions hydrophobes, les interactions électrostatiques, voir les liaisons

hydrogènes, il devrait être possible de repérer des protéines de la PDB correspondantes pour tous les

types d’interactions. Le système aurait l’avantage d’être rapide et d’être indépendant des séquences.

Les applications peuvent être diverses : amélioration de la qualité des modèles et des outils de

modélisation, validation des alignements multiples structuraux. Un autre champ d’application peut être

la recherche d’empreinte à bas taux d’identité. L’un des problèmes qui se pose est que pour la

recherche d’une empreinte structurale, la première étape est systématiquement une recherche

d’homologie sur la base des séquences à l’aide d’outils tels que BLAST ou FASTA. Nous sommes

contraints de passer par les séquences et donc limités par les possibilités de détection de ces

programmes de recherche d’homologie. Certes, l’utilisation d’autres informations en aval de ces

programmes, comme les structures secondaires prédites, permet de discriminer à bas taux d’identité

entre homologues structuraux et faux positifs. Malgré tout, la première étape de recherche de similarité

sur la base des séquences reste le facteur limitant. Une recherche d’homologie, sur la base de la

conservation des interactions tridimensionnelles (même prédites), pourrait permettre dans certains cas

de s’affranchir des limitations des programmes comme BLAST ou FASTA et de détecter des

homologues que ces programmes ne détectent pas à partir des séquences. Ceci peut s’avérer

particulièrement intéressant dans le cas de modélisation moléculaire par threading ou par homologie

notamment pour les protéines dites « orphelines » (qui n’ont pas d’homologue structuraux après

recherche sur la base des séquences). Tout la question est de savoir dans quelle mesure un tel outil

peut être mis au point et dans quelle mesure il est possible de faire confiance à l’utilisation d’un tel

outil.

121

122

3. Validation des familles structurales à bas taux d’identité, à l’aide

d’alignements multiples et des prédictions de structures

secondaires. La classification des protéines sur la base de leur séquence est un moyen est très fiable pour

caractériser les protéines. Cependant, cette stratégie est limitée par la divergence des séquences.

Etablir la parenté entre les protéines d’après les séquences n’est possible que lorsque la similarité est

au minimum de 25%. Dans le cas contraire, les séquences ne suffisent pas pour établir les relations

biologiques entre les protéines. A bas taux d’identité, Geourjon (et al., 2001) ont montré que l’étude

de la compatibilité des structures secondaires peut être utilisé pour la comparaison de deux séquences

(§1.2.2.3 page 39). Nous avons voulu étendre l’observation aux alignements multiples à forte

divergence, composés de séquences présentant de faibles similarités. Ces alignement très divergents ne

sont pas toujours pertinents du fait de la présence de séquences non reliées aux autres du point de vue

biologique. Il serait profitable de pouvoir détecter une séquence intruse dans les alignements

multiples, lorsque les taux d’identité entre cette séquence et les autres ne permettent pas d’établir une

discrimination fiable. Nous avons développé un moyen automatique pour valider les familles

structurales de protéines au sein d’alignements multiples à bas taux d’identité (10 à 30%). Notre

méthode consiste à analyser l’accord des structures secondaires prédites sur les séquences alignées.

Nous montrons qu’il est alors possible de détecter au sein d’un alignement multiple à bas taux

d’identité les séquences n’ayant pas de lien structural avec les autres séquences de l’alignement, et

ainsi de valider les familles structurales à bas taux d’identité.

3.1. Matériel et méthodes.

3.1.1. Stratégie.

Est ce que le paramètre de compatibilité de structure secondaire SOV (Structural OverLap ; Rost

et al., 1994) peut efficacement permettre la validation des familles structurales à bas taux d’identité ?

Quelle est la limite d’utilisation de ce paramètre ? Pour répondre à ces questions, nous avons

développé une stratégie qui consiste à comparer le SOV calculé sur des alignements de référence. Ce

SOV est comparé à un SOV témoin, calculé sur des alignements témoins. Pour chacun des

alignements de référence, nous avons procédé en trois étapes. Les alignements témoins sont obtenus à

partir des alignements de référence, dans lesquels une séquence est modifiée, par brassage aléatoire, de

sorte qu’elle ne soit pas reliée aux autres séquences du point de vue biologique. Ensuite les structures

123

secondaires sont prédites sur les séquences alignées. Enfin les paramètres SOV sont calculés et

comparés par le calcul d’une différence corrigée : ∆SOV.

3.1.2. Alignements de référence.

Les alignements de référence sont des alignements structuraux. L’alignement structural est plus

pertinent du point de vue biologique lorsque le taux d’identité est bas, puisqu’il est obtenu après

superposition des structures tridimensionnelles, assurant un alignement optimal des séquences de sorte

que la structure, et éventuellement la fonction soient conservées. Deux sources principales

d’alignements structuraux ont été utilisées : la base SSSD (Friedberg et al., 2000) et BAliBASE (Bahr

et al., 2001).

3.1.2.1. SSSD

La base SSSD est obtenue à partir de la base de données d’alignements structuraux DAPS (Distant

Aligned Protein Sequences, Rice et Eisenberg, 1998 ; URL 25). SSSD contient 126 paires de

structures alignées ayant en moyenne 12% d’identité de séquence (8 à 13%) et ayant plus de 30

résidus, avec des taux de gap variables (0 à 60%). Ces alignements incluent des structures protéiques

déterminées avec une résolution minimale de 3.5 Å. La similarité entre les séquences pour chacune des

126 paires de séquences alignées est en dessous du seuil de détection de l’algorithme de

programmation dynamique de Smith & Waterman.

3.1.2.2. BAliBASE

BAliBASE (version 1.0) est une base d’alignements structuraux multiples contenant 5 groupes

d’alignements ou références constitués de 142 alignements structuraux (Table 18). Les alignements de

la référence 1 contiennent des séquences de longueurs proches, équi-distantes du point de vue de leur

similarité, et le pourcentage d’identité des séquences deux à deux se situe dans un intervalle précis.

Les alignements de la référence 2 contiennent des séquences très proches ayant au minimum 25 %

d’identité par paire, ainsi que des séquences « orphelines » qui sont reliées à la famille protéique du

point de vue de leur structure, mais avec des séquences divergentes puisqu’elles ont au maximum 20%

d’identité avec les autres séquences de l’alignement. Les alignements de la référence 3 contiennent

jusqu’à quatre familles protéiques par alignement avec un maximum de 25% d’identité entre deux

séquences provenant de différentes familles. Les références 4 et 5 contiennent des alignements

présentant des longues extensions aux extrémités N-terminales ou de longues insertions aux extrémités

C-terminales. Toutes ces références ont été crées dans le but de couvrir la plupart des cas biologiques

et des difficultés que peuvent rencontrer les programmes d’alignement, offrant ainsi des alignements

124

« tests » pour apprécier la qualité des programmes d’alignements multiples (Karplus & Hu, 2001 ;

Thompson et al., 1999).

Table 18 : status de BAliBASE version 1.0. Nombre d’alignements dans chaque référence. (source :

Thompson et al., 1999). Pour chaque alignement, le taux de gaps moyen est calculé pour chacune des

séquences. Cette moyenne est obtenue à partir de toutes les paires possibles entre cette séquence et toutes les

autres de l’alignement. Si le taux de gap moyen est supérieur à 30%, la séquence est éliminée de l’étude (les

paramètres SOV calculés avec ces paires ne sont pas considérés).

Ces deux sources d’alignements structuraux ont été utilisées car elles sont complémentaires. En

effet, les alignements SSSD présentent des alignements de deux séquences avec des taux d’identité

relativement constants et des taux de gap variables, ce qui permettra de connaître l’influence du taux

de gap sur le pouvoir discriminant du paramètre SOV. Les alignements de BALiBASE quant à eux

permettront d’étudier la corrélation qu’il existe entre le taux d’identité des séquences et le paramètre

SOV au sein d’un alignement multiple.

3.1.3. Compatibilité des structures secondaires

La compatibilité des structures secondaires a été déterminée par le calcul du paramètre SOV

(§1.2.2.3 page 39).

3.1.4. Prédiction des structures secondaires

Le calcul du paramètre SOV nécessite de disposer des structures secondaires des séquences

protéiques. Celles-ci ont été déterminées par l’utilisation de trois méthodes prédictives : SOPMA

(Geourjon & Deleage, 1995), DSC (King et al., 1997) et PHD (Rost et al., 1994). L’utilisation de

Référence 1 <100 residus 200<300 residus >500 residus Taux de gap (%) Séquences éliminéesId<25% (set1) 7 8 8 11.27 +/- 5.60 0

20<Id<40% (set2) 10 9 10 11.44 +/- 6.79 0Id>35% (set3) 10 10 8 12.09 +/- 6.89 0

Référence 2 9 8 7 10.69 +/- 5.03 0

Référence 3 5 3 5 17.25 +/- 5.72 0

Extensions (ref. 4) Insertions (ref. 5)Alignements 12 12

Taux de gaps 22.12 +/- 4.03 16.00 +/- 5.92Séquences éliminées 73 16

Nombre d’alignements

125

plusieurs méthodes de prédiction basées sur des théories totalement différentes permet de dégager une

prédiction consensus dans laquelle les accords entre les méthodes sont généralement plus conservés

que les désaccords. La prédiction finale obtenue est plus cohérente, puisque en tenant compte de

théories différentes, on y retrouve les prédictions identiques ou proches données par toutes les

méthodes.

Table 19 : qualité de prédiction des méthodes de prédiction des structures secondaires. Q3 est la qualité de

prédiction lorsque trois états sont considérés (Hélice, feuillets, Coil).

3.1.5. Calculs des alignements témoins et des paramètres SOV

Les alignements témoins sont générés à partir des alignements de référence, et contiennent une

séquence « intruse », qui n’a aucun lien biologique avec les autres séquences de l’alignements. Dans le

cas des paires alignées de SSSD, chaque alignement permet d’obtenir deux groupes d’alignements

témoins. Le premier groupe d’alignements contient la séquence 1 native et la séquence 2 modifiée.

Celle-ci est obtenue en attribuant, de façon aléatoire, les positions aux acides aminés qui constituent la

séquence 2, en conservant les pourcentages d’identité et de gap entre les deux séquences. Le but de

cette étape vise à éliminer la parenté structurale entre les séquences. Cette opération est réalisée trois

fois, donnant lieu à un premier groupe de trois alignements. Le deuxième groupe d’alignements

témoins est construit de la même manière, avec les séquences 1 modifiées et les séquences 2 natives.

Le paramètre SOV est calculé sur les six paires d’alignements témoins et pour l’alignement réel. Ce

procédé est appliqué à tous les alignements de SSSD.

Méthode de prédiction Coil Hélice Feuillet Moyenne

SOPMA 75.5 75.3 62.1 72.5DSC 78.0 64.5 56.2 68.5PHD 74.9 74.3 64.8 72.5SOPMA-DSC-PHD* 80.1 72.9 59.4 72.8*Prédiction consensus basée sur les trois autres méthodes, calculée sur NPS@ (Combet et al. , 2000)

Q3 %

126

Figure 43: calculs des paramètres SOV réels, des alignements témoins et des paramètres SOV témoins. Les

séquences aléatoires (pointillés) sont obtenues par brassage aléatoire d’une séquence de l’alignement de

référence (trait plein). Lors du brassage, les taux de gap et d’identités doivent rester constants. Pour chaque

séquence, l’opération est répétée trois fois, pour compenser l’effet du hasard. Ainsi, pour chaque alignement de

SSSD, on obtient six alignements témoins. Les structures secondaires sont prédites, et les paramètres SOV sont

calculés.

Le SOV témoin moyen obtenu avec les alignements témoins est comparé au SOV réel moyen obtenu

avec les alignements SSSD, par le calcul de la différence corrigée :

Avec SOVréel : la moyenne des SOV sur les alignements réels ; σSOVréel : l’écart-type sur SOVréel ;

SOVtémoin : la moyenne des SOV sur les alignements témoins ; σSOVtémoin : l’écart-type sur SOVtémoin.

Le même processus est appliqué aux alignements multiples de BAliBASE (Figure 44). Pour

chaque alignement multiple, le paramètre SOV réel est calculé pour toutes les paires de l’alignement,

il est comparé au SOV témoin obtenu à partir de toutes les paires témoins possibles, dans lesquelles

une séquence à été modifiée de façon aléatoire. Ainsi pour un alignement multiple de n séquences, on

obtient au total n(n-1) paires témoins possibles. Ces paires sont recalculées trois fois, soit un total de

3n(n-1) paires témoins sur lesquelles un SOV témoin moyen est calculé.

)SOV(SOVSOV SOVtémoinSOVréeltémoinréel σ+σ+−=∆

Séquence 1Séquence 2

Alignement SSSD de référence

Séquence 2aSéquence 1

Séquence 1Séquence 2b

Séquence 1Séquence 2c

Séquence 1bSéquence 2


Séquence 1cSéquence 2

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOV1_2a

SOV1_2b

SOV1_2c

SOV2_1a

SOV2_1b

SOV2_1c

Sov témoinEcartype

Sov réelEcartype

Attribution aléatoire des positions aux acides aminés de la séquence 1 et 2 en conservant lestaux d’identité et de gap constants.

Séquence 1Séquence 2

Alignement SSSD de référence


Séquence 1Séquence 2b

Séquence 1Séquence 2c

Séquence 1bSéquence 2Séquence 1bSéquence 2

Séquence 1aSéquence 2 Séquence 1aSéquence 2

Séquence 1cSéquence 2 Séquence 1cSéquence 2

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOPMADSCPHD

SOV1_2a

SOV1_2b

SOV1_2c

SOV2_1a

SOV2_1b

SOV2_1c

SOV1_2a

SOV1_2b

SOV1_2c

SOV2_1a

SOV2_1b

SOV2_1c

Sov témoinEcartype

Sov réelEcartype

Attribution aléatoire des positions aux acides aminés de la séquence 1 et 2 en conservant lestaux d’identité et de gap constants.

127

Figure 44 : obtention des alignements témoins avec un alignement multiple de BAliBASE . La séquence en

pointillés est obtenue par brassage aléatoire, en conservant les taux de gap et d’identité constants avec la

séquence en trait foncé. La séquence en trait clair est ignorée. L’opération est réalisée avec toutes les paires

possibles. Pour chaque paire, l’opération est répétée 3 fois.

3.2. Résultats

Grâce à la complémentarité des bases d’alignements de référence, nous avons pu étudier l’effet du

taux de gap sur le pouvoir discriminatoire du paramètre SOV (SSSD). Nous avons ensuite mis en

évidence l’effet du taux d’identité dans les alignements multiples sur les valeurs de SOV (BAliBASE).

Nous avons ainsi pu déterminer les limites d’utilisation du paramètre SOV ainsi que son apport sur des

alignements multiples de séquences protéiques pour aider à valider les familles structurales à bas taux

d’identité

3.2.1. Comparaison des SOV réels et des SOV témoins

3.2.1.1. SSSD

Afin de déterminer l’influence du taux de gap dans les paires de séquences, la différence corrigée

∆SOV est représentée en fonction du taux de gap dans les alignements (Figure 45).

123

3séquence ignorée2séquence brassée

Gaps et Identité constants entre

1 et 2

séquence réelle123

séquence brassée

séquence ignorée

123

entre 2 et 1 entre 2 et 3

séquence réelle

123

séquence ignorée123

séquence brasséeentre 3 et 1 entre 3 et 2

123


1 et 3

séquence réelle 1Sov1_3

Sov2_3

Sov3_2

Sov1_2

Sov2_1

Sov3_1

Alignement mutliple de BAliBASE

n=3 séquences

n(n-1)X3 = 18 alignements témoins

123

123

3séquence ignorée 3séquence ignoréeséquence ignorée2séquence brassée


1 et 22séquence brassée


1 et 2

séquence réelle123

séquence brassée

séquence ignorée

123

entre 2 et 1 entre 2 et 3séquence réelle123

séquence brassée

séquence ignorée

123


123

séquence brassée

séquence ignorée

123

123


séquence réelle

123



séquence réelle

123

123


123


123


1 et 3

123

123


1 et 3

séquence réelle 1séquence réelle 1Sov1_3

Sov2_3

Sov3_2

Sov1_2

Sov2_1

Sov3_1

Sov1_3

Sov2_3

Sov3_2

Sov1_3

Sov2_3

Sov3_2

Sov1_2Sov1_2

Sov2_1Sov2_1

Sov3_1Sov3_1

Alignement mutliple de BAliBASE

n=3 séquences

n(n-1)X3 = 18 alignements témoinsn(n-1)X3 = 18 alignements témoins

128

Figure 45 : valeurs de SOV pour SSSD. A) SOVréel (carrés) et SOVtémoin (cercles) sur les alignements de

référence de SSSD et les alignements témoins (Figure 43). B) Comparaison à l’aide de la différence

corrigée ∆∆∆∆SOV.

Il apparaît une différence significative entre les SOV réels et les SOV témoins. Il est possible à

l’aide du paramètre SOV de discriminer, dans une zone de 8 à 13% d’identité, les paires de séquences

biologiquement reliées de celles qui ne le sont pas jusqu’à un taux de gap de 30%. Au delà, ∆SOV

n’est plus suffisant pour permettre une discrimination fiable. Nous remarquons aussi que ∆SOV est

d’autant meilleur que le taux de gap est faible, ce qui est compréhensible dans la mesure où, il n’est

pas possible de d’affecter une structure secondaire à un gap. En présence de gaps, le SOVréel diminue

rendant ∆SOV trop faible pour être discriminant.

3.2.1.2. BAliBASE

L’étude des variations du paramètre SOV sur les paires de séquences de SSSD nous a permis de

définir un seuil maximum de gap à 30%. Ce seuil est appliqué aux alignements de BAliBASE. Pour

chaque alignement, et pour chacune des séquences, le taux de gap moyen entre cette séquence et les

autres séquences de l’alignement est calculé. Pour les séquences des alignements des références 1 à 3,

ce taux de gaps moyen est inférieur à 30%. Ces séquences sont donc toutes incluses dans l’étude. Les

extensions dans les alignements de la référence 4 nous ont conduit à écarter 73 séquences (la référence

4 comptent 108 séquences dans 12 alignements). Pour ces 73 séquences le taux de gap moyen est

supérieur à 30%. De même pour la référence 5 (qui compte 100 séquences dans 12 alignements), nous

avons écarté 16 séquences de notre étude. Au total ce sont que 92 % de l’effectif de BAliBASE qui

présentent un taux de gap inférieur à 30% (Table 18 page 124) et qui ont donc été utilisés dans notre

étude.

BAliBASE, en fournissant des alignements représentatifs de divers cas biologiques, sous la forme

d’alignements multiples ayant des taux d’identité variables, nous a permis d’étudier les possibilités

discriminatoires du paramètre SOV en fonction des taux d’identité des alignements multiples. Nous

avons pu constater pour toutes les références qu’au dessus de 30 à 40% d’identité, le paramètre SOV

0102030405060708090

100

0 10 20 30 40 50 60 70

SOV

%

SOVréel et SOVtémoin pour SSSD

Taux de gap (%)

A

02468

1012141618

0 10 20 30 40 50 60 70

sov

%

∆∆∆∆SOV pour SSSD

Taux de gap (%)

B

129

ne permet plus de distinguer de façon fiable, au sein d’un alignement multiple, la présence d’une

séquence « intruse » n’ayant pas de lien biologique vrai avec le reste des séquences de l’alignement

(Figure 46-A). Notons aussi que le pouvoir de discrimination du paramètre SOV est d’autant plus fort

que le taux d’identité est faible, ∆SOV passe de 17% à 10% d’identité de séquence pour descendre à

9% lorsque l’identité est de 40% (Figure 46-A). Cette tendance générale que l’on observe pour tous les

alignements de BAliBASE se retrouve aussi sur les références considérées de façon individuelle, avec

néanmoins certaines variations. Nous constatons notamment que de ∆SOV tend à s’atténuer plus

rapidement pour la référence 1 (Figure 46-B,C,D) puisque à 40% d’identité, ∆SOV est de 1,3%, alors

qu’il est de l’ordre de 15% pour les références 2 et 3 (Figure 46-E,F), 7% pour la référence 4 et enfin 5

% pour la référence 5 (Figure 46-G,H). Finalement, la courbe obtenue avec BAliBASE dans son

ensemble (Figure 46-A), peut servir de courbe de calibration de ∆SOV identité-dépendante.

Lorsqu’une séquence présente un taux d’identité moyen dans alignement multiple, pour prédire cette

séquence comme reliée aux autres, celle-ci doit avoir un ∆SOV calculé supérieur à celui donné par la

courbe étalon de BAliBASE, au même taux d’identité. Dans le paragraphe suivant, un exemple illustre

l’utilisation de cette courbe et l’efficacité des prédictions du paramètre SOV.

130

Figure 46: représentations graphiques de ∆∆∆∆SOV en fonction de l’identité moyenne entre les séquences

deux à deux.

-1 0

-5

0

5

1 0

1 5

2 0

2 5

3 0

3 5

0 1 0 2 0 3 0 4 0 5 0 6 0 7 0

∆∆ ∆∆So

v

-10

-5

0

5

10

15

20

25

0 10 20 30 40 50 60 70

∆∆ ∆∆So

v

0

2

4

6

8

10

12

14

16

18

0 5 10 15 20 25 30 35 40 45

∆∆ ∆∆So

v

0

2

4

6

8

10

12

14

16

18

20

0 10 20 30 40 50 60 70

∆∆ ∆∆So

v

0

5

10

15

20

25

0 10 20 30 40 50 60

∆∆ ∆∆So

v

0

2

4

6

8

10

12

14

0 5 10 15 20 25 30 35 40 45

Sov

0

2

4

6

8

10

12

14

16

18

20

0 5 10 15 20 25 30 35 40 45

∆∆ ∆∆So

v

0

2

4

6

8

10

12

14

16

18

20

0 10 20 30 40 50 60 70

∆∆ ∆∆So

v

A B

C D

E F

G H

Référence 1 – set 1 BAliBASE

Identité (%) entre les séquences 2à 2

Référence 1 – set 2 Référence 1 – set 3

Référence 2 Référence 3

Référence 4 Référence 5

Identité (%) entre les séquences 2à 2

Identité (%) entre les séquences 2à 2 Identité (%) entre les séquences 2à 2



131

3.3. Exemple d’application biologique

Afin de vérifier concrètement l’utilité du paramètre SOV pour valider les familles structurales à

bas taux d’identité nous avons choisi de démontrer l’efficacité du paramètre SOV, en utilisant PSI-

BLAST (Altschul et al., 1997 ; § 1.2.2.2 page 39). Ce programme est reconnu pour être l’outil de

recherche d’homologues distants, basé sur les séquences, le plus performant. Ce programme est donc

le candidat idéal pour comparer les résultats et démontrer l’efficacité du paramètre SOV.

La protéine Q925W1 est un inhibiteur de protéase à serine de 346 résidus. Une recherche

d’homologie est effectuée à l’aide de PSI-BLAST (version 2.2.1) dans la base de données TrEMBL

(version 70). Toutes les séquences trouvées dans le dernier « run » (#4) sont sélectionnées si elles sont

trouvées avec une E-value supérieure à 0,01, et si elles présentent une région commune d’au moins

150 résidus entre les positions 30 et 200 de la protéine Q925W1. Ce sont donc les séquences les plus

divergentes qui sont sélectionnées, séquences pour lesquels les paramètres statistiques ne permettent

pas de se prononcer sur la parenté entre ces protéines et la protéine Q925W1. Toutes ces séquences

sont alignées, les structures secondaires sont prédites et les paramètres SOV et ∆SOV sont calculés

(Table 20).

Lorsque la E-value est élevée (0,01 à 10), il n’est pas possible d’établir le lien biologique entre

les protéines en se basant sur les E-values ou sur les taux d’identités. Ceci est particulièrement vrai

pour la protéine Q9UZM4, trouvée avec une E-value de 0,18, alors que les prédictions du paramètre

SOV identifient clairement cette protéine comme non reliée à la famille biologique de Q925W1. En

effet, en appliquant un SOV seuil de 60% il est possible d’établir la parenté structurale entre des

protéines, même à bas taux d’identité (Geourjon et al., 2001). Or Q9UZM4 présente un SOV moyen

calculé (sur les séquences de l’alignement multiple) de 40%, elle n’est donc pas reliée à la famille de

Q925W1. Ceci illustre le fait que le paramètre SOV est utilisable sur des alignements multiples. De

plus, les valeurs de ∆SOV, étayent cette prédiction. Pour Q9UZM4, ∆SOV est de 11 et le pourcentage

d’identité moyen pour cette séquence dans l’alignement multiple est de 11%. Or à 11% d’identité, le

seuil minimum de ∆SOV (déterminé avec BAliBASE) est de 17. Par conséquent, Q9UZM4 ne

présente pas un ∆SOV suffisant pour être rattachée à la famille de Q925W1. Par ailleurs, il est

possible d’effectuer une comparaison entre Q9UZM4, Q29014 et Q9AU61, puisque ces trois protéines

ont des taux d’identité moyens quasi-identiques, de l’ordre de 10% (Figure 47). Nous pouvons

constater que Q29014 et Q9AU61 présentent des valeurs de ∆SOV supérieures au seuil minimum.

Elles sont donc prédites comme reliées à la famille de Q925W1. Il est important de noter que les

valeurs de E-values pour ces protéines sont supérieures à celle de Q9UZM4. D’un point de vue

statistique, selon PSI-BLAST, ces deux protéines ont moins de chances d’être liées à Q925W1 que

Q9UZM4. Malgré cela, les prédictions du paramètre SOV affectent correctement la parenté à chacune

132

des protéines, démontrant toute l’efficacité et l’utilité de ce paramètre. Les prédictions du paramètre

SOV, sont appuyés par les résultats obtenus avec SCOP (version 1.59).

Table 20 : SOV et ∆∆∆∆SOV pour les protéines sélectionnées à l’issue de la recherche PSI-BLAST (version

2.2.1). La protéine requête est Q925W1. La base de données de recherche est TrEMBL (version 70). Le sigle Id

(colonne 5) représente l’identité moyenne d’une séquence avec les autres séquences de l’alignement multiple.

Les protéines sont alignées à l’aide de ClustalW (version 1.8), les paramètres SOV sont calculés sur le serveur

NPS@. La seuil minimum de ∆SOV est déterminé en utilisant la courbe de calibration de BAliBASE (Figure 47-

A). Toutes les protéines, à l’éxception de Q9UZM4, sont prédites comme reliées à Q925W1, puisque les valeurs

de ∆SOV sont supérieures au seuil minimal de BAliBASE. Q9UZM4, Q29014, Q9AU61 (gras) présentent une

identité moyenne de 10% dans l’alignement multiple. Q29014 et Q9AU61 sont prédites comme reliée. Il faut

aussi remarquer que ces protéines sont trouvées avec des E-values plus élevées que Q9UZM4. Les résultats de

SCOP (version 1.59 ; URL 14) permettent de vérifier la cohérence des prédictions du paramètre SOV.

Ces résultats démontrent que les structures secondaires prédites, aident à détecter les intrus dans un

alignements multiples, même lorsque les taux d’identité entre les séquences sont faibles. En

conséquences, le paramètre SOV est un outil qui permet la validation de familles structurales à bas

taux d’identité à l’aide de prédictions fiables et pertinentes, avec une réelle signification biologique.

Ces prédictions peuvent être réalisées sur le serveur d’analyse de séquence NPS@ (URL 28).

Nom Psi-Blast Evalue

Psi-Blast Identité Overlap Sov ∆∆∆∆ Sov Seuil minimal

∆∆∆∆ Sov (BAliBASE) SCOP classification

Q925W1 23 60 19 15,5 Réliée LipocalinQ9DBJ9 1E-106 95 349 23 58 16 15,5 LipocalinQ40251 0,022 16 167 49 62 9 4,5 LipocalinQ40593 0,14 14 196 50 70 15 4 Reliée LipocalinQ39249 0,15 15 181 51 67 15 3,9 Reliée Lipocalin

Q9UZM4 0,18 11 177 11 40 11 17,1 Non Reliée

P-LOOP nucleotide

triphosphate hydrolase

AAL83562 0,26 15 194 52 71 17 3,8 Reliée LipocalinQ9SM43 1,2 14 191 50 71 17 4 Reliée LipocalinQ29014 2,8 13 168 9 59 30 17,5 Reliée Lipocalin

AAL67858 3,3 16 197 52 70 13 3,8 Reliée LipocalinQ9AU61 7,9 14 173 12 69 21 17 Reliée Lipocalin

(Requête)

Id

Réliée Réliée

Prédiction

133

Identité (%)

0 0 10 20 30 40 50 60 70

1 e - 106

0.022

0,14 0.15

2.8

R 7.9

3.3

0.18

1.2 0.26

30

25

5

10

20

15

Courbe de Calibration BAliBASE

∆ SOV

Figure 47 : ∆∆∆∆SOV pour les séquences de l’alignement multiple accompagnée de leur E-value donnée par

PSI-BLAST (R = Requête). ▲ = séquence predite non reliée avec ∆SOV et trouvée avec PSI-BLAST ; ● =

séquence prédite reliée avec ∆SOV.

3.4. Discussion

Il a été précédemment montré que l’information apportée par les structures secondaires permet

d’identifier des protéines homologues sur le plan de leur structure avec des séquences relativement

divergentes (Geourjon et al., 2001). C’est par le biais du paramètre SOV qu’il est possible de

discriminer les paires de séquences reliées sur le plan biologique, de celles qui ne le sont pas lorsque

leur identité est de l’ordre de 10 à 20%. L’information apportée par le paramètre SOV est utilisée

essentiellement lors d’approches structurales, dans le domaine de la modélisation moléculaire, que ce

soit par homologie à bas taux d’identité (Geourjon et al., 2001) ou par les techniques de threading

(Jones et al., 1999).

Notre étude sur la base de données SSSD, contenant des paires de séquences alignées ayant entre 8 et

13% d’identité, confirme le pouvoir discriminatoire du paramètre SOV. Par ailleurs, nous avons pu

constater sur les paires de séquences de SSSD, que le domaine de validité du paramètre s’étend

jusqu’à 30% de gaps, offrant une plage d’utilisation très confortable. S’il est indéniable que le

paramètre SOV est un outil particulièrement intéressant pour la comparaison de deux séquences, il n’a

jamais été mis à profit dans les alignements multiples de séquences. Ici nous proposons une nouvelle

application des informations apportées par la compatibilité des structures secondaires au sein

d’alignements multiples à bas taux d’identité de séquences. En effet l’étude des alignements de

BAliBASE montre que le paramètre SOV permet de détecter, au sein d’un alignement multiple à bas

134

taux d’identité, la présence d’une séquence n’ayant pas de lien biologique avec le reste des séquences

de l’alignement. Cette détection est d’autant plus facile que le taux d’identité est bas, et elle devient

plus difficile lorsque le taux d’identité dépasse 30%. Cette limite supérieure n’est pas réellement un

inconvénient, puisqu’il est difficile de concevoir que deux protéines partageant 30% d’identité aient

des structures différentes. Par ailleurs cette limite est aussi attribuable aux conditions expérimentales.

En effet, les alignements témoins sont obtenus par modification aléatoire des positions au sein d’une

séquence témoin, en conservant les taux de gap et d’identité entre les deux séquences (l’une native,

l’autre ayant été modifiée et considérée comme intruse) qui servent au calcul du SOVtémoin. Or lorsque

le taux d’identité entre deux séquences dépasse 30%, sachant que les modifications apportées à l’une

ou l’autre séquence doivent conserver ce taux, elles restent reliées du point de vue de leur structure, et

le SOVtémoin se rapproche du SOVréel, rendant la différence trop faible pour avoir un ∆SOV significatif.

En revanche ∆SOV est d’autant meilleur lorsque le taux d’identité est bas, rendant la détection d’une

séquence intruse particulièrement efficace, puisqu’elle s’avère être la plus fiable lorsqu’elle est la plus

difficile : à faible taux d’identité de séquence et en ne considérant que l’information apportée par les

séquences, il est très risqué de se prononcer sur la relation biologique qui peut unir des séquences.

Dans ces conditions, l’étude de la compatibilité des structures secondaires trouve toute son utilité, et

apporte une aide considérable pour s’assurer des relations de parenté qui unissent les séquences au sein

d’alignements multiples à bas taux d’identité.

135

136

4. Conclusion générale

La principale motivation à la base de ce travail était de mettre à profit les alignements multiples de

séquences protéiques pour analyser la conservation des interactions au sein des structures protéiques,

mais aussi pour apporter des outils automatiques qui peuvent aider à analyser la pertinence de ces

alignements.

Dans un premier temps, nous avons mis en place une stratégie bioinformatique originale, à l’aide

de laquelle nous avons réalisé une étude statistique exhaustive des structures tridimensionnelles

protéiques, en relation avec les alignements multiples des séquences (URL 26). Cette stratégie a

nécessité une phase de développement importante, puisqu’il a fallu modifier le programme DSSP pour

obtenir une base de données exploitable et développer les outils bioinformatiques nécessaires. Trois

logiciels principaux sont issus de ce travail : Extractblast, Extractfasta et BioRead, qui sont disponibles

via internet. Tout ces outils ont été mis à profit au sein d’une architecture logicielle plus complexe,

mise en place pour étudier les interactions de toutes les protéines de structures connues. Nous avons

validé cette architecture logicielle en étudiant la conservation des ponts disulfures. Nous avons pu

montré la très nette conservation des cystéines oxydées, montrant l’apport potentiel des alignements

multiples dans la prédiction des états d’oxydation des cystéines et donc dans la prédiction de

caractéristiques structurales. Cette stratégie fût ensuite appliquée aux interactions électrostatiques et

hydrophobes. Nous avons pu dégager certains principes connus, en les étayant par des valeurs

chiffrées pour déterminer la contribution du rôle structural des résidus à l’origine de leur conservation

dans les alignements multiples. Le rôle structural favorise la conservation des résidus dans les

alignements multiples. Cette contribution du rôle structural dans la conservation est sensible, et

dépend de différents facteurs. Tout d’abord cette contribution est d’autant plus importante que les

alignements comptent un nombre élevés de séquence. Ce sont dans les alignements les plus grands que

la conservation préférentielle des interactions est la plus importante. Ensuite, l’accessibilité est un

paramètre influant sur la conservation des interactions électrostatiques, puisque la conservation

préférentielle des interactions électrostatiques est très nette lorsque l’on considère les interactions

enfouies. Ce paramètre à moins d’influence dans le cas des interactions hydrophobes, allant dans le

sens de travaux précédents. Quant à l’état de structure secondaire des interactions, ce paramètre

semble peu informatif, ce qui est relativement compréhensible compte tenu de nos conditions d’étude

(sélection des séquences à l’aide d’Extractblast). Nous avons aussi constaté que l’identité et la

similarité globales dans les alignements sont des facteurs intéressants, puisqu’il apparaît clairement

que les alignements les plus divergents semblent les plus informatifs. En effet, les résidus ayant des

caractéristiques structurales particulières, sont d’autant plus conservés dans un alignement

(comparativement aux témoins) que les séquences qui constituent l’alignement sont divergentes. Cette

première partie du travail a permis de confirmer certains principes généraux, à l’aide d’une stratégie

originale et des outils bioinformatiques développés. Ce travail montre aussi que la prédiction des

137

interactions tridimensionnelles à partir des séquences protéiques nécessitera l’emploi d’alignements

multiples. Cependant cet objectif est ambitieux : le développement d’une méthode prédictive sur la

base des connaissances structurales actuelles est difficile. Il existe encore la possibilité d’effectuer des

comparaisons dans la base de données que nous avons développé, en prenant en compte l’accessibilité

prédite, les structures secondaires prédites, le nombre de résidus entre les résidus en interactions, les

caractéristiques physico-chimiques des régions encadrant ces résidus, pour essayer de retrouver à

partir d’une séquence de structure inconnue, des interactions possibles répondant à ces critères,

observés sur les structures connues.

A l’issue de cette première phase du travail, nous avons voulu mettre à profit le fait que les

alignements les plus divergents sont aussi les plus informatifs. Cependant, il n’est pas aisé d’établir la

parenté des protéine lorsque leur séquences sont divergentes et présentent moins de 25% d’identité de

séquences. Nous avons donc développé une méthode qui permet à partir d’un alignement multiple de

séquences, de détecter les séquences « intruses » n’ayant pas de parenté avec les autres séquences de

l’alignement. Cette méthode s’appuie sur la prédiction des structures secondaires et l’analyse de leur

compatibilité dans les alignements multiples. Les expériences réalisées, notamment la comparaison

avec PSI-BLAST, programme réputé pour sa capacité à détecter les homologues distants, montrent

clairement l’efficacité de notre méthode. A ce titre, ce travail sera publié dans la revue Bioinformatics.

Cette méthode automatique fournit donc un moyen de s’assurer de la cohérence des alignements

multiples et peut être utilisée pour réaliser de manière itérative, les alignement les plus divergents

possibles et donc les plus informatifs. Par ailleurs cette méthode peut être utiles dans d’autres

domaines : la caractérisation et la classification des protéines, l’amélioration des alignements multiples

de séquences et des outils d’alignements et la modélisation des structures de protéines.

138

5. Annexes

Annexe A : Fonctionnalités d’Extractfasta

La ligne de commande « Extractfasta –h » appelle la fonction d’aide (en anglais) qui

présente un résumé rapide sur l’emploi des fonctionnalités disponibles : Usage : Extractfasta

-i <input file>

-o <output file>

-w [<output sequence maximal width>]

-b [full extraction, all following options are disabled excepted -m

option.]

-m [work only with matching regions.]

-e [<maximal expect>]

-l [<minimal length >]

-a [<start query>]

-z [<stop query>]

-r [<output file for removed sequences>]

-d [<minimal expected ratio for sequence selection>]

-s [<expect threshold to start ratio selection with -d option>]

-p [<output file for unselected sequences with -d option>]

-h [<help>]

Les options –i <nom_fichier_fasta> et –o <nom_fichier_sélection>. Ces

options indiquent le fichier FASTA à traiter et le fichier qui contiendra la base de séquences après

sélection. L’option –w <largeur> est une option de formatage. Elle indique le nombre d’acides

aminés des séquences sujettes à écrire par ligne.

L’option –b. Lorsque celle-ci est spécifiée, elle provoque une désactivation de toutes les

options de sélection, à l’exception de l’option –m. Toutes les séquences sont sélectionnées.

L’option –m. Le format des fichiers résultats FASTA n’est pas toujours très « propre »

(contrairement à ceux donnés par BLAST). Les alignements présentés sont souvent plus longs que les

portions des séquences qui sont réellement alignées. Cette option, lorsqu’elle est spécifiée, permet de

ne considérer que les régions réellement alignées. Lorsqu’elle n’est pas spécifiée, c’est tout

l’alignement FASTA qui retenu. Cette option est un peu une option de nettoyage…

L’option –e <seuil_E-value>. Celle-ci introduit un seuil de E-value au dessous duquel

toutes les séquences sont sélectionnées. Les séquences trouvées par FASTA sont associées à une E-

value, qui représente la probabilité d’obtenir un alignement de la séquence requête avec une séquence

139

de même composition que la séquence sujette trouvée, dans une banque de séquences données. Plus la

E-value est faible, plus le lien de parenté qui unit deux séquences est fort.

L’option –l <seuil_longueur>. Celle-ci introduit un seuil de longueur : ne seront

sélectionnées que les séquences ayant au minimum cette longueur. Cette option permet d’obtenir une

base de données homogène en terme de longueur, ce qui est essentiel, surtout pour les alignements

multiples calculés, qui représentent souvent la phase suivante.

Les options -a <début_requête> -z <fin_requête>. Ces options permettent

d’introduire la zone intéressante sur la séquence requête. Ainsi seront retenues toutes les séquences

sujettes trouvées ayant une portion commune à la portion de la séquence requête spécifiée par ces

options. La sélection est une sélection partielle. Ces options sont indépendantes l’une de l’autre, il est

possible de ne spécifier qu’une seule des deux. Dans ce cas début_requête est égal à 1 si seule -z

est spécifiée, et fin_requête est égal à la position du dernier acide aminé de la séquence requête si

seule -a est spécifiée. Dans le cas où début_requête est supérieur à fin_requête, les valeurs

de début_requête et de fin_requête sont inversées.

L’option –r <nom_fichier>. Cette option permet d’éliminer la redondance dans la base de

séquences issue de la sélection. Lorsque des séquences sont identiques, un seul exemplaire est gardé,

les autres séquences sont éliminées et écrites dans le fichier spécifié par nom_fichier.

L’option –d <Evalue_ratio>. Cette option permet une sélection par palier. Ainsi il est

possible de créer un échantillon en ne sélectionnant qu’une séquence par palier Evalue_ratio.

Evalue_ratio doit être supérieur à 1. Si le ratio des E-value entre deux séquences est supérieur ou

égal à Evalue_ratio, la deuxième est sélectionnée et sert de référence pour la sélection de la

séquence suivante. Si l’option –s n’est pas spécifiée, toutes les séquences avec une E-value nulle sont

sélectionnées. La première séquence ayant une E-value non nulle est sélectionnée et sert de première

séquence de référence pour la sélection.

L’option –s <seuil_E-value>. Cette option n’est valide que si l’option –d est activée.

Celle-ci introduit le seuil de E-value à partir duquel la sélection par palier débute : toutes les séquences

ayant une E-value inférieure à ce seuil sont sélectionnées. La première séquence ayant une E-value

supérieure ou égale à ce seuil est sélectionnée et sert de première séquence de référence pour la

sélection par palier.

L’option –p <nom_fichier>. Cette option n’est valide que si l’option –d est activée.

Toutes les séquences qui ne sont pas sélectionnées lors de la sélection par palier sont écrites dans ce

fichier.

Toutes ces options sont indépendantes et offrent diverses possibilités de sélection. Les séquences

sélectionnées satisfont toutes les exigences imposées par les options qui sont appelées. Exemples

d’appels à Extracfasta :

Extractfasta –i fichier_fasta –o fichier_result pour UNIX et linux ;

140

WinExFasta.exe –i= fichier_ssearch –o= fichier_result pour Win9X

141

Annexe B : Fonctionnalités d’Extractblast

De même que pour Extracfasta, La ligne de commande « Extractblast –h » appelle la

fonction d’aide (en anglais) qui présente un résumé rapide sur l’emploi des fonctionnalités

disponibles : Usage : Extractfasta

-i [inputfile]

-o [outputfile in FASTA format]

-w [<width format for output file>] default=60

-e [<maximal expect allowed>]

-l [<minimal length allowed>]

-r [<output file>] output file for removed sequences.

-R [<run number for psi-blast input file>]

-s [<frame or strand in query>]

-a [<query start>] -z[<query stop>] define a query range.

-t [<percent>] for StepRatioExtract1_2().

-T [<percent>] for StepExtract().

-h for this help

Les options –i, -o, -w, -r, -e, -l. Elles ne seront pas détaillées puisqu’elles

équivalent à celles d’Extractfasta.

Les options –t, -T . Elles ont été développées essentiellement pour le travail de recherche,

celles-ci permettent une extraction par palier (§2.2.6.2).

L’option –R <numero_run>. Cette option est spécifique au fichier de type PSI-BLAST. Elle

indique le numéro du « run » à partir duquel on souhaite extraire les séquences. Si aucun numéro n’est

spécifier et que le fichier est au format PSI-BLAST, alors le dernier « run » sera automatiquement

sélectionné.

L’option –s <brin_ou_frame>. Cette option est spécifique aux fichiers de type BLASTn,

BLASTx et tBLASTx. Avec BLASTn, l’appel « –s + » ou « –s plus » permet de sélectionner les

séquence sujettes alignées avec la même orientation que la séquence requête. L’appel « –s - » ou

« –s minus » permet de sélectionner les séquences sujettes ayant l’orientation inverse par rapport à

celle de la séquence sujette. Avec les fichiers BLASTx et tBLASTx, il faut spécifier le cadre de lecture

d’intérêt de la séquence requête : l’appel « –s +1 » ou « –s 1 » permettra de sélectionner les

séquences sujettes alignées avec une traduction selon le cadre de lecture +1. A noter que dans ces

types de fichier, il arrive fréquemment que les séquences sujettes trouvées soient présentées selon une

orientation « minus » dans les alignements. Extracblast tient compte de l’orientation et replace la

142

séquence sujette selon son orientation plus. Les séquences dans les fichiers résultats sont toutes

présentées dans leur orientation « plus ».

Les options –a <début_requête> et –z <fin_requête> sont identiques à celles

d’Extractfasta. Cependant il faut apporter certaines précisions. Les positions à préciser à l’aide de ces

options dépendent de la séquence requête. si elle est protéique, il faut donner les postions protéiques.

Si elle est nucléique, il faut donner les positions nucléiques (Table 21). Ceci est un peu particulier pour

les fichiers BLASTx et tBLASTx, puisque la séquence requête est nucléique, mais le fichier résultat

présente des alignements protéiques. Extractblast réalise la conversion : les positions nucléiques sont

converties en positions protéiques. Une correction est apportée si les positions nucléiques entrées ne

sont pas multiples de 3. Dans ce cas la borne inférieure est minorée au multiple de 3 le plus proche. La

borne supérieure est majorée au multiple de 3 le plus proche. Cette phase permet de compléter le

segment nucléique de façon à avoir un segment comptant un nombre de nucléotides multiples de 3 et

donc un nombre d’acides aminés entier.

Table 21 : type des séquences requêtes et sujettes pour chaque type de fichier BLAST.

Comme Extractfasta, les options présentées sont toutes indépendantes. Les séquences sélectionnées

satisfont toutes les exigences imposées à l’aide de ces options. Les conventions d’appel au programme

sont les mêmes que pour Extractblast (ajout d’un signe « = » après les options sous WIN9X,

l’exécutable sous WIN9X est WinExBlast.exe).

Type de fichier BLAST (B)

Séquence requête (positions à fournir)

Séquences sujettes dans le fichier résultat

BP,PSI-B,TBN Protéique ProtéiqueBX,TBX Nucléique Protéique

BN Nucléique Nucléique

143

Annexe C : codes PDB des protéines étudiées. 10mh 11as 14ps 153l 16vp 1a02 1a04 1a0e 1a0i 1a0n 1a0p 1a0r 1a11 1a12

1a13 1a16 1a17 1a1d 1a1m 1a1p 1a1q 1a1r 1a1w 1a22 1a23 1a26 1a28 1a2o

1a2z 1a31 1a34 1a3c 1a3g 1a3k 1a3r 1a40 1a41 1a48 1a49 1a4a 1a4g 1a4i

1a4l 1a4s 1a4t 1a4y 1a53 1a56 1a5a 1a5j 1a5k 1a5r 1a5t 1a63 1a67 1a69

1a6a 1a6c 1a6d 1a6f 1a6i 1a6j 1a6l 1a6q 1a6r 1a71 1a73 1a75 1a79 1a7a

1a7d 1a7j 1a7k 1a7m 1a81 1a82 1a87 1a8h 1a8l 1a8m 1a8r 1a8x 1a8y 1a93

1a95 1a9n 1a9o 1a9x 1aa8 1aar 1ab4 1ab8 1abe 1abr 1abw 1ac5 1aca 1acc

1ad2 1ad3 1ad7 1adn 1adt 1adz 1ae4 1ae9 1aep 1aer 1af0 1af2 1af7 1afh

1afi 1afo 1afr 1afw 1ag9 1agi 1agr 1agx 1ah5 1ah8 1ah9 1ahj 1ahk 1ahu

1ai4 1ai9 1aj0 1aj1 1aja 1aje 1aji 1ajr 1ak0 1ak6 1akh 1akp 1al0 1al3

1al4 1alo 1alu 1am2 1am4 1am7 1amf 1amo 1amp 1amt 1amu 1amx 1an2 1an7

1anp 1aoa 1aoc 1aod 1aoh 1aol 1aom 1aon 1aop 1aot 1aox 1aoz 1ap0 1ap8

1apm 1apn 1aq0 1aq3 1aq6 1aqi 1ar1 1arb 1as1 1as7 1ash 1asy 1at0 1atf

1ati 1atn 1atr 1au1 1aua 1aui 1aun 1auo 1auv 1auw 1auy 1auz 1avc 1avd

1avg 1avo 1avp 1avq 1aw1 1aw7 1aw8 1awc 1awj 1ax4 1ax8 1axc 1axj 1axk

1ay0 1ay1 1ay2 1ayl 1ayx 1az0 1azs 1azy 1b04 1b05 1b0l 1b0n 1b0p 1b0u

1b0z 1b12 1b23 1b24 1b25 1b27 1b29 1b33 1b34 1b35 1b37 1b3m 1b3n 1b3o

1b3q 1b3t 1b3u 1b42 1b43 1b4a 1b4f 1b4g 1b4m 1b4q 1b4u 1b57 1b59 1b5d

1b5t 1b63 1b64 1b65 1b66 1b6b 1b6c 1b6g 1b6r 1b6t 1b6u 1b71 1b72 1b73

1b75 1b77 1b78 1b7a 1b7b 1b7e 1b7g 1b87 1b89 1b8b 1b8d 1b8f 1b8g 1b8i

1b8m 1b8t 1b8w 1b8x 1b90 1b9h 1b9l 1b9n 1b9u 1b9w 1b9x 1ba3 1ba5 1bah

1bai 1bak 1bal 1bam 1baq 1bax 1bb1 1bb8 1bbn 1bbt 1bby 1bc6 1bc9 1bcc

1bcf 1bcm 1bcp 1bcs 1bd3 1bdb 1bdc 1bdf 1bdx 1bdy 1be3 1be9 1bef 1bei

1bev 1bf2 1bfd 1bg1 1bg3 1bg6 1bgl 1bgp 1bgt 1bgx 1bh8 1bhe 1bhi 1bhj

1bht 1bi0 1bi5 1bi6 1bia 1bif 1bih 1bik 1bip 1biq 1bj4 1bj5 1bja 1bjp

1bjq 1bjt 1bjx 1bk0 1bk9 1bkb 1bkc 1bkd 1bkj 1bkq 1bku 1bl1 1bl8 1bla

1ble 1bli 1bll 1bm8 1bml 1bmt 1bmv 1bmy 1bn8 1bnc 1bnk 1bnl 1bo1 1bo4

1bo6 1bo7 1bob 1boe 1boh 1boj 1bol 1boo 1bow 1boy 1bp1 1bp7 1bpo 1bpx

1bqc 1bqf 1bqh 1bqn 1bqq 1bqs 1bqu 1bqv 1br6 1brl 1brm 1bs0 1bs2 1bs4

1bs9 1bsh 1bsl 1bsv 1bsx 1bt1 1bt4 1bt6 1btd 1bte 1btk 1bts 1bu2 1bu6

1buk 1buo 1bus 1buy 1bv8 1bvb 1bvn 1bvp 1bvq 1bvz 1bw0 1bw8 1bwm 1bwp

1bwv 1bwz 1bxd 1bxe 1bxi 1bxl 1bxm 1bxw 1by1 1by2 1by8 1byh 1byk 1byl

1byr 1byt 1byu 1byw 1byy 1bzd 1bzi 1bzk 1c03 1c04 1c05 1c0a 1c0d 1c0m

1c17 1c1f 1c1g 1c1k 1c1z 1c28 1c2a 1c2p 1c39 1c3c 1c3d 1c3m 1c3p 1c3q

1c47 1c4a 1c4h 1c4k 1c4z 1c5e 1c7h 1c7u 1c8z 1c9b 1c9k 1c9u 1ca1 1ca9

1can 1cb7 1cb8 1cbf 1cbk 1cby 1cbz 1cc1 1ccd 1cd1 1cd3 1cd5 1cdd 1cdg

1cdl 1cdm 1cdz 1ce4 1cef 1cel 1cem 1cen 1ceu 1cez 1cf1 1cf4 1cf7 1cf9

1cfb 1cfe 1cff 1cfm 1cfr 1cfs 1cg2 1cg7 1cgm 1ch6 1chc 1chk 1chm 1chr

144

1ci0 1cia 1cid 1cii 1civ 1cja 1cjb 1cjc 1cjd 1cje 1cjx 1cjy 1ck7 1cke

1ckm 1ckq 1ckr 1ckv 1clc 1cli 1clq 1clw 1cm0 1cm5 1cma 1cmk 1cmx 1cn3

1cn4 1cne 1cns 1cnt 1cnv 1coj 1coo 1coy 1coz 1cp3 1cp7 1cpo 1cpt 1cq3

1cqq 1cqt 1cqv 1cqx 1cqz 1cr5 1crk 1csm 1ct5 1ct9 1cts 1cun 1cur 1cv8

1cvi 1cvj 1cvm 1cvr 1cw0 1cw1 1cwp 1cwv 1cww 1cwx 1cx1 1cx8 1cxp 1cy1

1cyf 1cyw 1cz1 1cz4 1cz7 1czf 1czs 1d02 1d09 1d0b 1d0g 1d0k 1d0n 1d0q

1d0s 1d1d 1d1f 1d1q 1d1r 1d2d 1d2f 1d2i 1d2r 1d2s 1d2z 1d3b 1d3y 1d4a

1d4b 1d4t 1d5r 1d5y 1d6j 1d7l 1d7o 1d8b 1d8c 1d8d 1d8h 1d8j 1d8y 1d9e

1d9j 1d9v 1d9x 1dab 1db1 1db3 1dbd 1dbf 1dbg 1dbh 1dbi 1dce 1dcf 1dch

1dci 1dcq 1dcs 1dd1 1dd5 1dd9 1ddc 1ddd 1ddf 1ddm 1ddq 1ddt 1ddz 1de0

1de3 1dek 1deo 1deq 1der 1dew 1df3 1dfa 1dfw 1dfx 1dg3 1dgi 1dgu 1dgy

1dh7 1dhl 1dhn 1dhp 1dhr 1dhs 1dhy 1di6 1dih 1dil 1din 1dio 1diz 1dj0

1dj3 1dj7 1djf 1djg 1djn 1dkg 1dki 1dkr 1dkv 1dkx 1dl2 1dlc 1dli 1dlm

1dlp 1dlx 1dlz 1dm0 1dm9 1dml 1dmu 1dn1 1dn2 1dnv 1dny 1do0 1do8 1doa

1doi 1dom 1dop 1dor 1dp5 1dpb 1dps 1dq8 1dqg 1dqr 1dqs 1dqu 1dqv 1dqw

1dro 1dsr 1dt9 1dth 1dtj 1dto 1du2 1du8 1duj 1dul 1dun 1dv4 1dva 1dvc

1dve 1dvj 1dvk 1dvp 1dw0 1dwa 1dwn 1dx8 1dxx 1dxz 1dyn 1dz1 1dz7 1dzf

1dzl 1dzr 1e0b 1e0d 1e0j 1e0n 1e1c 1e1d 1e1y 1eba 1ebf 1ebg 1ebm 1ebo

1ebt 1ec9 1ecf 1eci 1ecr 1ecx 1ecy 1edg 1edi 1edq 1edu 1ee7 1eee 1ef1

1ef6 1ef8 1efb 1efd 1efg 1efj 1efu 1efv 1efz 1eg0 1eg9 1ega 1egc 1egh

1egl 1egt 1egy 1eh5 1eh6 1ehi 1ehs 1ei1 1ei3 1eia 1eiy 1ej3 1ej4 1ej5

1ejf 1ejh 1ek9 1ekc 1el6 1elq 1em2 1emz 1en7 1eni 1env 1enw 1eo0 1eol

1eps 1eq6 1eqd 1eqf 1eqs 1eqz 1erk 1es0 1esc 1esl 1esp 1ete 1etf 1etp

1eul 1euq 1eut 1euv 1evu 1ew6 1ewi 1ex1 1ex2 1ext 1eza 1ezk 1f15 1f1z

1f52 1fad 1fba 1fbn 1fbr 1fcb 1fcd 1fce 1fct 1fds 1fea 1fep 1fgj 1fgs

1fha 1fhi 1fht 1fin 1fiy 1fji 1flc 1flt 1flx 1fmd 1fmk 1fmt 1fnf 1foh

1fok 1fps 1frf 1fsd 1fsu 1fsz 1ft1 1ftr 1fug 1fui 1fum 1fvp 1fyc 1gab

1gb4 1gba 1gc1 1gca 1gce 1gdi 1gdt 1gff 1gfl 1gky 1gla 1gln 1glv 1gnc

1gnd 1gnk 1gof 1gow 1gp1 1gpc 1gpe 1gpm 1gr2 1grj 1gso 1gtx 1gup 1gux

1gym 1ha0 1hbi 1hcw 1hcy 1hdj 1hei 1hjr 1hkg 1hlg 1hoe 1hpb 1hpc 1hqi

1hre 1hrt 1hst 1htn 1hul 1hur 1hwg 1i16 1iaf 1ial 1iao 1idj 1ife 1ifl

1ifm 1ifp 1iga 1ign 1igr 1ihv 1iie 1iiv 1ikn 1il7 1ilm 1ilp 1ima 1imp

1ina 1inm 1inp 1iob 1ira 1irf 1irl 1irs 1ite 1ixm 1jac 1jda 1jdb 1jdw

1jen 1jer 1jfr 1jkm 1jkw 1jlx 1jmc 1joa 1jot 1joy 1js4 1jsu 1jsw 1jvr

1jwe 1kan 1kb7 1kbp 1kcw 1kdx 1kit 1kjs 1kmm 1koa 1kpt 1kvd 1kwa 1kzu

1lar 1lau 1lba 1lbe 1lbg 1lbs 1lbu 1ldl 1ldt 1lef 1lih 1lim 1ljr 1lmd

1lmk 1lml 1loi 1lox 1lre 1lrv 1lsg 1lt3 1ltr 1lut 1lxa 1lyl 1mab 1mae

1mas 1mbb 1mec 1mek 1mfo 1mg1 1mgt 1mhd 1mhy 1mi2 1mio 1mjh 1mka 1mkc

1mla 1mli 1mlp 1mmh 1mmo 1mms 1mn1 1mol 1mos 1mpr 1mpy 1mro 1msk 1msl

1mud 1mug 1mut 1mxl 1n2c 1nar 1nas 1nba 1nbc 1ncj 1ndl 1ndx 1nf1 1nfi

145

1nfk 1nfn 1ngl 1nlr 1nmt 1noe 1nrn 1nsf 1nst 1nsy 1ntc 1nub 1nuk 1oac

1obr 1occ 1ocr 1oef 1ofg 1oil 1om2 1onr 1ont 1opm 1opr 1ort 1osp 1otc

1otg 1p23 1p32 1p35 1pbw 1pce 1pcf 1pcu 1pdg 1pdo 1pef 1pfk 1pfo 1pfs

1pfx 1pg1 1pgj 1pgn 1phz 1pii 1pin 1pjb 1pjr 1pln 1plq 1plu 1pmi 1pne

1pnf 1poc 1poi 1pov 1pow 1ppr 1prc 1pre 1prh 1prr 1prx 1ps1 1ps2 1psc

1psd 1pse 1psr 1psz 1pto 1pvi 1pvl 1pya 1pyi 1pym 1pyt 1qa7 1qab 1qap

1qax 1qaz 1qb0 1qb7 1qba 1qbc 1qbe 1qbk 1qc6 1qcl 1qcn 1qcr 1qct 1qd1

1qd5 1qdb 1qdd 1qdl 1qdn 1qex 1qey 1qf6 1qf8 1qfc 1qfe 1qfh 1qfj 1qfm

1qfq 1qft 1qfw 1qfx 1qfy 1qg1 1qg3 1qg8 1qg9 1qgc 1qgi 1qgk 1qgn 1qgo

1qgt 1qgv 1qgw 1qgx 1qh3 1qhf 1qhl 1qhs 1qhz 1qi9 1qip 1qiu 1qj2 1qj8

1qjq 1qjs 1qk9 1qki 1qkl 1ql0 1qla 1qle 1qlm 1qlo 1qls 1qlw 1qlx 1qma

1qme 1qmg 1qmh 1qmm 1qmt 1qnf 1qo0 1qo7 1qor 1qou 1qow 1qoy 1qp6 1qp8

1qqe 1qqg 1qqt 1qqv 1qr0 1qr5 1qr7 1qrj 1qrl 1qrn 1qrq 1qrr 1qs0 1qs1

1qs3 1qsa 1qsm 1qsn 1qt2 1qtf 1qtp 1qtr 1qtw 1qu0 1qu2 1qu5 1qu6 1qun

1qup 1quq 1qur 1quu 1qva 1qvc 1qyp 1rdr 1rea 1rec 1reg 1rep 1rfa 1rfs

1rgs 1rh4 1ril 1rl2 1rla 1rlr 1rlx 1rmd 1rmg 1rot 1rp1 1rpb 1rpj 1rpr

1rpx 1rrp 1rss 1rsy 1rtu 1rux 1rvv 1ryp 1scc 1sce 1scg 1scu 1ser 1sfc

1sft 1shc 1shk 1sid 1sig 1skn 1sli 1slm 1sml 1smt 1smv 1snp 1sox 1spf

1spi 1spp 1ssn 1ssr 1stm 1svb 1svp 1sw6 1t7p 1tbd 1tc3 1tce 1tdj 1tf6

1tfr 1tgo 1thr 1tht 1tia 1tii 1tmf 1tmo 1tns 1tof 1tol 1tpg 1trr 1tsg

1tsr 1tub 1tul 1tvs 1twp 1tya 1tyf 1ubp 1ucy 1uok 1uox 1uro 1ush 1vcb

1vcc 1vfr 1vhh 1vhr 1vid 1vie 1vig 1vmo 1vnc 1vok 1vpc 1vpp 1vpu 1vsg

1vtk 1vtp 1wai 1wbc 1wbr 1wct 1wer 1wgi 1wio 1wjb 1wkt 1wtu 1wwc 1x11

1xat 1xbr 1xer 1xna 1xo1 1xpa 1xsm 1xyf 1yac 1ycp 1ycq 1ycr 1ycs 1ylv

1yrg 1yst 1ytf 1ytn 1yua 1yub 1zfj 1znb 1zpd 1zug 1zxq 262l 2a0b 2abk

2ahj 2ak3 2ant 2ap2 2arc 2arn 2azo 2bb2 2bbk 2bbm 2bbv 2bce 2bct 2bid

2bos 2bpa 2btb 2btf 2btv 2c17 2cav 2cbl 2cpg 2crx 2cua 2cut 2dap 2dhq

2dld 2dpm 2ebn 2eze 2ezi 2ezm 2fcb 2ffh 2fmr 2fua 2g3p 2gap 2gat 2gli

2gmf 2gsa 2hdc 2hdh 2hgs 2hmx 2hpd 2hrv 2iad 2ilk 2jhb 2lbp 2lfb 2mlp

2msh 2mta 2mys 2nad 2nef 2nll 2nmb 2nmt 2nr1 2pcd 2pia 2pld 2por 2prd

2pth 2rap 2rmc 2rmp 2sas 2scp 2seb 2shp 2sqc 2tbv 2tdt 2thi 2tld 2tps

2tys 2ucz 2up1 2vsg 2wpo 3bta 3cbh 3dpa 3eng 3hts 3itr 3kvt 3ldh 3lri

3lyn 3mra 3msp 3nla 3pgk 3prg 3pva 3rhn 3std 3tmk 3ygs 4bcl 4dpv 4gat

4nos 4pro 4sod 5acn 5eat 5r1r 6cmh 6ins 6pax 7mdh 7odc 8tfv 9gaf

146

Annexe D : URLs

URL 1 SWISS-PROT http://www.embl-ebi.ac.uk/dali/domain/

URL 2 EMBL nucleotide

database http://www.ebi.ac.uk/embl/

URL 3 CluSTr http://www.ebi.ac.uk/clustr

URL 4 Protein Information

Ressources http://www.nbrf.georgetown.edu/pir

URL 5 PROSITE http://www.expasy.ch/prosite/

URL 6 ProDom http://protein.toulouse.inra.fr/prodom/doc/prodom.html

URL 7 Pfam http://www.sanger.ac.uk/Pfam/

URL 8 DOMO http://www.infobiogen.fr/~gracy/domo

URL 9 PRINTS http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html

URL 10 InterPro http://www.ebi.ac.uk/interpro/

URL 11 MetaFam http://metafam.ahc.umn.edu/

URL 12 Blocks http://www.blocks.fhcrc.org/

URL 13 PDB http://www.rcsb.org/PDB/

URL 14 SCOP http://scop.mrc-lmb.cam.ac.uk/scop/

URL 15 CATH http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html

URL 16 FSSP http://www2.ebi.ac.uk/dali/fssp/fssp.html

URL 17 DaliDD http://www.embl-ebi.ac.uk/dali/domain/

URL 18 DALI (Figure 4) http://www.ebi.ac.uk/dali/domain/3.1beta/Help.html

URL 19 PALI http://pauling.mbu.iisc.ernet.in/~pali

URL 20 HOMSTRAD http://www-cryst.bioc.cam.ac.uk/homstrad/

http://www.embl-ebi.ac.uk/dali/domain/

http://www.ebi.ac.uk/embl/

http://www.ebi.ac.uk/clustr

http://www.nbrf.georgetown.edu/pir

http://www.expasy.ch/prosite/

http://protein.toulouse.inra.fr/prodom/doc/prodom.html

http://www.sanger.ac.uk/Pfam/

http://www.infobiogen.fr/~gracy/domo

http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html

http://www.ebi.ac.uk/interpro/

http://metafam.ahc.umn.edu/

http://www.blocks.fhcrc.org/

http://www.rcsb.org/pdb/

http://scop.mrc-lmb.cam.ac.uk/scop/

http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html

http://www2.ebi.ac.uk/dali/fssp/fssp.html

http://www.embl-ebi.ac.uk/dali/domain/

http://www.ebi.ac.uk/dali/domain/3.1beta/Help.html

http://pauling.mbu.iisc.ernet.in/~pali

http://www-cryst.bioc.cam.ac.uk/homstrad/

147

URL 21 MODBASE http://guitar.rockefeller.edu/modbase/

URL 22 CAMPASSE http://www-cryst.bioc.cam.ac.uk/~campass/

URL 23 DBcat http://www.infobiogen.fr/services/dbcat/

URL 24 Mktclapp homepage http://www.hawci.com/sw/mktclapp/

URL 25 DAPS http://siren.bio.indiana.edu/daps

URL 26 Page personnelle http://user-pbil.ibcp.fr/~errami/

URL 27 : matrices SDM, HSDM http://www.came.sbg.ac.at/Services/MATRICES/matrices.html

URL 28 : Serveur NPS@ http://npsa-pbil.ibcp.fr/

URL 29 : HCVDB http://hepatitis.ibcp.fr

URL 30 : échelles physico-chimiques http://www.expasy.ch/cgi-bin/protscale.pl

URL 31 : Geno3D http://geno3-pbil.ibcp.fr

http://guitar.rockefeller.edu/modbase/

http://www-cryst.bioc.cam.ac.uk/~campass/

http://www.infobiogen.fr/services/dbcat/

http://www.hawci.com/sw/mktclapp/

http://siren.bio.indiana.edu/daps

http://user-pbil.ibcp.fr/~errami/

148

P1 Altschul SF ; Amino acid substitution matrices from an information theoretic perspective. J Mol Biol. 219:555-65 (1991).

P2 Altschul SF, Gish W ; Local alignment statistics. Methods in Enzymology 266:460-80 (1996).

P3 Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ ; Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402 (1997).

P4 Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM ; InterPro--an integrated documentation resource for protein families, domains and functional sites. Bioinformatics 16:1145-50 (2000).

P5 Apweiler R, Biswas M, Fleischmann W, Kanapin A, Karavidopoulou Y, Kersey P, Kriventseva EV, Mittard V, Mulder N, Phan I, Zdobnov E; Proteome Analysis Database: online application of InterPro and CluSTr for the functional classification of proteins in whole genomes. Nucleic Acids Res. 29 :44-8 (2001).

P6 Argos P, Rao JK, Hargrave PA. ; Structural prediction of membrane-bound proteins. Eur J Biochem. 128:565-75 (1982).

P7 Attwood TK, Croning MD, Flower DR, Lewis AP, Mabey JE, Scordis P, Selley JN, Wright W ; PRINTS-S: the database formerly known as PRINTS. Nucleic Acids Res. 28:225-7 (2000).

P8 Bahr A, Thompson JD, Thierry JC, Poch O ; BAliBASE (Benchmark Alignment dataBASE): enhancements for repeats, transmembrane sequences and circular permutations. Nucleic Acids Res. 29:323-6 (2001).

P9 Bairoch A ; The ENZYME database in 2000. Nucleic Acids Res. 28:304-5 (2000).

P10 Bairoch A, Apweiler R ; The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res. 28 :45-48 (2000).

P11 Balaji S, Sujatha S, Kumar SS, Srinivasan N ; PALI-a database of Phylogeny and ALIgnment of homologous protein structures. Nucleic Acids Res. 29:61-5 (2001).

P12 Barker WC, Garavelli JS, Hou Z, Huang H, Ledley RS, McGarvey PB, Mewes HW, Orcutt BC, Pfeiffer F, Tsugita A, Vinayaka CR, Xiao C, Yeh LS, Wu C ; Protein Information Resource: a community resource for expert annotation of protein data. Nucleic Acids Res. 29:29-32 (2001).

P13 Barker WC, Pfeiffer F, George DG ; Superfamily classification in the PIR-International Protein Sequence Database, Methods in Enzymology 266:59-71 (1996).

P14 Baron M, Norman DG, Campbell ID ; Protein modules. Trends Biochem Sci. 16:13-7 (1991).

P15 Barton GJ, Sternberg MJ; A strategy for the rapid multiple alignment of protein sequences. Confidence levels from tertiary structure comparisons. J Mol Biol. 198:327-37 (1987).

P16 Bateman A, Birney E, Durbin R, Eddy SR, Howe KL, Sonnhammer EL ; The Pfam protein families database. Nucleic Acids Res. 28:263-6 (2000).

149

P17 Baxevanis AD, Ouellette BFF ; Bioinformatics : A Practical Guide to the Analysis of Gens and Proteins. Methods of bioligical analysis, volume 38. Ed : Wiley-Liss (1998).

P18 Berger B, Singh M ; An iterative method for improved protein structural motif recognition. J Comput Biol. 4:261-73 (1997).

P19 Berger B, Wilson DB, Wolf E, Tonchev T, Milla M, Kim PS ; Predicting coiled coils by use of pairwise residue correlations. Proc Natl Acad Sci U S A. 92:8259-63(1995).

P20 Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE ; The Protein Data Bank. Nucleic Acids Res. 28:235-42 (2000).

P21 Bhat TN, Bourne P, Feng Z, Gilliland G, Jain S, Ravichandran V, Schneider B, Schneider K, Thanki N, Weissig H, Westbrook J, Berman HM ; The PDB data uniformity project. Nucleic Acids Res. 29:214-8 (2001).

P22 Blanchet C ; Logiciel MPSA et ressources bioinformatiques client-serveur Web dédiés à l’analyse de séquences de protéine (1999). Thèse : 139-99 Université Claude Bernard Lyon 1, France.

P23 Blanchet C, Combet C, Geourjon C, Deleage G ; MPSA: integrated system for multiple protein sequence analysis with client/server capabilities. Bioinformatics. 16:286-7 (2000).

P24 Blundell TL, Sibanda BL, Sternberg MJ, Thornton JM ; Knowledge-based prediction of protein structures and the design of novel molecules. Nature. 326:347-52 (1987).

P25 Bourne PE, Helen M. Berman MH, Brian McMahon B, Keith D.Watenpaugh KD, John WestbrookJ, Paula M.D.Fitzgerald PMD ; The Macromolecular Crystallographic Information File (mmCIF). Methods in Enzymology 277:571-590 (1997).

P26 Bowie JU, Luthy R, Eisenberg D. ; A method to identify protein sequences that fold into a known three-dimensional structure. Science 253:164-70 (1991).

P27 Briffeuil P, Baudoux G, Lambert C, De Bolle X, Vinals C, Feytmans E, Depiereux E ; Comparative analysis of seven multiple protein sequence alignment servers: clues to enhance reliability of predictions. Bioinformatics. 14:357-66 (1998).

P28 Bryant SH, Lawrence CE ; An empirical energy function for threading protein sequence through the folding motif. Proteins. 16:92-112(1993).

P29 Burley SK, Petsko GA ; Aromatic-aromatic interaction: a mechanism of protein structure stabilization. Science 229:23-8 (1985).

P30 Chothia C, Lesk AM ; The relation between the divergence of sequence and structure in proteins. EMBO J. 5:823-6 (1986).

P31 Chothia C ; Proteins. One thousand families for the molecular biologist. Nature. 357:543-4 (1992).

P32 Chou PY, Fasman GD ; Prediction of the secondary structure of proteins from their amino acid sequence. Adv Enzymol Relat Areas Mol Biol. 47:45-148 (1978).

P33 Codani JJ, Glemet E ; Parallelism in LASSAP, a large scale sequence comparison package. Proceedings of HPCN95 Conference, Milan. Lecture Notes in Computer Sciences, 919 :787-792 (1995).

150

P34 Colloc'h N, Etchebest C, Thoreau E, Henrissat B, Mornon JP ; Comparison of three algorithms for the assignment of secondary structure in proteins: the advantages of a consensus assignment. Protein Eng. 6:377-82 (1993).

P35 Combet C ; HCVDB : une base de données de séquences du virus de l'hépatite C interconnectée au Webiciel NPS@ d'outils bioinformatiques d'analyses de séquences et de structures. (2001). Thèse. Université Denis Diderot, Paris 7, France.

P36 Combet C, Blanchet C, Geourjon C, Deleage G ; NPS@: network protein sequence analysis. Trends Biochem Sci. 25:147-50 (2000).

P37 Corpet F ; Multiple sequence alignment with hierarchical clustering. Nucleic Acids Res. 16:10881-90 (1988).

P38 Corpet F, Servant F, Gouzy J, Kahn D ; ProDom and ProDom-CG: tools for protein domain analysis and whole genome comparisons. Nucleic Acids Res. 28:267-9 (2000).

P39 Costanzo MC, Hogan JD, Cusick ME, Davis BP, Fancher AM, Hodges PE, Kondu P, Lengieza C, Lew-Smith JE, Lingner C, Roberg-Perez KJ, Tillberg M, Brooks JE, Garrels JI ; The yeast proteome database (YPD) and Caenorhabditis elegans proteome database (WormPD) : comprehensive resources for the organization and comparison of model organism protein information. Nucleic Acids Res. 28:73-6 (2000).

P40 Dayoff MO, Schwartz RM, Orcutt BC ; A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure, ed. (Washington DC, : National Biomedical Research Foundation) Vol 5., Suppl. 2, 345-52.

P41 Deitel et Deitel ; Comment programmer en C++. Ed : Rynald Goulet (1998).

P42 Deleage G, Combet C, Blanchet C, Geourjon C ; ANTHEPROT: an integrated protein sequence analysis software with client/server capabilities. Comput Biol Med. 31:259-67 (2001).

P43 Deleage G, Roux B ; An algorithm for protein secondary structure prediction based on class prediction. Protein Eng. 1:289-94 (1987).

P44 Dietmann S, Park J, Notredame C, Heger A, Lappe M, Holm L ; A fully automatic evolutionary classification of protein folds: Dali Domain Dictionary version 3. Nucleic Acids Res. 29:55-7 (2001).

P45 Dill KA, Fiebig KM, Chan HS ; Cooperativity in protein-folding kinetics. Proc Natl Acad Sci. U S A. 90:1942-6 (1993).

P46 Dodd IB, Egan JB ; Improved detection of helix-turn-helix DNA-binding motifs in protein sequences. Nucleic Acids Res. 18:5019-26 (1990).

P47 Doolittle RF ; Similar amino acid sequences: chance or common ancestry? Science 214:149-59 (1981).

P48 Doolittle RF, Bork P ; Evolutionarily mobile modules in proteins. Sci Am. 269:50-6 (1993).

P49 Eddy SR ; Multiple alignment using hidden Markov models. Proc Int Conf Intell Syst Mol Biol. 3:114-20 (1995).

P50 Etzold T, Ulyanov A, Argos P ; SRS: information retrieval system for molecular biology data banks. Methods in Enzymology 266:114-28 (1996).

151

P51 Feng DF, Doolittle RF ; Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25:351-60 (1987).

P52 Fiser A, Simon I, Barton GJ ; Conservation of amino acids in multiple alignments: aspartic acid has unexpected conservation. FEBS Lett. 397:225-9 (1996).

P53 Fiser A, Simon I; Predicting the oxidation state of cysteines by multiple sequence alignment. Bioinformatics 16:251-6 (2000).

P54 Fitch, WM ; Random sequences. J. Mol. Biol. 163:171-176 (1983).

P55 Fleischman W, Moeller S, Gateau A, Apweiler R ; A novel method for automatic functional annotation of proteins. Bioinformatics 15 :228-33 (1999).

P56 Fleischmann W, Moller S, Gateau A, Apweiler R ; A novel method for automatic functional annotation of proteins. Bioinformatics 15:228-33 (1999).

P57 Friedberg I, Kaplan T, Margalit H ; Evaluation of PSI-BLAST alignment accuracy in comparison to structural alignments. Protein Sci. 9:2278-84 (2000).

P58 Frishman D, Argos P ; Incorporation of non-local interactions in protein secondary structure prediction from the amino acid sequence. Protein Eng. 9:133-42 (1996).

P59 Frishman D, Argos P ; Knowledge-based protein secondary structure assignment. Proteins. 23:566-79 (1995).

P60 Garavelli JS ; The RESID Database of protein structure modifications. Nucleic Acids Res. 27:198-9 (1999).

P61 Garavelli JS, Hou Z, Pattabiraman N, Stephens RM ; The RESID Database of protein structure modifications and the NRL-3D Sequence-Structure Database. Nucleic Acids Res. 29:199-201 (2001).

P62 Garnier J, Gibrat JF, Robson B. GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266:540-53 (1996).

P63 Garnier J, Osguthorpe DJ, Robson B ; Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J Mol Biol. 120:97-120 (1978).

P64 Geourjon C, Combet C, Blanchet C, Deleage G ; Identification of related proteins with weak sequence identity using secondary structure information. Protein Sci. 10:788-97 (2001).

P65 Geourjon C, Deleage G ; SOPM: a self-optimized method for protein secondary structure prediction. Protein Eng. 7:157-64 (1994).

P66 Geourjon C, Deleage G ; SOPMA: significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. Comput Appl Biosci. 11:681-4 (1995).

P67 Glemet E ,Codani JJ ; Lassap : a large scale sequence comparison package. Comp. Appl. Biosci., 13 :137-143 (1997).

152

P68 Gotoh O ; Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol. 264:823-38 (1996).

P69 Gouy M, Gautier C, Attimonelli M, Lanave C, di Paola G ; ACNUC--a portable retrieval system for nucleic acid sequence databases: logical and physical designs and usage. Comput Appl Biosci. 1:167-72 (1985).

P70 Gracy J, Argos P ; Automated protein sequence database classification. II. Delineation Of domain boundaries from sequence similarities. Bioinformatics 14:174-87 (1998).

P71 Gribskov M, Veretnik S ; Identification of sequence pattern with profile analysis. Methods Enzymol. 266:198-212 (1996).

P72 Guermeur Y ; Combinaison de classifieurs statistiques, application à la prédiction de la structure secondaire des protéines. Thèse de doctorat de l’Université Paris 6, Paris (1997).

P73 Guermeur Y, Geourjon C, Gallinari P, Deleage G ; Improved performance in protein secondary structure prediction by inhomogeneous score combination. Bioinformatics. 15:413-21 (1999).

P74 Gupta SK, Kececioglu JD, Schaffer AA ; Improving the practical space and time efficiency of the shortest-paths approach to sum-of-pairs multiple sequence alignment. J Comput Biol. 2:459-72 (1995).

P75 Guy HR ; Amino acid side-chain partition energies and distribution of residues in soluble proteins. Biophys J. 47:61-70 (1985).

P76 Harrison M, McLennan M ;Effective Tcl/Tk programming : writing better programs with Tcl and Tk. Ed : Addison Wesley (1998).

P77 Henikoff JG, Greene EA, Pietrokovski S, Henikoff S ; Increased coverage of protein families with the blocks database servers. Nucleic Acids Res. 28:228-30 (2000).

P78 Henikoff JG, Henikoff S ; Blocks database and its applications. Methods in Enzymology 266:88-105 (1996).

P79 Henikoff S, Henikoff JG ; Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A. 89:10915-9 (1992).

P80 Henikoff S, Henikoff JG ; Amino acid substitution matrices. Adv Protein Chem. 54:73-97 (2000).

P81 Henikoff S, Henikoff JG ; Performance evaluation of amino acid substitution matrices. Proteins 17:49-61 (1993).

P82 Henikoff S, Henikoff JG, Pietrokovski S ; Blocks+: A non-redundant database of protein alignment blocks dervied from multiple compilations. Bioinformatics 15:471-9 (1999).

P83 Hertz GZ, Stormo GD ; Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. Bioinformatics. 15:563-77 (1999).

P84 Hodges PE, McKee AH, Davis BP, Payne WE, Garrels JI ;The Yeast Proteome Database (YPD): a model for the organization and presentation of genome-wide functional data. Nucleic Acids Res. 27:69-73 (1999)

153

P85 Hofmann K, Bucher P, Falquet L, Bairoch A ; The PROSITE database, its status in 1999. Nucleic Acids Res. 27:215-219 (1999).

P86 Hofmann K, Bucher P, Falquet L, Bairoch A ; The PROSITE database, its status in 1999. Nucleic Acids Res. 27:215-9 (1999).

P87 Holm L and Sander C ; Mapping the protein universe. Science 273:595-602 (1996).

P88 Holm L, Sander C ; Dictionary of recurrent domains in protein structures. Proteins 1998 33:88-96 (1998b).

P89 Holm L, Sander C ; Touring protein fold space with Dali/FSSP. Nucleic Acids Res. 26:316-9 (1998).

P90 Hopp TP, Woods KR ; A computer program for predicting protein antigenic determinants. Mol Immunol. 20:483-9 (1983).

P91 Horovitz A, Serrano L, Avron B, Bycroft M, Fersht AR ; Strength and co-operativity of contributions of surface salt bridges to protein stability. J Mol Biol. 216:1031-44 (1990).

P92 Hu Z, Ma B, Wolfson H, Nussinov R ; Conservation of polar residues as hot spots at protein interfaces. Proteins 39:331-42 (2000).

P93 Huang H, Xiao C, Wu CH ; ProClass protein family database. Nucleic Acids Res. 28:273-6 (2000).

P94 Iwaasa,H.; Takagi,T.; Shikama,K.; Protozoan myoglobin from Paramecium caudatum. Its unusual amino acid sequence. J. Mol. Biol. 208 :355-8 (1989)

P95 Johnson G, Wu TT ; Kabat Database and its applications: future directions. Nucleic Acids Res. 29:205-6 (2001).

P96 Johnson MS, Overington JP ; A structural basis for sequence comparisons. An evaluation of scoring methodologies. J Mol Biol. 233:716-38 (1993).

P97 Jones DT, Tress M, Bryson K, Hadley C ; Successful recognition of protein folds using threading methods biased by sequence similarity and predicted secondary structure. Proteins. 37:104-111 (1999).

P98 Jones TA, Thirup S ; Using known substructures in protein model building and crystallography. EMBO J. 5:819-22 (1986).

P99 Kallberg Y, Persson B ; KIND-a non-redundant protein database. Bioinformatics 15:260-1 (1999).

P100 Karlin S, Altschul SF ; Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A. 87:2264-8 (1990).

P101 Karplus K, Hu B ; Evaluation of protein multiple alignments by SAM-T99 using the BAliBASE multiple alignment test set. Bioinformatics. 17:713-20 (2001).

P102 Kawabata T, Ota M, Nishikawa K ; The protein mutant database. Nucleic Acids Res. 27:355-7 (1999).

154

P103 Kellis JT Jr, Nyberg K, Fersht AR ; Energetics of complementary side-chain packing in a protein hydrophobic core. Biochemistry 28:4914-22 (1989).

P104 Kernighan BW, Ritchie DM ; Le langage C. Ed : Masson (1992).

P105 King RD, Saqi M, Sayle R, Sternberg MJ. DSC: public domain protein secondary structure predication. Comput Appl Biosci. 13:473-4 (1997).

P106 Koshi JM, Goldstein RA ; Context-dependent optimal substitution matrices. Protein Eng. 8:641-5 (1995).

P107 Krinventseva EV, Fleischmann W, Zdobnov EM, Apweiler R ; CluSTr : a database of clusters of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res. 29:33-6 (2000).

P108 Kyte J, Doolittle RF ; A simple method for displaying the hydropathic character of a protein. J Mol Biol. 157:105-32 (1982).

P109 Labesse G, Colloc'h N, Pothier J, Mornon JP ; P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. Comput Appl Biosci. 13:291-5 (1997).

P110 Labesse G, Colloc'h N, Pothier J, Mornon JP. P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. Comput Appl Biosci. ;13:291-5 (1997).

P111 Ladunga I, Smith RF ; Amino acid substitutions preserve protein folding by conserving steric and hydrophobicity properties. Protein Eng. 10:187-96 (1997).

P112 Lamarine M ; Prédiction du repliement peptidiqu grâce aux invariants structuraux de protéines homologues (2001). Thèse. Université Pierre et Marie Curie, Paris 6, France.

P113 Lawrence C, Auger I, Mannella C ; Distribution of accessible surfaces of amino acids in globular proteins. Proteins 2:153-61 (1987).

P114 Lee B, Richards FM ; The interpretation of protein structures: estimation of static accessibility. J Mol Biol. 55:379-400 (1971).

P115 Lefranc MP ; IMGT, the international ImMunoGeneTics database. Nucleic Acids Res. 29:207-9 (2001).

P116 Lesk AM, Chothia C ; How different amino acid sequences determine similar protein structures: the structure and evolutionary dynamics of the globins. J Mol Biol. 136:225-70 (1980).

P117 Levin JM, Garnier J ; Improvements in a secondary structure prediction method based on a search for local sequence homologies and its use as a model building tool. Biochim Biophys Acta. 955:283-95 (1988).

P118 Levin JM, Robson B, Garnier J ; An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Letters 205:303-308 (1986).

P119 Levitt M ; Accurate modeling of protein conformation by automatic segment matching. J Mol Biol. 226:507-33 (1992).

P120 Levitt M ; A simplified representation of protein conformations for rapid simulation of protein folding. J. Mol. Biol., 104:59-107 (1976).

155

P121 Liberty J, Hord M ; Le langage C++. Collection "le programmeur". Ed : S&SM (1998).

P122 Lipman DJ, Altschul SF, Kececioglu JD ; A tool for multiple sequence alignment. Proc Natl Acad Sci U S A. 86:4412-5 (1989).

P123 Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C ; SCOP: a structural classification of proteins database. Nucleic Acids Res. 28:257-9 (2000).

P124 Lupas A, Van Dyke M, Stock J ; Predicting coiled coils from protein sequences. Science. 252:1162-4 (1991).

P125 Markiewicz P, Kleina LG, Cruz C, Ehret S, Miller JH ; Genetic studies of the lac repressor. XIV. Analysis of 4000 altered Escherichia coli lac repressors reveals essential and non-essential residues, as well as "spacers" which do not require a specific sequence. J Mol Biol. ;240:421-33 (1994).

P126 Matsumura M, Yahanda S, Yasumura S, Yutani K, Aiba S ; Role of tyrosine-80 in the stability of kanamycin nucleotidyltransferase analyzed by site-directed mutagenesis. Eur J Biochem. 1988 171:715-20 (1988).

P127 Mizuguchi K, Deane CM, Blundell TL, Overington JP ; HOMSTRAD: a database of protein structure alignments for homologous families. Protein Sci. 7:2469-71 (1998).

P128 Morgenstern B, Frech K, Dress A, Werner T ; DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics. 14:290-4 (1998).

P129 Muchielli-Giorgi MH ; Analyse et prédiction des contacts entre les chaînes latérales des protéines (1999). Thèse. Université Denis Diderot, Paris 7, France.

P130 Musafia B, Buchner V, Arad D ; Complex salt bridges in proteins: statistical analysis of structure and function. J Mol Biol. 254:761-70 (1995).

P131 Needleman SB, Wunsch CD ; A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 48:443-453 (1970).

P132 Nielsen H, Brunak S, von Heijne G ; Machine learning approaches for the prediction of signal peptides and other protein sorting signals. Protein Eng. 12:3-9 (1999).

P133 Notredame C ; Recent progress in multiple sequence alignment: a survey. Pharmacogenomics. 3:131-44 (2002).

P134 Notredame C, Higgins DG, Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol. 302:205-17 (2000).

P135 Notredame C, Higgins DG; SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res. 24:1515-24 (1996).

P136 Notredame C, Holm L, Higgins DG ; COFFEE: an objective function for multiple sequence alignments. Bioinformatics. 14:407-22 (1998).

P137 O’Donovan C, Martin MJ, Glemet E, Codani JJ, Apweiler R ; Removing redundancy in SWISS-PROT and TrEMBL. Bioinformatics 15 :258-59 (1999).

156

P138 O'Donovan C., Apweiler R., Bairoch A.; The human proteomics initiative (HPI). Trends Biotechnol. 19:178-81 (2001).

P139 Orengo CA, Pearl FM, Bray JE, Todd AE, Martin AC, Lo Conte L, Thornton JM ; The CATH Database provides insights into protein structure/function relationships. Nucleic Acids Res. 27:275-9 (1999).

P140 Pal D, Chakrabarti P ; On residues in the disallowed region of the Ramachandran map. Biopolymers 63:195-206 (2002).

P141 Palm CJ, Federspiel NA, Davis RW ; DAtA: database of Arabidopsis thaliana annotation. Nucleic Acids Res. 28:102-3 (2000).

P142 Pan XM ; Multiple linear regression for protein secondary structure prediction. Proteins. 43:256-9 (2001).

P143 Parker JM, Guo D, Hodges RS ; New hydrophilicity scale derived from high-performance liquid chromatography peptide retention data: correlation of predicted surface residues with antigenicity and X-ray-derived accessible sites. Biochemistry. 25:5425-32 (1986).

P144 Pascarella S, Argos P ; Analysis of insertions/deletions in protein structures. J Mol Biol. ;224:461-71 (1992).

P145 Pauling L, Corey RB ; The structures of proteins : two hydrogen-bonded helical configurations of the polypeptide chain. Proc Natl Acad Sci USA 37:205-11 (1951).

P146 Pearl FM, Martin N, Bray JE, Buchan DW, Harrison AP, Lee D, Reeves GA, Shepherd AJ, Sillitoe I, Todd AE, Thornton JM, Orengo CA ; A rapid classification protocol for the CATH Domain Database to support structural genomics. Nucleic Acids Res. 29:223-7 (2001).

P147 Pearson WR ; Comparison of metnods for searching protein sequences databases. Protein Science 4:1145-1160 (1995).

P148 Pearson WR ; Rapid and Sensitive Sequence Comparison with FASTP and FASTA. Methods in Enzymology183:63- 98 (1990).

P149 Pearson WR, Lipman DJ ; Improved Tools for Biological Sequence Analysis. Proc Natl Acad Sci U S A 85:2444- 2448 (1988).

P150 Pei J, Grishin NV ; AL2CO: calculation of positional conservation in a protein sequence alignment. Bioinformatics. 17:700-12 (2001).

P151 Pervushin K, Riek R, Wider G, Wuthrich K ; Attenuated T2 relaxation by mutual cancellation of dipole-dipole coupling and chemical shift anisotropy indicates an avenue to NMR structures of very large biological macromolecules in solution. Proc. Natl. Acad. Sci. 94:12366-71 (1997).

P152 Poupon A, Mornon JP ; Populations of hydrophobic amino acids within protein globular domains: identification of conserved "topohydrophobic" positions. Proteins 33:329-42 (1998).

P153 Prlic A, Domingues FS, Sippl MJ ; Structure-derived substitution matrices for alignment of distantly related sequences. Protein Eng. 13:545-50 (2000).

P154 Ramachandran GN, Sasisekharan V ; Conformation of polypeptides and proteins. Adv Protein Chem. 23:283-438 (1968).

157

P155 Rennell D, Bouvier SE, Hardy LW, Poteete AR ; Systematic mutation of bacteriophage T4 lysozyme. J Mol Biol. 222:67-88 (1991).

P156 Richards FM, Kundrot CE ; Identification of structural motifs from protein coordinate data: secondary structure and first-level supersecondary structure. Proteins. 3:71-84 (1988).

P157 Riek R, Wider G, Pervushin K, Wuthrich K ; Polarization transfer by cross-correlated relaxation in solution NMR with very large molecules. Proc. Natl. Acad. Sci. 96:4918-23 (1999).

P158 Rost B ; TOPITS: threading one-dimensional predictions into three-dimensional structures. Proc Int Conf Intell Syst Mol Biol. 3:314-21 (1995).

P159 Rost B ; Twilight zone of protein sequence alignments. Protein Eng. 12:85-94 (1999).

P160 Rost B, Sander C, Schneider R ; PHD--an automatic mail server for protein secondary structure prediction. Comput Appl Biosci. 10:53-60 (1994).

P161 Rost B, Sander C, Schneider R ; Redefining the goals of protein secondary structure prediction. J Mol Biol. 235:13-26 (1994).

P162 Rubin GM, Yandell MD, Wortman JR, Gabor Miklos GL, Nelson CR, Hariharan IK, Fortini ME, Li PW, Apweiler R, Fleischmann WCherry JM, Henikoff S, Skupski MP, Misra S, Ashburner M, Birney E, Boguski MS, Brody T, Brokstein P, Celniker SE, Chervitz SA, Coates D, Cravchik A, Gabrielian A, Galle RF, Gelbart WM, George RA, Goldstein LS, Gong F, Guan P, Harris NL, Hay BA, Hoskins RA, Li J, Li Z, Hynes RO, Jones SJ, Kuehl PM, Lemaitre B, Littleton JT, Morrison DK, Mungall C, O'Farrell PH, Pickeral OK, Shue C, Vosshall LB, Zhang J, Zhao Q, Zheng XH, Lewis S ; Comparative genomics of the eukaryotes. Science 287:2204-15 (2000).

P163 Russell RB, Barton GJ ; Structural features can be unconserved in proteins with similar folds. An analysis of side-chain to side-chain contacts secondary structure and accessibility. J Mol Biol. 244:332-50 (1994).

P164 Sali A, Overington JP ; Derivation of rules for comparative protein modeling from a database of protein structure alignments. Protein Sci. 3:1582-96 (1994).

P165 Sali D, Bycroft M, Fersht AR ; Surface electrostatic interactions contribute little of stability of barnase. J Mol Biol. 220:779-88 (1991).

P166 Sanchez R, Pieper U, Mirkovic N, de Bakker PI, Wittenstein E, Sali A ; MODBASE, a database of annotated comparative protein structure models. Nucleic Acids Res. 28:250-3 (2000).

P167 Schueler O, Margalit H ; Conservation of salt bridges in protein families. J Mol Biol. 248:125-35 (1995).

P168 Shoop E, Silverstein KA, Johnson JE, Retzel EF ; MetaFam: a unified classification of protein families. II. Schema and query capabilities. Bioinformatics 17:262-71 (2001).

P170 Shpaer EG, Robinson M, Yee D, Candlin JD, Mines R, Hunkapiller ; Sensitivity and selectivity in protein similarity searches: a comparison of Smith-Waterman in hardware to BLAST and FASTA. Genomics 38:179-91 (1996).

P171 Silverstein KA, Shoop E, Johnson JE, Retzel EF ; MetaFam: a unified classification of protein families. I. Overview and statistics. Bioinformatics 17:249-61 (2001b).

158

P172 Sklenar H, Etchebest C, Lavery R ; Describing protein structure: a general algorithm yielding complete helicoidal parameters and a unique overall axis. Proteins. 6:46-60 (1989).

P173 Smith RF, Smith TF ; Pattern-induced multi-sequence alignment (PIMA) algorithm employing secondary structure-dependent gap penalties for use in comparative protein modelling. Protein Eng. 5:35-41 (1992).

P174 Smith TF, Waterman MS ; Identification of common molecular subsequences. J Mol Biol. 147:195-7 (1981)

P175 Smith TF, Waterman MS ; Identification of common molecular subsequences. J Mol Biol. 147:195-7 (1981).

P176 Sneath PHA and Sokal RR; Numerical Taxonomy ; W.H Freeman and company, San Francisco, California,USA, (1973).

P177 Sowdhamini R, Burke DF, Huang JF, Mizuguchi K, Nagarajaram HA, Srinivasan N, Steward RE, Blundell TL ; CAMPASS: a database of structurally aligned protein superfamilies. Structure 6:1087-94 (1998).

P178 Sowdhamini R, Rufino SD, Blundell TL ; A database of globular protein structural domains: clustering of representative family members into similar folds. Fold Design 1:209-20 (1996).

P179 Stoye J, Moulton V, Dress AW ; DCA: an efficient implementation of the divide-and-conquer approach to simultaneous multiple sequence alignment. Comput Appl Biosci. 13:625-6 (1997).

P180 Strousup B ; Le langage C++. Ed : CampusPress France (1999).

P181 Taylor WR ; A flexible method to align large numbers of biological sequences. J Mol Evol. 28 (1-2):161-9 (1988).

P182 Thompson JD, Higgins DG, Gibson TJ ; CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22:4673-4680 (1994).

P183 Thompson JD, Plewniak F, Poch O ; A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27:2682-90 (1999).

P184 Thompson JD, Plewniak F, Poch O ; A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27:2682-90 (1999).

P185 Thompson JD, Plewniak F, Ripp R, Thierry JC, Poch O ; Towards a reliable objective function for multiple sequence alignments. J Mol Biol. 314:937-51 (2001).

P186 Tsai J, Gerstein M, Levitt M ; Simulating the minimum core for hydrophobic collapse in globular proteins. Protein Sci. 6:2606-16 (1997).

P187 Waterman MS, Vingron M ; Rapid and accurate estimates of statistical significance for sequence data base searches. Proc Natl Acad Sci U S A. 91:4625-8 (1994).

P188 Wertz DH, Scheraga HA ; Influence of water on protein structure. An analysis of the preferences of amino acid residues for the inside or outside and for specific conformations in a protein molecule. Macromolecules 11:9-15 (1978).

159

P189 Wheeler DL, Church DM, Lash AE, Leipe DD, Madden TL, Pontius JU, Schuler GD, Schriml LM, Tatusova TA, Wagner L, Rapp BA ; Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 29:11-6 (2001).

P190 Willms G ; Grand livre C++. Ed : Micro Application (1999).

P191 Wolf YI, Grishin NV, Koonin EV ; Estimating the number of protein folds and families from complete genome data. J Mol Biol. 299:897-905 (2000).

P192 Wu C, Xiao C, Hou Z, Huang H, Barker WC ; iProclass: an integrated, comprehensive and annotated protein classification database. Nucleic Acids Res. 29:52-4 (2001).

P193 Yona G, Linial N, Linial M ; ProtoMap: Automatic classification of protein sequences and hierarchy of protein families. Nucleic Acids Res. 28:49-55 (2000).

P194 Zemla A, Venclovas C, Fidelis K, Rost B ; A modified definition of Sov, a segment-based measure for protein secondary structure prediction assessment. Proteins. 34:220-3 (1999).

P195 Zhang C, DeLisi C ; Estimating the number of protein folds. J Mol Biol. 284:1301-5 (1998).

Documents

THESE - prabi.ibcp.fr