14
Généralités sur les structures de protéines Le Paradoxe de Levinthal: En 1969 Cyrus Levinthal a noté qu'à cause du grand nombre de degrés de liberté dans un polypeptide déplié, une protéine a un nombre astronomique de conformations (une estimation de 10 300 est donnée dans l'article original). Si la protéine cherchait sa conformation repliée correcte séquentiellement, il lui faudrait un temps plus grand que l'âge de l'univers. Ceci est vrai même si les conformations étaient testées à un taux rapide (ordre de la picoseconde). En effet, si l'on considère seulement 2 états de conformation pour un acide aminé, un polypeptide de 100 acides aminés possèderait 2 100 états possibles de conformation (soit environ 10 30 ). Si on donne 1 picoseconde (10 -12 s) pour changer de conformation, il faut 10 30 *10 -12 soit 10 18 secondes ou encore 3.10 10 ans. Beaucoup de petites protéines se replient spontanément sur une échelle de temps de l'ordre de la milliseconde ou même de la microseconde. Le temps de génération de E. coli peut être de l'ordre de 20 mn (phase exponentielle de croissance), ce qui indique que toutes les protéines essentielles se replient sur un temps d'au plus quelques minutes. En fait, le paradoxe montre simplement que les protéines se replient en suivant un chemin non aléatoire qui n'explore pas toutes les possibilités. De plus, les conformations d'un acide aminé dépendent de celles de ses voisins (l'indépendance suposée dans le paradoxe est fausse). Quelques faits : Le rapport entre résidus hydrophiles et hydrophobes est à peu près constant (h/H=0.36 écart type:0.06). Les protéines enfouissent une fraction constante de leur surface totale - C & S sont enfouis à 86% - O & N neutres sont enfouis à 40% - O & N chargés sont enfouis à 32% L’intérieur des protéines est aussi dense que des cristaux de petites molécules organiques Type Densité d'empaquetage % Liquides 60-68 Solides organiques 70-78 Glace 58 Protéines 72-77 La stabilité de la forme repliée est marginale (5-10 kcal/mol) Les forces qui stabilisent la forme repliée: · Liaisons hydrogènes intramoléculaires · Entropie de déshydratation · Interactions hydrophobes · Ponts salins · Interactions dipôlaires Les forces qui déstabilisent la forme repliéé · Liaisons hydrogènes avec l’eau · Perte d’entropie configurationnelle Méthodes de modélisation moléculaire voir cours

Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

  • Upload
    lamhanh

  • View
    223

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

Généralités sur les structures de protéines

Le Paradoxe de Levinthal:En 1969 Cyrus Levinthal a noté qu'à cause du grand nombre de degrés de liberté dans unpolypeptide déplié, une protéine a un nombre astronomique de conformations (une estimationde 10300 est donnée dans l'article original). Si la protéine cherchait sa conformation repliéecorrecte séquentiellement, il lui faudrait un temps plus grand que l'âge de l'univers. Ceci estvrai même si les conformations étaient testées à un taux rapide (ordre de la picoseconde). Eneffet, si l'on considère seulement 2 états de conformation pour un acide aminé, un polypeptidede 100 acides aminés possèderait 2100 états possibles de conformation (soit environ 1030). Sion donne 1 picoseconde (10-12s) pour changer de conformation, il faut 1030*10-12 soit 1018

secondes ou encore 3.1010 ans.Beaucoup de petites protéines se replient spontanément sur une échelle de temps de l'ordre dela milliseconde ou même de la microseconde. Le temps de génération de E. coli peut être del'ordre de 20 mn (phase exponentielle de croissance), ce qui indique que toutes les protéinesessentielles se replient sur un temps d'au plus quelques minutes.En fait, le paradoxe montre simplement que les protéines se replient en suivant un chemin nonaléatoire qui n'explore pas toutes les possibilités. De plus, les conformations d'un acide aminédépendent de celles de ses voisins (l'indépendance suposée dans le paradoxe est fausse).

Quelques faits :Le rapport entre résidus hydrophiles et hydrophobes est à peu près constant (h/H=0.36 écarttype:0.06).Les protéines enfouissent une fraction constante de leur surface totale- C & S sont enfouis à 86%- O & N neutres sont enfouis à 40%- O & N chargés sont enfouis à 32%L’intérieur des protéines est aussi dense que des cristaux de petites molécules organiquesType Densité d'empaquetage % Liquides 60-68 Solides organiques 70-78 Glace 58 Protéines 72-77

La stabilité de la forme repliée est marginale (5-10 kcal/mol)

Les forces qui stabilisent la forme repliée:· Liaisons hydrogènes intramoléculaires· Entropie de déshydratation· Interactions hydrophobes· Ponts salins· Interactions dipôlairesLes forces qui déstabilisent la forme repliéé· Liaisons hydrogènes avec l’eau· Perte d’entropie configurationnelle

Méthodes de modélisation moléculairevoir cours

Page 2: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

Contexte:En 2006, il y a dans la banque cristallographique:- 38000 fichiers PDB (13000 en 2000, 3800 en 1995)Si on regroupe les protéines par groupes basés sur l'identité de séquence, on constate laredondance de la PDB.% identité Nombre de Clusters95% identité 1457090% identité 1371170% identité 1195450% identité 10315Sur les nouvelles structures de protéines trouvées:- 1/3 sont similaires (ou homologues) à des protéines connues- 1/4 sont similaires à une protéine de structure connueIl existe des structures 3D similaires dont les séquences primaires divergent (<15% d'identité).Note: 15% d'indentité est la "ligne de base" pour un alignement, c'est à dire que 2 protéinescomplètement différentes ne peuvent avoir moins de 15% d'identité après alignement.

Classification SCOPLa classification SCOP (Murzin et al., 1995; Conte et al., 2002; Brenner et al., 1996) est faitemanuellement d’après des informations structurales et des connaissances plus générales surchaque protéine. Les outils automatiques de comparaison structurale ne sont utilisés que pouraider à la classification par inspection visuelle. Les structures protéiques sont tout d’aborddécoupées en domaines (régions ayant un coeur hydrophobe et peu d’interaction avec le restede la protéine) puis sont classées.Les quatre niveaux de classification sont, du niveau le plus général au plus fin :1. class : la composition en structures secondaires est similaire. Il y a quatre classesprincipales qui sont les mêmes que celles déjà citées et définies par M. Levitt et C. Chothia(Levitt and Chothia,1976). Les 7 autres classes ont un effectif beaucoup plus faible. Lesclasses des protéines multidomaines, des protéines membranaires et des petites protéines sontde vraies classes où les protéines ont des caractéristiques spécifiques tandis que les autres sontplus des artefacts dus aux méthodes (classe des protéines ayant une faible résolution, classedes protéines artificielles...) ;2. fold : la composition en structures secondaires (hélices a et feuillets b), leur arrangementspatial et leurs connexions sont similaires ;3. superfamily : l’identité de séquence peut être faible mais où les structures et les fonctionssuggèrent une origine évolutive commune ;4. family : les structures protéiques ont au moins 30% d’identité de séquence, ou bienpossèdent des fonctions et des structures très similaires.La banque SCOP est donc une classification « manuelle» de domaines, et la définition desdomaines est évidemment critique pour cette classification. La classification SCOP contenaiten octobre 2004 pour 25973 entrées (70859 domaines): 945 classes au niveau fold et 1539classes au niveau superfamily (2845 au niveau "families").

SCOP: Structural Classification of Proteins. 1.69 release, 25973 PDB Entries (1 Oct 2004).70859 Domains (excluding nucleic acids and theoretical models)Class Number of

foldsNumber ofsuperfamilies

Number offamilies

All alpha proteins 218 376 608All beta proteins 144 290 560

Page 3: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

α and β proteins (α/β) 136 222 629α and β proteins (α+β) 279 409 717Multi-domain proteins 46 46 61Membrane and cell surface proteins 47 88 99Small proteins 75 108 171Total 945 1539 2845

Classification CATHLa classification CATH (Pearl et al., 2005; Pearl et al., 2000; Orengo et al., 1997) esteffectuée à la fois automatiquement et manuellement. Comme SCOP, elle est hiérarchique etsubdivisée en quatre niveaux principaux. Elle possède trois niveaux supplémentaires declassification établis sur la similarité des séquences protéiques.Les niveaux de classification sont :1. Class où les structures sont regroupées selon leur composition en structures secondaires etles contacts entre celles-ci. Il y a quatre classes : mainly α et mainly β qui sont similaires auxdeux classes all α et all β de SCOP, mixed α/β et Few secondary structures. L’assignationd’une structure à l’une de ces quatre classes est automatique dans 90% des cas (les 10%restant sont assignés à la main) (Michie et al., 1996) ;2. Architecture où l’organisation générale des structures secondaires est la même pour lesstructures d’un même groupe. Cette classification est faite manuellement, et notamment parrapport à la classification de J. Richardson (Richardson, 1981) ;3. Topology : où les structures ayant un même repliement en terme de nombre, ordre etconnexions de structures secondaires sont regroupées. La méthode de comparaison de deuxstructures SSAP (Taylor and Orengo, 1989b) est utilisée, avec une contrainte sur la longueurde l’alignement et le score obtenu. ;4. Homologous surperfamiliy où les structures d’un même groupe ont des structures et desfonctions très similaires, suggérant un ancêtre commun. SSAP est aussi utilisé ;5. Les niveaux supplémentaires - et imbriqués - S,N,I regroupent les structures ayant uneidentité de séquence respectivement > 35%, >95% et de 100% (ce dernier niveau regroupe enfait les protéines qui ont été résolues plusieurs fois, par exemple complexées ou non avec leurligand).L’algorithme d’alignement des séquences est celui de Needleman et Wunsch.Les structures sont découpées en domaines structuraux selon le consensus trouvé par troisméthodes indépendantes, DETECTIVE (Swindells, 1995), PUU (Holm and Sander, 1994b) etDOMAK (Siddiqui and Barton, 1995). Si les trois méthodes s’accordent pour le nombre dedomaines et si 85% des résidus d’un domaine sont les mêmes, le découpage de DETECTIVEest choisi, sinon, le découpage est fait à la main (47% des cas). Les structures ayant plus de 30résidus hors domaines sont aussi découpées à la main. Le découpage en domaines structurauxn’est effectué que pour une structure représentative de groupe du niveau N, les protéines dumême groupe ayant plus de 95% d’identité héritent des mêmes domaines. La cohérence dudécoupage en domaines est vérifiée au niveau supérieur S.Le protocole de classification a un peu varié au cours des années (Pearl et al., 2001). Pourajouter une nouvelle structure à la classification, cette structure est comparée à la fois auniveau de sa séquence (alignement contre les séquences représentatives et contre des profilsPSSM de PSIBLAST) et de sa structure (au niveau peptidique avec SSAP et au niveau desstructures secondaires avec GRATH (Harrison et al., 2003)). Des alignements multiples desstructures sont réalisés avec la méthode CORA (Orengo, 1999).L’assignation automatique à une classe (Michie et al., 1996) commence par la déterminationdes éléments de structure secondaire par SSTRUC qui est une implémentation locale de DSSP

Page 4: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

(Kabsch and Sander, 1983). Les structures secondaires sont ensuite représentées par desvecteurs et les distances internes entre Ca de deux structures secondaires sont calculés. Lenombre de structures secondaires et les contacts entre structures permet d’établir laclassification de la structure dans l’une des quatre classes.En 2005, CATH contenait 1467 familles au niveau H dont 334 possédaient au moins 3structures avec moins de 35% d’identité (Pearl et al., 2005) et 813 classes au niveau T .CATH est donc une classification semi-automatique des structures.

Familles de structures (résumé)On peut estimer selon les différentes classifications qu'il y a environ 1500 familles destructures. La distribution du nombre de protéines par familles semble suivre une loi depuissance (y=x-a). Dans une étude menée de façon automatique (Carpentier, 2005, thèse), lafamille la plus peuplée contient 223 structures et seules 4 familles sont constituées de plus de100 protéines. La taille moyenne des familles est de 6,6 structures, et 50% des famillescontiennent 3 structures ou moins.En considèrant les protéines comme des points dans un espace à haute dimension - espace des«formes» où les distances structurales entre protéines sont respectées-, Holm et Sander (Holmand Sander, 1996c) ont mis en évidence cinq « attracteurs» pour toutes les structures (voirfigure ci dessous). Ces attracteurs servent à classer les domaines de protéines selon leurstructure, l’attribution d’un domaine à un attracteur se faisant par un critère de chemin le pluscourt (deux classes s’ajoutent, l’une pour les structures non « connectées» aux autres, et l’unepour les domaines à égale distance de deux attracteurs). 40% de tous les domaines connussont couverts par 16 classes de repliements (figure A). Plusieurs paramètres raffinent cettepremière classification structurale : les alignements de séquence de PSIBLAST, l’analyse desregroupements de résidus conservés, la classe enzymatique (EC number) et une analyse parmots clés de la fonction biologique.

Page 5: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

A) La quantification des similarités des pairesde structures (comparaison «~tout contretout~») donne la position d'une structure dansun espace abstrait de hautes dimensions. Lahauteur des pics reflète la densité depopulation de repliements, les axeshorizontaux sont les axes des deux premiersvecteurs propres (i.e. associés aux deux plusgrandes valeurs propres), l'axe vertical donnele nombre de repliements. La distribution desarchitectures est donnée par la projection surle plan (la proximité sur ce plan donne uneindication sur la similarité structurale entre 2protéines)

B) 40% de tous les domaines connus sontcouverts par 16 classes de repliements. Ces 16repliements sont montrés ici sous forme dediagrammes topologiques de structuressecondaires dans la classe de leur attracteur(le numéro d'attracteur est le même que dansla figure A).

Figures tirées de Holm et Sander (1996)"Mapping the protein universe"

Méthodes de prédiction de structuresTrois grands types de méthodes sont utilisées pour la prédiction de la structure 3D desprotéines : la modélisation par « homologie», la reconnaissance de repliements., les méthodesde prédiction ab initio.

La modélisation par « homologie»La modélisation par « homologie» s’appuie sur l’hypothèse que des protéines homologues onten général conservé la même fonction et une topologie et une structure proches. Pour établirl’homologie entre une séquence et une structure connue, il faut qu’elles présentent une

Page 6: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

similarité suffisante au niveau de leur séquence en acides aminés après alignement. Onconsidère généralement qu'une identité de 30 à 35% suffit pour établir une modélisationcorrecte par homologie.Pour des séquences à >50% d'identité les modèles dérivés sont d’une assez grande précision etjustesse : ~ 1 angstrom de rms pour les atomes de la chaîne principale. Les erreurs se trouventdans l’empaquetage et l’orientation des chaînes latérales. Cette précision suffit pour laprédiction de protéines partenaires ou le docking.Entre 30-50% d'identité de séquence les modèles sont d’une précision et d’une justessemoyenne. En plus des orientations, il y a des distortions dans le coeur, des erreurs demodélisation des boucles et des erreurs d’alignement occasionnelles. Les rms sonttypiquement ~1.5 angstrom . La modélisation peut servir dans ce cas dans la méthode deremplacement moléculaire en cristallographie, la détermination des épitopes, éventuellementpour du screening in silico de petits ligands.En dessous de 30% d'identité, les erreurs d’alignement augmentent énormément. Ces erreurssont les plus graves car elles peuvent résulter en un modèle de repliement totalementincorrect. Il faut utiliser des techniques ab-initio ou de reconnaissance de repliement. En cecas, on ne peut que chercher à prédire des motifs fonctionnels, résidus conservés, ou encristallographie utiliser ces structures pour l'ajustement dans des cartes électronique basserésolution.

La modélisation ab initio / de novoLes méthodes ab initio sont fondées sur le paradigme que l’état natif d’une protéine est à sonminimum global d’énergie libre et cherchent à mener une recherche de ce minimum par unparcours à grande échelle de l’espace conformationel. La clef de ces méthodes est d’avoir unefonction « énergie» adéquate et une procédure efficace pour parcourir l’espace desconformations. Pour cette raison, ces méthodes utilisent souvent un sous-ensemble des atomesde la chaîne peptidique et des chaînes latérales. La fonction énergie employée doit doncrefléter les atomes omis et le solvant. Une des méthodes les plus connues et efficace, Rosetta(Simons et al., 1999), fait varier la structure de petits segments (3 et 9) entre desconformations compatibles avec la séquence locale mais ayant des conformations différentes(ces fragments sont précalculés sur les protéines connues de la PDB). Un grand nombre deconformations globales sont générées par combinaison de ces segments locaux (ce quiéchantillonne l’espace conformationel) et la fonction énergie est évaluée sur ces structures.Les prédictions de novo, à l’aide d’alphabets structuraux (de Brevern et al., 2001) sont àclasser parmi ces méthodes qui ne s’appuient pas sur une homologie particulière avec unestructure mais plutôt sur un apprentissage de ce qu’ « est» une structure (petits blocschevauchants, corrélation de l’enchaînement de ces blocs).

L’annotation structurale- génomique structuraleLe séquençage systématique des génomes demande le développement de méthodesd’annotation nouvelles afin de mieux reconnaître les gènes ayant divergé. Les méthodesusuelles de l’annotation s’appuient sur les biais statistiques liés aux gènes (biais de codage,biais d’usage du code), sur la reconnaissance de signaux génétiques (start, stop, promoteurs,sites de fixation du ribosome, etc), et surtout sur la similarité des phases ouvertes de lectureavec des séquences déjà caractérisées. Les outils de détection de similarités de séquencegénéralement utilisés pour établir cette similarité sont BLAST (Altschul et al., 1990; Altschulet al., 1997) et FASTA (Pearson and Lipman, 1988; Pearson, 2000). La dégénérescence bienconnue entre séquences et structures (Chothia and Gerstein, 1997) limite ces méthodespuisqu’il sera difficile de détecter la similarité entre séquences ayant divergé depuislongtemps. Ainsi, réglés à un seuil de détection de 1% de faux positifs, BLAST ou FASTA ne

Page 7: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

reconnaissent comme significatives que 15% de séquences apparentées et possédant moins de40% de résidus conservés entre elles (Brenner et al., 1998). La détection de similarités estaméliorée par des méthodes basées sur des alignements mutliples (Park et al., 1998), ou «profils», comme PSIBLAST (Altschul et al., 1997).Pour aller plus loin dans la détection de similarités, les méthodes de reconnaissance derepliements sont des outils de grand intérêt. Elles permettent de détecter des similaritésindécelables grâce aux seules séquences.De plus, des programmes de résolution de structures 3D à grande échelle sont lancésaujourd'hui. Pour être efficace, il ne faut pas chercher à résoudre la structure d'une protéinehomologue à une structure déjà connue. Donc, on cherche des séquences qui ne ressemblent àaucune protéine dont la structure 3D serait connue, avec des techniques d'analyse deséquence, comme PSIBLAST, mais aussi avec des techniques de reconnaissance derepliement plus fines.

La reconnaissance de repliements ("Threading")Les méthodes de reconnaissance de repliements ou de "threading" reposent sur l’observationque les structures 3D sont mieux conservées que les séquences (Chothia and Lesk, 1986) etqu’ainsi les structures constituent un meilleur support pour caractériser des protéineshomologues distantes que leur séquences. De plus, le nombre de repliements différents estiméest de plusieurs ordres de grandeur en dessous du nombre de familles de séquences différentes(dégénérescence structure-séquence). Ce nombre est estimé de 1000 à 8000 selon les études(Chothia, 1992; Orengo et al., 1994; Wang, 1996; Wang, 1998; Govindarajan et al., 1999).Les méthodes de threading (Smith et al., 1997) visent donc à calculer l’adéquation entre uneséquence de structure inconnue et une structure 3D connue (ou parties de celle-ci). Laséquence est « enfilée» sur chaque repliement d’une librairie de coeurs représentatifs de laPDB. La compatibilité de la séquence avec un repliement particulier peut se mesurer grâce àun potentiel empirique : potentiels statistiques de distances entre résidus, précalculés sur laPDB (Sippl, 1990) ou scores de paires de résidus étant donné la structure secondaire où setrouvent ceux-ci.Les techniques de "threading" ("montage") sont basées sur la méthode suivante:1) une librairie de repliements protéiques non redondants ("coeurs") est constituée à partir dela banque de données structurale des protéines (PDB Brookhaven). Chaque repliement est unechaîne tridimensionnelle, la séquence étant complètement oubliée.2) La séquence test est ensuite ajustée de manière optimale à chaque repliement de la librairie(insertions-délétions permises dans les boucles), l' "énergie" de chaque ajustement("montage") étant calculé en sommant les "interactions" des résidus deux à deux. Lesrepliements de la librairie sont ensuite rangés par ordre d'énergie, le plus probable pour laséquence étant celui d'énergie la plus basse.

Potentiels utilisés en threadingDans les premiers travaux, le problème difficile - optimiser le "montage" de la séquence testsur une structure d'après les interactions deux à deux - était évité en ajustant en fait sur laséquence primaire du "coeur" (le niveau le plus bas se ramenant à un alignement de laséquence du coeur avec la séquence test, en calculant un score résidus à résidus dérivé d'unematrice de similarité genre Dayhoff (PAM250)).Vu la dégénerescence séquence-structure (1 structure pouvant correspondre à plusieursséquences présentant une faible similarité), il était plus tentant de décrire le "coeur" non pasen termes de séquence primaire, mais en terme d'environnement de chaque position dans lastructure. En effet, l'environnement - par exemple la structure secondaire locale, accessibilitéau solvant,... - d'une position tend à être plus conservé que la nature du résidu à cette position,

Page 8: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

et une méthode qui tient compte de cet environnement sera plus à même de détecter desrelations séquence-structure qu'une méthode basée uniquement sur la séquence.Pour évaluer l'énergie d'une séquence dans une conformation particulière (un "montage"particulier), on a besoin d'un ensemble de potentiels pour l'interaction entre les résidus, quin'ait pas besoin d'une modélisation explicite des chaînes latérales (on a montré que lespotentiels de mécanique moléculaire classiques ne peuvent discerner si une protéine est dansson repliement natif ou non). On utilise donc des potentiels basés sur des statistiquesd'observables sur les structures connues (par exemple: la distance entre deux résidus denatures données), et on prend en compte explicitement le degré de solvatation des résidus.Pour une paire d'amino-acides donnés, une séparation topologique (distance sur la séquence)et une distance d'interaction (distance dans l'espace tridimensionnel), ces potentiels permettentla mesure d'une pseudo-énergie relative à la probabilité d'observer dans les protéines nativesles interactions effectivement observées pour le "montage" donné.Par exemple, pour les deux Cβ d'une paire de résidus a et b, à une séparation topologique (surla séquence) de k, et à un intervalle de distance physique de s, le potentiel est donné par(Sippl, 1990, J. Mol. Biol.,1993) :∆Ekab = RT ln[1+mabσ] - RT ln[1+ mabσ Erreur !], où mab est le nombre de paires abobservées à distance k, σ est le poids donné à chaque observation, fk(s) est la fréquence detoutes les paires de résidus à une distance topologique k et une distance physique s, et fkab(s)est la fréquence équivalente pour la paire ab. Les potentiels sont calculés pour les pairesCβ⇒Cβ, Cβ⇒N, Cβ⇒O, N⇒Cβ, N⇒O, O⇒Cβ et O⇒N. De même, le potentiel pour lasolvatation d'un acide aminé a est défini par:∆Esolva(r) = -RT ln[ Erreur !], où r est le pourcentage d'accessibilité (relatif à uneaccessibilité dans GGXGG étendu), fa(r) est la fréquence d'un résidu a avec une accessibilitér, et f(r) est la fréquence de tous les résidus avec une accessibilité r (calculée avec leprogramme DSSP par exemple). Ces potentiels sont de type Boltzman, la fonction de partitiondes conformations est du type Z = e-∆G/kT (Z=nombre d'une conformation donnée/total desconformations).En séparant ces potentiels empiriques par intervalles de portée, on peut tenter d'évaluer unesignification structurale spécifique pour chaque intervalle d'interaction. Par exemple, lestermes à courte portée prédominent dans l'ajustement des éléments de structure secondaire: en"montant" une séquence sur une hélice α et en évaluant ces termes potentiels à courte portée,la probabilité que la séquence se replie en hélice α peut être calculée. De même, lesinteractions intermédiaires règlent les motifs super-secondaires, et les interactions longuedistance, la structure tertiaire.Les différents auteurs ne prennent pas les mêmes critères pour les interactions. Par exemple,on peut prendre en compte aussi la nature des acides aminés de la séquence du "coeur" dans lepotentiel. A la place des interactions longues distances (> 10Å), Jones et coll. (Nature, 358,1992 pp86-89) utilisent un "potentiel de solvatation" (qui est d'ailleurs la seule énergieévaluée pour les boucles)

Page 9: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

a) Interactions à courte portée sur la séquence(distance topologique, k=3) Cβ-Cβ pour Ala-Ala. Les deux puits de potentiels observéscorrespondent principalement aux structures α (6Å) et β (9 Å).

b) Interactions à longues portée (distancetridimensionnelle) pour Cys-Cys Cβ-Cβ. Le puitde potentiel observé à 4 Å correspond aux pontsdisulfure.

c) Potentiel versus le pourcentage d'accessibilitéau solvant pour la leucine

d) Potentiel versus le pourcentage d'accessibilitéau solvant pour l'acide glutamique.

(tiré de Jones et coll. Nature,358,1992)

Problème de la définition des "coeurs" pour les structures 3D:Il faut des repliements représentatifs : non redondance, qualité des structuresDéfinir les régions conservées (coeur) :- structures secondaires + bornes inférieures et supérieures pour les boucles- bloc conservés en structure dans une famille (lorsqu'on a les structures!)

2) calcul de l'énergie empirique (sur les données disponibles dans les banques de structure):

Erreur != e(-ρ(r,s,dijp)) Potentiel de force moyenne ("mean force potential"), analogue à unefonction de répartition (voir Boltzman, Z = e-∆G/kT).

Page 10: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

Le potentiel de force moyenne peut être constitué de plusieurs potentiels pondérés (leurnombre et leur choix variant selon les auteurs) :

Méthode d'alignement de la séquence sur la structure:Selon les auteurs, la méthode d'alignement peut être:- Monte Carlo + recuit simulé(choix des segments, affinage (par calcul d'énergie): ajout ou suppression d'un résidu en boutde structure)- Programmation dynamique (comme en alignement de séquence)

On peut transformer la représentation 3D en 1D: Coil, Helical, Extended, buried, exposed

C C H H C C C E E C C C Ce e e b b e b b b b e e eCe Ce He Hb Cb Ce Cb Cb Eb Cb Ce Ce CeM F T V N E H I D R L Y A

Matrice de coût des interactions entre blocs.

Page 11: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

Fonction évaluation 1D (calcul de scores de substitution basé sur des alignements multiples defamilles de structures -> probabilités)

Méthodes d'alignement: programmation dynamique avec des matrices scores-position (PSSM:position specific scoring matrix)

Page 12: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution
Page 13: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

Statistique des scores:Il est impossible de comparer directement les scores obtenus par une même séquence surdifférents coeurs.- il faut donc une normalisation des scores: modèle statistique ou expérimental

Page 14: Généralités sur les structures de protéinesjompo/Public/BMBE/cours-threading.pdf · Ces attracteurs servent à classer les domaines de protéines selon leur structure, l’attribution

JOMPO A FINIR1) distribution d'énergie pour permutations aléatoires de l'alignement (dans les zones alignées)-> z-score z0= <E>-E0/σ pour le "montage" sur un coeur). Cela ne suffit pas->2) calcul de z avec des séquences aléatoires de même composition.