NOUVEAU COURS BIOINFORMATIQUE.pdf

La bioinformatique :

I- dfinition, description, dmarche et principales tapes

Dfinition

La bioinformation est l'information lie aux molcules biologiques : leurs structures, leurs

fonctions, leurs liens de "parent", leurs interactions et leur intgration dans la cellule.

Divers domaines d'tudes permettent d'obtenir cette bioinformation : la gnomique

structurale, la gnomique fonctionnelle, la protomique, la dtermination de la structure

spatiale des molcules biologiques, la modlisation molculaire ...

La bioinformatique est l'analyse de la bioinformation.

Description

C'est une discipline rcente (quelques dizaines d'annes).

C'est une discipline "hybride" : elle est fonde sur des concepts et des formalismes issus de la

biologie, de l'informatique, des mathmatiques et de la physique.

C'est une discipline qui utilise toutes les potentialits de traitement de l'informatique :

modles thoriques, algorithmes et programmes, ordinateurs, rseau Internet, bases de

donnes ...

Dmarche

1. Compilation et organisation des donnes biologiques dans des banques de donnes :

ces banques sont soit gnralistes (elles contiennent le plus d'information possible sans

expertise particulirede l'information dpose), soit spcialises dans un domaine autour de

thmes prcis.

2. Traitements systmatiques des donnes : l'objectif principal est de reprer et de

caractriser une fonction et/ou une structure biologique importante. Les rsultats de ces

traitements constituent de nouvelles donnes biologiques obtenues "in silico".

3. Elaboration de stratgies :

le but est d'apporter des connaissances biologiques supplmentaires en combinant les

donnes biologiques initiales et les donnes biologiques obtenues "in silico".

ces connaissances permettent, leur tour, de dvelopper de nouveaux concepts en

biologie. ces connaissances permettent, leur tour, de dvelopper de nouveaux

concepts en biologie.

concepts qui ncessitent l'laboration de nouvelles thories et outils en mathmatiques

et en informatique.

Principales tapes en biologie molculaire, en informatique et en bioinformatique

1965 Premire compilation de protines ("Atlas of Protein

Sequences") : Margaret Dayhoff et al.

1967 Article : "Construction of Phylogenetic Trees" - Fitch &

Margoliash

1970 Algorithme pour l'alignement global de squences :

Needleman & Wunsch

1971 Premier microprocesseur Intel 4004

1972 Clonage de fragments d'ADN dans un virus, l'ADN

recombin : Paul Berg, David Jackson, Robert Symons

1973

Dcouverte des enzymes de restriction qui coupe

spcifiquement l'ADN.

Mthode de transfection (introduction d'un ADN tranger)

des cellules eucaryotes grce un virus (vecteur).

1974

Programme de prdiction de structures secondaires des

protines : "Prediction of Protein Conformation" - Chou &

Fasman

1977

Micro-ordinateurs

Techniques de squenage d'ADN : Frederick Sanger /

Maxam & Gilbert

1978 - 1980

Mutagnse dirige : Michael Smith

Squenage du 1er gnome ADN, le bactriophage

phiX174 : Frederick Sanger

Premires bases de donnes : EMBL, GenBank, PIR

1980 Accs tlphonique la base de donnes PIR

1981 : 370.000 nuclotides

GenBank : 270 squences

Micro-ordinateur IBM-PC 8088

Programme d'alignement local de squences : Smith &

Waterman

1983 IBM-XT disque dur (10 Mb)

1984

Amplification de l'ADN : raction de polymrisation en

chane (PCR) - Karry Mullis

MacIntosh : interface graphique & souris

1985 "FASTA" : Programme d'alignement local de squences -

Pearson & Lipman

1987

Nouveau vecteur permettant de cloner des fragments d'ADN

20 fois plus grands : le YAC (Yeast Artificial Chromosome).

Rend possible l'tude de grands gnomes.

1988 Taq polymrase, enzyme thermostable pour la PCR.

1989 INTERNET succde ARPANET

1990

Clonage positionnel et premier essai de thrapie gnique.

"BLAST" : Programme d'alignement local de squences -

Altschul et al.

1992 Squenage complet du chromosome III de levure

1996 Squenage complet de la levure (consortium europen)

1997 11 gnomes bactriens squencs

1998 Squenage de 2 millions de nuclotides par jour

2000 Squenage du 1er gnome de plante : Arabidopsis thaliana

2001 Squence "premier jet" complte du gnome humain

Janvier 2012

Plus de 393.000.000.000

nuclotides !

Plus de 3040 gnomes eucaryotes et procaryotes squencs et

des milliers en projet (Genomes OnLine) !

Voir le dveloppement de la banque de donnes EMBL

(banque europenne cre en 1980)

Voir le dveloppement de la banque de donnes Genbank

(cre en 1982 et diffuse par le National Center for

Biotechnology Information)

A quelles fins la bioinformatique est-elle utilise ?

L'acquisition des donnes biologiques Bases ou banques de donns & internet

les squences nuclotidiques et les

squences polypeptidiques

les gels bidimensionnels et les

diffrentes mthodes de spectromtrie

de masse (protomique)

les donnes de puce ADN

les donnes de structures

tridimensionnelles

la bibliographie

stocker, trier, organiser, corriger et

annoter les donnes

dvelopper des protocoles de

communication interactive (internaute

- banques ou entre banques)

grer la diversit des formats des

fichiers pour optimiser les changes de

donnes

Une grande partie du traitement des donnes s'appuie sur la comparaison de squences pour

trouver des similarits, des motifs connus.

Les buts sont multiples (liste non exhaustive) :

Acides nucliques

la recherche de phase de lecture

ouverte (gne) et de signaux de

rgulation de la transcription et de la

traduction, dtection de bornes

introns/exons

la recherche de rgions transcrites

(EST) - profil d'expression des gnes

(puces ADN, analyse d'images)

la dtection de polymorphismes de

nuclotide simple ou d'insertion /

dltion

la reconstruction d'arbres

phylogniques

l'analyse de gnomes entiers

(gnomique structurale, syntnie)

l'ontologie : l'organisation

hirarchique de la connaissance sur

un ensemble d'objets par leur

regroupement en sous-catgories

suivant leurs caractristiques

essentielles.

Protines

traduction in silico

taux de synthse des protines

(protomique)

prdiction de modification post-

traductionnelles

recherche de motifs structuraux :

dtection de sites actifs (enzymes), de

domaines, de types de repliement

(famille de protines)

prdiction de structures secondaires

modlisation de structure

tridimensionnelles

l'ontologie : l'organisation hirarchique

de la connaissance sur un ensemble

d'objets par leur regroupement en sous-

catgories suivant leurs

caractristiques essentielles.

Pour boucler la

boucle :

dveloppement de thories, de modles, d'algorithmes, de

programmes, de langages pour rpondre aux besoins qui prcdent

Buts plus gnraux

moyen terme :

biologie intgrative (mtabolisme, rseaux d'interactions entre

molcules), modliser le fonctionnement global d'une cellule

Applications : thrapie gnique, pharmacognomique (cibles pour la mise au point

de molcules actives), analyse d'images (IRM)

L'industrie de la sant est devenue la premire industrie mondiale avec un chiffre d'affaires de

2000 milliards d'euros en l'an 2000, et une perspective de 4000 milliards en 2010.

On value le march de la bioinformatique plus de 1,1 milliard d'euros en 2005, avec un

taux de croissance annuel de 15,8% pour atteindre 3 milliard d'euros en 2010. Essentiellement

pour des investissements en :

dveloppement de logiciels d'analyses et services

chimie informatique (recherche de mdicaments)

pharmacognomique (test de mdicaments)

En ce qui concerne l'Europe, le march de la bioinformatique devrait passer de 257 millions

d'euros en 2004 598 millions d'euros en 2011, avec un taux de croissance annuel de 14.4%

essentiellement en protomique. (Source : "Genetic Engineering News")

Source : "Business Communications Company"

Les domaines d'tude en "ome" ou "omique"

Le plein essor de la bioinformatique (telle qu'on la conoit maintenant) a commenc avec la

gnomique (dbut des annes 80) marque par des vnements phares comme le squenage

du gnome humain.

Puis la quantit et la multiplicit d'informations biologiques obtenues de mme que les

avances technologiques ont fait apparatre au fur et mesure d'autres domaines d'tude en

"ome" ou "omique".

Leur dfinition volue ce qui explique qu'elle puisse diffrer selon les sources.

Domaine

d'tude source dfinition

Gnomique

Les Actions

Concertes

Incitatives

Ministre de la

Recherche

La gnomique est une nouvelle discipline de la biologie qui

vise l'analyse molculaire et physiologique complte du

matriel hrditaire des organismes vivants. [...] il s'agit de

dduire les fonctions des gnes et leurs interactions partir

de leurs squences, ce qui facilite l'intgration de la

gnomique dans la physiologie. [...]

La gnomique repose sur des techniques qui voluent une

vitesse prodigieuse et l'ensemble des bases de donnes

obtenues, qui reprsente des dizaines de milliards de

caractres rpartis en dizaines de milliers de fichiers, pose

dj aux informaticiens des problmes considrables pour

classer et interprter cette norme masse de donnes.

Rapport sur

Gnomique et

informatique

L'impact sur les

thrapies et sur

l'industrie

pharmacaeutique

F. Srusclat -

Snateur (1999)

La gnomique est l'tude exhaustive des gnomes et

en particulier de l'ensemble des gnes, de leur

disposition sur les chromosomes, de leur squence,

de leur fonction et de leur rle.

La cartographie physique est le positionnement de

repres sur le gnome.

Le squenage : pour connatre les "instructions "

que renferme un fragment d'ADN, on lit la

succession des bases puriques et pyrimidiques (A,

T, G, C) de l'enchanement. Cette lecture est appele

squenage.

Gnomique

structurale

Voir les cours :

Gnomique

fonctionnelle

vgtale

et

Protomique

Elle dcrit l'organisation du gnome, ralise son

squenage et dresse l'inventaire des gnes : prdiction des

rgions codantes d'un gne - dentification des sites de

rgulation de la transcription - identification d'exons et

d'introns ...

Dfinition : la gnomique structurale s'attle dterminer la

structure 3D des protines codes par le gnome. Selon

cette dfinition, elle devrait s'appeler "protomique

structurale"...

Gnomique

fonctionnelle

ou post-

gnomique

La gnomique fonctionnelle ou post-gnomique tudie le

transcriptome (ensemble des ARN messagers transcrits

partir du gnome). Le but est de dterminer la fonction des

gnes partir de leurs produits d'expression (ARN et

protines) et d'tudier leur mode de rgulation et leurs

interactions.

On inclue souvent la protomique dans la gnomique

fonctionnelle.

Protomique

La protomique tudie le protome : ensemble des

protines identifies partir d'un gnome. Toutes les

cellules de l'organisme possdent le mme gnome, mais

ont un protome diffrent selon l'organe et le moment du

dveloppement de l'individu. La protomique s'attache

dterminer la localisation, la structure et la fonction de ces

protines. Elle analyse leurs interactions et leurs

modifications au cours du temps.

Les autres "omes" et "omiques"

Mtabolomique : description de la population des diffrents

mtabolites d'une cellule dans un stade physiologique

donn.

Interactome - interactomique : description des interactions

entre toutes les macromolcules d'une cellule.

On trouve aussi dans la liitrature : lipidome, protasome,

rgulome, spliceosome, prdictome, ractome

Liens Internet

Revue scientifique : "Bioinformatics"

Revue scientifique : "Nucleic Acids Research"

Revue scientifique : "OMICS: A Journal of Integrative Biology"

Bioinformatics

NAR

OMICS

Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic

Nomenclature" Science 296, 671 - 672

Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era"

Nature Genetics 33, 305 - 310

Article

Article

II. molcules support, types et obtention

1. Deux types de molcules support de la bioinformation : les acides nucliques et les

protines

ADN : Acide

DsoxyriboNuclique

macromolcule :

chane nuclotidique

constitue par un

enchanement

d'units lmentaires

: les

dsoxyribonuclotide

s

forme de stockage de

l'information

gntique. Cette

information est

reprsente par une

suite linaire de

gnes

forme de deux brins

complmentaires

enrouls en double

hlice ce qui lui

permet de se

dupliquer en deux

molcules identiques

entre elles et

identiques la

molcule mre

On distingue :

l'ADN du gnome du

noyau

l'ADN du gnome

mitochondrial

l'ADN du gnome

chloroplastique

ARN : Acide RiboNuclique

macromolcule :

chane nuclotidique

constitu par un

enchanement

d'units lmentaires

: les ribonuclotides

forme qui permet de

transfrer et de traiter

l'information dans la

cellule

le plus souvent form

d'un simple brin

On distingue :

les ARN messagers

ou ARNm : ils sont

transcrits partir d'un

gne (ADN). Ils sont

ensuite traduits en

protines.

les ARN de transfert

les ARN ribosomaux

les ARN nuclaires

les ARN

cytoplasmiques

Protine

macromolcule :

chane

polypeptidique

constitu par un

enchanement

d'units lmentaires

: les acides amins

l'ensemble des

protines assurent les

principales fonctions

cellulaires

se replie sur elle-

mme et adopte une

conformation ou

structure particulire

dans l'espace. Cette

structure

tridimensionnelle est

l'origine de la

fonction de la

protine et de la

spcificit de cette

fonction.

2. Deux types de bioinformation : la squence des nuclotides et la squence des acides

amins

Les chanes nuclotidiques (ADN, ARN) et les chanes polypeptidiques (protines) sont des

polymres d'units lmentaires :

ADN : 4 dsoxyribonuclotides = dCMP, dGMP, dAMP, dTMP

ARN : 4 ribonuclotides = CMP, GMP, AMP, UMP

protines : 20 acides amins = Ala (A), Cys (C), Asp (D), Glu (E), Phe (F), Gly (G),

His (H), Ile (I), Lys (K), Leu (L), Met (M), Asn (N), Pro (P), Gln (Q), Arg (R), Ser

(S), Thr (T), Val (V), Trp (W), Tyr (Y)

Elles possdent 2 extrmits distinctes et sont donc orientes :

de l'extrmit dite 5' vers l'extrmit dite 3' pour les chanes nuclotidiques

de l'extrmit dite N-terminale vers l'extrmit dite C-terminale pour les chanes

polypeptidiques

En consquence :

les chanes nuclotidiques et polypeptidiques sont une succession ordonne et oriente

d'units lmentaires

les squences sont leur transcription sous forme d'une succession ordonne et oriente

de lettres qui correspondent ces units lmentaires

Site : "L'information gntique" - Simple et didactique.

Exemple de squence nuclotidique Exemple de squence polypeptidique

aattccggca tagaaactca aatcaaagag

gaagaaacac cgattctcct tttctctctc taaacaacta

gatcagatct ctgagtttaa ggaagctttc agcctattcg

ataaggatgg cgatggttgc atcacaacca

aggagcttgg aactgttatg cgatcattgg gacaaaaccc

aactgaagca

MADQLTDDQI SEFKEAFSLF

DKDGDGCITT KELGTVMRSL

GQNPTEAELQ DMINEVDADG

NGTIDFPEFL NLMARKMKDT

DSEEELKEAF RVFDKDQNGF

ISAAELRHVM TNLGEKLTDE

EVDEMIREAD VDGDGQINYE

EFVKVMMAK

Les squences constituent l'un des principaux types de bioinformation qu'analyse la

bioinformatique.

Exemples d'autres types de bioinformation (directe ou obtenue "in silico")

Les structures tridimensionnelles des protines et aussi, malgr leur nombre

plus restreint, des acides nucliques (en particulier les ARN de transfert).

Protein Data

Bank

Les donnes obtenues en protomique (gels d'lectrophorse bidimensionnel). SWISS-

2DPAGE

Le changement d'un nuclotide dans un gne quelconque ("Single Nucleotide SNP

Polymorphism").

La taxonomie (classification) des organismes. Taxonomy

Les rseaux d'interactions qu'tablissent les molcules biologiques. BioCarta

L'ontologie : l'organisation hirarchique de la connaissance sur un ensemble

d'objets par leur regroupement en sous-catgories suivant leurs

caractristiques essentielles.

GO

Les donnes bibliographiques (diffusion des rsultats de la recherche par les

articles). PubMed

3. L'obtention des squences

Squence des nuclotides

par la mthode de F. Sanger (1977)

au dpart

puis par des techniques de plus en

plus sophistiques, automatises et

de masse

Squence des acides amins

par lamthode de P. Edman (1950) au

dpart

puis par traduction "in silico" des squences

nuclotidiques

III. les banques de donnes

Les fichiers contenant l'information biologique sous la forme de squences est l'lment

central autour duquel les banques de donnes se sont constitues l'origine.

On peut distinguer :

les bases de donnes gnralistes : elles correspondent une collecte des donnes la

plus exhaustive possible et qui offrent un ensemble plutt htrogne d'informations

les bases de donnes spcialises : elles correspondent des donnes plus homognes

tablies autour d'une thmatique et qui offrent une valeur ajoute

Il existe un grand nombre de bases de donnes d'intrt biologique : voir une liste quasi

exhaustive avec les liens vers les bases de donnes

1. Les banques gnralistes

Les banques gnralistes sont indispensables la communaut scientifique car elles

regroupent des donnes et des rsultats essentiels dont certains ne sont plus reproduits dans la

littrature scientifique.

Dans le cadre de l'analyse des squences, par exemple, le fait que la majorit des squences

connues soit runie en un seul ensemble est un lment fondamental pour la recherche de

similitudes avec une nouvelle squence. D'autre part, la grande diversit d'organismes qui y

est reprsente permet d'aborder des analyses de type volutif.

Leur principale mission est de rendre publiques les squences et tout autre type d'information.

Cette notion de mise la disposition du public a t capitale dans le cas par exemple de la

diffusion des rsultats du squenage du gnome humain.

On y trouve galement de l'information qui accompagne les squences (annotations,

bibliographie, ...) et une expertise biologique directement lies aux squences traites.

La prsence de rfrences d'autres bases permet d'avoir accs d'autres informations. Par

exemple, la banque SWISSPROT est particulirement riche en rfrences croises avec

d'autres banques et en annotations.

Les multiples liens entre les groupes de donnes dans les banques gnralistes sont d'une

complexit tonnante. Voir les exemples de Genbank ou ExPASy.

La qualit des donnes contenues dans ces bases prsente un certain nombre de lacunes. Les

organismes responsables de la maintenance de ces banques ont pris conscience de la ncessit

de vrifications des donnes soumises ou saisies (surtout pour les squences anciennes).

Maintenant, de nombreuses vrifications sont faites systmatiquement ds la soumission de la

squence : c'est la "curation".

Il existe dsormais un recueil de squences rfrences, annotes et "contrles" : The

Reference Sequence (RefSeq) collection

Exemple de grandes bases de donnes gnralistes

Ces banques s'changent systmatiquement leur contenu depuis 1987 et adoptent un systme

de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition).

EMBL - EBI : Banque europenne cre en 1980 et finance par l'EMBO (European

Moleculary Biology Organisation). Elle est aujourd'hui diffuse par l'EBI ("European

Bioinformatics Institute", Cambridge).

Genbank - NCBI : Cre en 1982 par la socit IntelliGenetics et diffuse maintenant par le

NCBI ("National Center for Biotechnology Information", Bethesda - Marylandet).

DDBJ (DNA Data Bank of Japan) : Cre en 1986 et diffuse par le NIG ("National Institute

of Genetics", Japon).

Swissprot & TrEMBL : Elle a t constitue l'Universit de Genve partir de 1986. Elle

est maintenant dveloppe par le SIB (Swiss Institute of Bioinformatics) et l'EBI. Elle

regroupe (entre autres) des squences annotes de la PIR-NBRF ainsi que les squences

codantes traduites de l'EMBL (TrEMBL).

PIR-NBRF ("Protein Information Ressource") : banque de protines cre sous l'influence du

NBRF ("National Biomedical Research Foundation") Washington. Elle diffuse maintenant

des donnes issues du MIPS ("Martinsried Institute for Protein Sequences"), de la base

Japonnaise JIPID ("Japan International Protein Information Database") et des donnes

propres de la NBRF.

UniProt ("Universal Protein Resource") : c'est la base de donnes des protines : ExPASy

Proteomics Server. Consortium [EBI - SIB - PIR]

GOLD: "Genomes OnLine Database" - base de donnes qui recensse les milliers de gnomes

squencs ou en voie de squenage.

"The Quick Guide" : autre base de donnes qui recensse des gnomes squencs (descriptions

des organismes, liens vers les centres de squenage et vers la bibliographie).

2. Les banques spcialises

Pour des besoins spcifiques lis l'activit d'un groupe de personnes, ou encore par

compilations bibliographiques, de nombreuses bases de donnes spcifiques ont t cres au

sein des laboratoires. Certaines sont inconnues ou mal connues et attendent qu'on les exploite

davantage.

Les bases de donnes spcialises sont d'intrt divers et la masse des donnes qu'elles

contiennent peut varier d'une base une autre. Ces bases correspondent des amliorations

ou des regroupements par rapport aux donnes issues des bases gnralistes.

Exemples de banques spcialises

Late Embryogenesis Abundant Proteins database (LEAPdb - G. Hunault & E. Jaspard) : cette

base de donnes contient un grand nombre d'informations sur les proines LEA impliqus

dans la tolrance de nombreux stress, notament la dshydratation et le froid. Pour l'instant,

on les a mises en vidence principalement chez les plantes.

Disulfide Bridge DataBase (DBDB - J.-M. Richer, G. Hunault & E. Jaspard) : cette base de

donnes contient un grand nombre d'informations structurales sur les cystines de plus de 400

protines cristallises. Elle a aussi pour but de servir la mise au point d'un logiciel de

prdiction des cystines impliques dans la formation de pont disulfure.

RESID Database : Base de donnes sur les acides amins peu frquents (sous-partie de la base

de donnes PIR)

Les bases de motifs

L'utilisation de bases spcialises comme les bases de motifs est devenue un outil essentiel

dans l'analyse des squences pour tenter de dterminer la fonction de protines inconnues ou

savoir quelle famille appartient une squence non encore caractrise.

a. Les bases de motifs nucliques

La plupart de ces bases consiste recenser dans des catalogues les squences des diffrents

motifs pour lesquels une activit biologique a t identifie. Certains motifs sont simples et

non ambigus, d'autres correspondent des activits biologiques plus complexes et engendrent

donc des squences moins prcises. Pour ces derniers types de motifs, des compilations ont

t tablies pour donner des listes annotes de motifs qui peuvent tre communs plusieurs

squences.

Il existe principalement deux bases de motifs nucliques qui sont rgulirement actualises et

qui correspondent un travail de synthse bibliographique : il s'agit des bases de facteurs de

transcription TFD (Ghosh, 1993) et TRANSFAC (Knppel et al., 1994).

b. Les bases spcialises de motifs protiques

La base PROSITE (ExPASy Proteomics Server) peut tre considre comme un dictionnaire

qui recense des motifs protiques ayant une signification biologique.

Elle est tablie en regroupant, quand cela est possible, les protines contenues dans Swissprot

par famille comme par exemple les kinases ou les protases. On recherche ensuite, au sein de

ces groupes, des motifs consensus susceptibles de les caractriser spcifiquement.

La conception de la base PROSITE repose sur quatre critres essentiels :

collecter le plus possible de motifs significatifs

avoir des motifs hautement spcifiques pour caractriser au mieux une famille de

protines

donner une documentation complte sur chacun des motifs rpertoris

faire une rvision priodique des motifs pour s'assurer de leur validit par rapport aux

dernires exprimentations

Voir un exemple : motif "EF-hand" des protines fixant le calcium comme la calmoduline par

exemple.

3. Projet "Embrace" : standardiser l'accs aux donnes bioinformatiques en Europe

Depuis la premire bauche du squenage du gnome humain, en 2001, les

biologistes produisent toujours plus de donnes bioinformatiques. Pour les stocker, ils

multiplient les bases de donnes, mais aucune standardisation n'existe encore dans ce

domaine. En consquence, les donnes ne sont pas toutes prsentes sous la mme

forme.

De plus, les protocoles d'accs sont diffrents, de mme que les algorithmes qui

traitent les donnes.

D'o le projet de rseau bioinformatique europen (dbut fvrier 2005), dot par la

commission europenne de 8,28 millions d'euros pour cinq ans, il rassemble 16 partenaires de

11 pays, dont 3 quipes du CNRS.

Le but du projet "Embrace" est de standardiser l'accs aux innombrables donnes issues des

projets de gnomique, et leurs mthodes d'tude, afin que les chercheurs puissent les consulter

et les exploiter facilement.

Embrace utilisera la "technologie de grille" (grid), o un grand nombre d'ordinateurs

gographiquement loigns les uns des autres travaillent en rseau afin d'offrir une importante

capacit de stockage et de calcul.

4. Liens Internet et rfrences bibliographiques

Base de donnes sur les acides amins peu frquents (sous-partie de la

base de donnes "Protein Information Resource" - PIR) RESID Database

Bases de donnes sur les proprits physico-chimiques des acides amins

(sous-partie de la base de donnes "Expasy - Swiss-Prot")

ProtScale

Swiss-Prot

Base de donnes PROWL : proprits physico - chimiques des acides

amins, peptides, protines. PROWL

Cours : "Les banques de squences biologiques l'Institut Pasteur" Aller au site

IV Quelques formats de fichiers dans les banques de donnes

Exemples de formats lis aux logiciels de traitement des squences

1. Format FASTA

Sans doute le plus rpandu et l'un des plus pratiques car trs simple. La squence, sous

forme de lignes de 80 caractres maximum, est prcde d'une ligne de titre (nom,

dfinition ...) qui doit commencer par le caractre ">".

Plusieurs squences peuvent tre mises dans un mme fichier.

>1YYCA 174 bp

GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF

KGVTRD

GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV

KVA

YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

Example of a FASTA record

>gi|22777494|dbj|BAC13766.1| glutamate dehydrogenase [Oceanobacillus iheyensis]

MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRI

PVRMDDGNVKVFTGY

RAQHNDAVGPTKGGIRFHPNVTETEVKALSIWMSLKSGIVDLPYGGAKGGIICD

PREMSFRELEALSRGY

VRAVSQIVGPTKDIPAPDVFTNSQIMAWMMDEYSKIDEFNNPGFITGKPIVLGGS

HGRESATAKGVTIVL

NEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDAYGALYDPEG

LDIDYLLDRRDSFGTV

TKLFNNTISNDALFELDCDIIVPAAVENQITRENAHNIKASIVVEAANGPTTMEAT

KILTERDILIVPDV

LASAGGVTVSYFEWVQNNQGFYWSEEEIDNKLHEIMIKSFNNIYNMSKTRRIDM

RLAAYMVGVRKMAEAS

1. With the FASTA format, a single file can contain several records (sequences). Each

record begins with ">".

2. gi|22777494 : the GenInfo Identifier number is the sequence identification number for

a protein or a nucleotide sequence. If a sequence changes in any way, a new GI number

will be assigned.

3. dbj|BAC13766.1| : one record could exist in different databases and may have many

identifiers. The table gives the explanation of database name and identifier syntax. In

this example, this record exists in the DNA Database of Japan under dbj|BAC13766.1.

4. dbj|BAC13766.1| : Database sequence identifiers run parallel to the new accession

version system as sequence identifiers. In this example, the ".1" indicates that the

sequence has been revised one time.

5. glutamate dehydrogenase [Oceanobacillus iheyensis] : description of the sequence. In

this example, "glutamate dehydrogenase" is the name of the protein and Oceanobacillus

iheyensis the organism from which it has been determined.

2. Format ClustalW- suffixe ".aln"

Doit commencer avec "CLUSTAL W" sans autre information.

Une ou plusieurs lignes vides.

Un ou plusieurs blocs de squences. Chaque bloc contient :

o une ligne pour chaque squence. Chaque ligne consiste :

1. le nom de la squence 2. espace blancs white space 3. jusqu' 60 caractres

o Une ligne indiquant le degr de conservation (via des caractres spciaux :

"*", ":", ".") pour les colonnes de l'alignement pour ce bloc.

o Une ou plusieurs lignes vides.

CLUSTAL W (1.8) multiple sequence alignment

1YYCA

GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF

KGVTRD

1YYCA

GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV

KVA

1YYCA

YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans

"Accelrys")

Database Name Identifier syntax

GenBank gb|accession|locus

EMBL Data Library emb|accession|locus

DDBJ, DNA Database of Japan dbj|accession|locus

NBRF PIR pir||entry

SWISS-PROT sp|accession|entry name

Brookhaven Protein Data Bank (PDB) pdb|entry|chain

NCBI Reference Sequence ref|accession|locus

Protein Research Foundation prf||name

Local Sequence identifier lcl|identifier

GenInfo Backbone Id bbs|number

General database identifier gnl|database|identifier

Patents pat|country|number

Le format adopt par le package GCG permet la fois de commenter les donnes

et de vrifier l'intgrit de la squence par une valeur (=Checksum) calcule sur

celle-ci.

Le format GCG n'autorise qu'une seule squence par fichier..

Le fichier est constitu de la manire suivante:

o avant les ".." : commentaires

o ligne signal avec identificateur et "Check #### .."

o aprs les ".." : squence.

o 1YYCA

o 1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 ..

o 1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA

NIPTPEATVD

o 51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA

TRTIASGTIP

o 101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ

LDIGLTFDIP

o 151 VVGDITIPVS TQGEIKLPSL RDFF

4. Format NBRF/PIR

Une ligne qui commence par le caractre ">" et un code 2 lettres qui dsigne le

type de squence : P1, F1, DL, DC, RL, RC ou XX.

Un point-virgule suivi par le code li la base de donne (dans l'exemple suivant

: ";1YYCA").

Une ligne qui dcrit la squence.

La squence elle-mme. Cette partie doit finir par une astrisque.

Plusieurs squences peuvent tre mises dans un mme fichier.

>P1;1YYCA

1YYCA 174 bases

GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD

DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP

DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP

VVGDITIPVS TQGEIKLPSL RDFF*

5. Format Staden

Le plus ancien et le plus simple : suite des lettres de la squence par lignes termines par

un retour la ligne (80 caractres maximum par ligne). Ce format n'autorise qu'une

squence par fichier.

SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL

6. Format Stanford / IG

la 1re ligne est une ligne de commentaires prcde par le caractre ";"

la 2e contient l'identificateur (nom de la squence) dans les 10 premires colonnes

les lignes suivantes contiennent la squence (80 caractres maximum par ligne)

termine par le caractre "1" (squence linaire) ou "2" (squence circulaire)

;1YYCA 174 bases

1YYCA

GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD

DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP

DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP

VVGDITIPVSTQGEIKLPSLRDFF1

7. Autres formats

Le format MSF ("Multiple Sequence Format") contient plusieurs squences dans un

fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp -

MSF et reformat -MSF de GCG.

Le format PHYLIP : deux formats de base sont proposs.

2. Exemples de formats lis aux banques de donnes

a. Format GenBank

Chaque ligne indique le nom du champs et dans chaque champs on trouve des

informations.

b. Format EMBL

Chaque entre de la base EMBL est compose de lignes qui commencent par un code

deux caractres (champs) suivi de 3 blancs eux mme suivis dinformations.

ID 1YYCA STANDARD; PRT; 174 AA.

SQ SEQUENCE 174 AA; C11E4F3E CRC32;

GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD

DVDFKGVTRD 60

GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT

TVLDVPVKVA 120

YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF

174

//

Aller : "Entrez" - NCBI - taper "28377945" dans "Search

across databases"

Description fichier

GenBank

Aller : EBI dbfetch - taper "PS13882" dans "search item"

Description codes

entre fichier EMBL

c. Format PROSITE

La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base

de donnes PROSITE est la suivante :

lettres A-Z correspondant aux acides amins (minuscules ou majuscules)

[] indique une ambiguite inclusive. Exemple : [ILVM]

{} ambiguite exclusive. Exemple : {FWY}

X caractre positionnel indiffrent

(n) rptition n fixe d'un sous-motif. Exemple : [RD](2)

X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)

< au dbut du motif : le motif est cadr gauche de la squence

> la fin du motif : le motif est cadr droite de la squence

le caractre '-' spare chaque position

le caractre '+' indique que la suite du motif continue la ligne suivante

Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK]

- {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW]

3. Les outils de conversion de formats

1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le

reformatage gnral des squences. De nombreux formats de sortie sont proposs par

Readseq.

2. Sequence Utilities ("BCM Search Launcher") : Attention cocher la ... bonne case.

V-Algorithmes et programmes de comparaison de squences

Interprtation des rsultats : E-value, P-value

1. Dfinitions

Il existe 3 grandes classes d'algorithmes de comparaison de squences :

mthode de programmation dynamique

mthode heuristique

mthode d'apprentissage machine

Alignement : processus par lequel deux (ou n) squences sont compares afin d'obtenir le plus

de correspondances (identits ou substitutions conservatives) possibles entre les lettres qui les

composent.

alignement local : alignement des squences sur une partie de leur longueur

alignement global : alignement des squences sur toute leur longueur

alignement optimal : alignement des squences qui produit le plus haut score possible

alignement multiple : alignement global de trois squences ou plus

brches ou "gap" : espace artificiel introduit dans une squence pour contre-balancer

et matrialiser une insertion dans une autre squence.

Il permet d'optimiser l'alignement entre les squences

indel : "in" = insertion et "del" = dltion

similarit : c'est le pourcentage d'identits et/ou de substitutions conservatives entre

des squences. Le degr de similarit est quantifi par un score. Le rsultat de la

recherche d'une similarit peut tre utilis pour infrer l'homologie de squences.

homologie : 2 squences sont homologues si elles ont un anctre commun.

L'homologie se mesure par la similarit : une similarit significative est signe

d'homologie sauf si les squences prsentent une faible complexit.

faible complexit ("low-complexity regions") : rgions qui contiennent peu de

caractres diffrents. Exemples : (a) FFFPPPPPVVV, 3 acides amins diffrents

seulement (rgion riche en proline) - queue poly-A des ARN. Ces rgions posent des

problmes dans l'analyse des squences car elles gnrent un score biais.

Exemple de programme qui analyse ce type de rgions : "SEG".

msappariement : non correspondance entre deux lettres. Un msappariement peut tre :

soit la substitution d'un caractre par un autre, c'est--dire une mutation

soi l'introduction d'un "gap"

score : un score global permet de quantifier l'homologie. Il rsulte de la somme des scores

lmentaires calculs sur chacune des positions en vis vis des deux squences dans leur

appariement optimal. C'est le nombre total de "bons appariements" pnalis par le nombre de

msappariements.

score lmentaire :

ADN : la valeur du score lmentaire est de 1 (les deux bases sont identiques, bon

appariement) ou de 0 (les deux bases sont diffrentes, mauvais appariement).

protines : cette valeur est extraite d'une matrice de substitution

2. Algorithme de Needleman & Wunsch et algorithme de Smith & Waterman

Tous deux sont des algorithmes de programmation dynamique utiliss pour obtenir

l'alignement global ou local (respectivement) optimal de deux squences protiques ou

d'acides nucliques.

La programmation dynamique est une mthode dveloppe par R. Bellman (1955) qui permet

de rsoudre de nombreux problmes dont la solution directe n'est pas possible puisque de

complexit exponentielle.

Exemple : calcul de la distance d'dition entre deux chanes de caractres (squences

protiques ou d'acides nucliques).

La programmation dynamique une mthode de rsolution ascendante qui dtermine une

solution optimale du problme partir des solutions de tous les sous-problmes.

L'algorithme de Needleman & Wunsch et l'algorithme de Smith & Waterman se droulent

globalement en deux tapes :

la construction, ou descente, qui permet de calculer le meilleur score, c'est dire le

cot de la transformation de la premire squence en la seconde (tape de

programmation dynamique)

la construction de l'alignement lui-mme, ou remonte

Ces algorithmes n'utilisent pas d'heuristique : il sont donc sensibles mais longs.

F(i,j) : valeur la position (i,j) de la matrice.

s(xi,yj) : valeur obtenue partir de la matrice de substitution pour les nuclotides ou les acides

amins (xi,yj) correspondant la position (i,j) de la matrice. C'est donc le score correspondant

l'alignement des lettres xi et yj.

Ce score prend, par exemple, les valeurs suivantes :

identit : +3

non identit : -1

Algorithme de Needleman & Wunsch

alignement global optimal de 2 squences

Algorithme de Smith & Waterman

alignement local optimal de 2 squences

La ligne i = 0 et la colonne j = 0 sont

initialises aux valeurs de pnalit des gaps.

La fonction de rcurrence ne rinitialise pas

la valeur 0 si aucune valeur positive n'est

prsente.

La ligne i = 0 et la colonne j = 0 sont

initialises 0.

N'importe quelle case de la matrice de

comparaison peut tre un point de dpart pour

le cacul des scores finaux. Si ce score devient

infrieur zro, la fonction de rcurrence

rinitialise la valeur 0 et la case peut tre

utilise comme un nouveau point de dpart.

s(xi,-) et s(-,yj) est la fonction simple de pnalit de l'alignement d'un rsidu avec un

gap : -5

Remarque : si on opte pour d'autres valeurs, on obtient d'autres alignements optimaux, d'o le

choix crucial de la meilleure matrice de substitution lors des alignements.

La fonction de pnalit d'un gap est dfinie par : f(n) = d + [e . (n-1)], o :

n = longueur du gap

d = pnalit d'ouverture d'un gap

e = pnalit d'extension d'un gap

Exemple : un gap de longueur n = 3, avec une pnalit d'ouverture d = -10 et d'extension e = -

2, aura un score de f(3) = -10 + (-2 x 2) = -14

Application : alignement de la squence 1 = ACGCT avec la squence 2 = ACT

On remplit la 1re ligne et la 1re colonne de la matrice qui correspondent un gap la 1re

position :

l'alignement du A de la squence 2 avec l'insertion d'un gap dans la squence 1 cote :

-5

celui du C de la squence 2 avec l'insertion d'un second gap de la squence 1 cote : -5

+ -5 = -10

et ainsi de suite ...

F(1,1) aura pour valeur la valeur maximale

de l'une des possibilits suivantes :

F(0,0) + s(A,A) = 0 + 3 = 3

F(0,1) + s(A,-) = -5 + -5 = -10

F(1,0) + s(-,A) = -5 + -5 = -10

Et ainsi de suite.

j 0 1 2 3

i - (gap) A C T

0 - (gap) 0 -5 -10 -15

1 A -5 3 -2 -7

2 C -10 -2 6 1

3 G -15 -7 1 5

4 C -20 -12 -4 0

5 T -25 -17 -9 -1

F(2,1) aura pour valeur la valeur maximale de l'une des possibilits suivantes :

F(1,0) + s(C,A) = -5 + -1 = -6

F(1,1) + s(C,-) = 3 + -5 = -2

F(2,0) + s(-,A) = -10 + -5 = -15

Pour reconstituer l'alignement, on dmarre de la dernire case (5,3) et on dtermine la case

partir de laquelle cette case a t atteinte :

a. la valeur -1 de la case (5,3) ne peut-tre obtenue qu'en ajoutant +3 (soit une identit) la

valeur -4 [(case (4,2)]. Cel correspond l'alignement du "T" de la squence 1 avec le "T" de

la squence 2.

b. la valeur -4 de la case (4,2) peut tre obtenue de 2 manires :

en ajoutant +3 (soit une identit) la valeur -7 [(case (3,1)]. Cel correspond

l'alignement du "C" de la squence 1 avec le "C" de la squence 2.

en ajoutant -5 (soit un gap) la valeur 1 [(case (3,2)]. Cel correspond l'alignement

du "C" de la squence 1 avec un gap dans la squence 2.

c. Et ainsi de suite.

Ds lors, on obtient 2 alignements optimaux qui ont le mme score de +1.

3. Diversit des programmes - spcificit selon le type de donnes annalyses

Seq1 A C G C T

Seq2 A - - C T

Seq1 A C G C T

Seq2 A C - - T

Voir l'extrme diversit des programmes.

Type de squences Protines ou acides nucliques (ADN et/ou ARN) ou les deux

Type d'alignement Local ou global

Accessibilit Serveur Web ou implment sur l'ordinateur (lignes de commandes)

Spcialisation de

plus en plus

prononce du

champs

recherche dans des bases de donnes

alignement de squences 2 2 ("paiwise alignment")

alignement de squences multiples

analyse de gnome

recherche de motifs (sous-squences spcifiques "signature") : ScanProsite

d'application des

algorithmes /

programmes

alignement de millions de courtes squences (voir les nouvelles

technologies de squenage)

modlisation de structures homologues et superposition de structures 3D de

protines ("homology modeling"- "protein threading")

...

Les "benchmarks"

sont de vastes

ensembles de

donnes

(homognes, cures,

testes) qui

permettent de

comparer les

performances

d'algorithmes /

programmes.

Exemples de "benchmarks":

BAliBASE : le premier "benchmark" construit d'alignements de squences

protiques

HOMSTRAD ("HOMologous STRucture Alignment Database") : curated

database of structure-based alignments for homologous protein families.

PFAM ("Protein FAMilies") : contient toutes les familles de protines

identifies (environ 14.000 en 2012). Chacune est reprsente par un

alignement multiple des squences de la famille considre auquel est

adjoint un profil HMM ("Hidden Markov Model").

Affycomp : pour l'analyse de l'expression de gnes - puces ADN

Affymetrix

"The Protein Classification Benchmark collection" : pour l'annotation

fonctionnelle par apprentissage machine

Figure ci-contre : comparaison

des performances de plusieurs

programmes d'alignement de

squences

ClustalW

Muscle ("MUltiple

Sequence Comparison

by Log-Expectation")

Dialign

kalign

Mafft (2 versions testes

: fftns2 / linsi v. 6.815)

Probcons

T-Coffee ("Tree-based

Consistency Objective

Function For alignment

Evaluation")

Bleu : efficacit / Orange :

rapidit (chelle log)

Programme score

d'efficacit

temps

de

calcul

Probcons 79.4% 2.7

jours

T-Coffee 79.4% 2.7

jours

Mafft

(linsi) 81.6%

1.2

heures

Kalign 74.3%

3

minutes

!

Source : Thompson et al. (2011)

Les programmes sont de plus en plus spcifiques du type de donnes biologiques traites ou

du type d'analyse effectue :

analyse de gnomes ou assemblage d'EST en contigs

construction d'arbres phylogntiques

dtection de SNP ("Single Nucleotide Polymorphism")

recherche dans des banques gnralistes ou spcialises

analyse de paramtres physico-chimiques d'acides amins de protines

squences consensus conserves ("pattern")

recherche de motifs structuraux

analyse d'expression des gnes

annotations

...

Illustration : la comparaison de structures et la modlisation par homologie

On a de plus en plus d'informations qui tendent dmontrer que le nombre de

repliements des protines dans la nature est limit (quelques milliers). On peut donc

regrouper les protines selon le type de repliement qu'elles adoptent. Voir les bases de

donnes CATH et SCOP, par exemple.

Remarque : les protines dites "intrinsquement non structures" sont part.

Le pralable de la modlisation par homologie ("homology modeling"- "protein threading")

est de disposer d'au moins une protine dont la structure 3D a t dtermine. Elle sert de

"modle" pour modliser la structure 3D potentielle d'une protine pour laquelle on ne dispose

que de la squence. Cette squence doit bien sr tre proche (homologue) de celle de la

protine modle. Il faut donc d'abord effectuer des alignements de squences.

Exemple de logiciel / interface Web qui renvoie un fichier au format PDB :

ESyPred3D.

Exemples d'autres programmes de modlisation structurale par homologie :

1. DeepView

2. Chimera

3. MolIDE

Figure ci-contre :

Procdure de "PyMod"

qui intgre divers types

de donnes et

d'analyses :

recherche dans

une base de

donnes de

similarits avec

la squence

requte

alignement

multiple de

squences

modlisation de

structures 3D

par homologie

avec le logiciel

Modeller.

Chaque "bloc de

procdure" est

indpendant des autres

: on peut donc, par

exemple, effectuer un

alignement multiple de

squences sans

recherche pralable

dans une base de

donnes.

Source : Bramucci et al. (2012)

4. Programmes d'alignement local

a. Prambule

Les mthodes de programmation dynamique permettent de calculer, sous un systme de

scores donn, l'alignement optimal, global ou local, entre deux squences en un temps

proportionnel au produit des longueurs des deux squences.

Appliques une banque de squences, le temps de calculs de ces mthodes augmente

linairement avec la taille de la banque.

On dfinit 2 caractristiques pour une mthode de comparaison de squences :

la sensibilit : c'est l'aptitude dtecter toutes les similarits considres comme

significatives et donc gnrer le minimum de faux-ngatifs.

la slectivit : c'est l'aptitude ne slectionner que des similarits considres comme

significatives et donc gnrer le minimum de faux-positifs.

Les programmes des familles Fasta et BLAST sont des heuristiques qui rduisent le facteur

temps en "sacrifiant" un peu de sensibilit. L'un et l'autre simplifient le problme :

en pr-slectionnant les squences de la banque susceptibles de prsenter une

similarit significative avec la squence requte

et en localisant les rgions potentiellement similaires dans les squences

Ces tapes slectives permettent :

de n'appliquer les mthodes de comparaison, coteuses en temps, qu' un sous-

ensemble des squences de la banque

et de restreindre le calcul de l'alignement optimal des parties des squences

Cette logique de recherche plus rapide dans son excution, comporte donc le risque d'liminer

des squences qui ont une similarit plus difficile dtecter ou d'aboutir des alignements

sub-optimaux.

La sensibilit et la slectivit se rfrent une notion de rsultat significatif ou non. Les

programmes mesurent une signification statistique des rsultats par rapport un modle

alatoire : un rsultat est considr comme significatif si la probabilit de l'obtenir par hasard

est trs faible.

Les systmes de score partent du postulat que les rsultats les plus significatifs du point de

vue statistique sont aussi les plus pertinents du point de vue biologique. Or ce n'est pas

toujours le cas car des rsultats biologiquement intressants peuvent tre non significatfs sur

un plan statistique.

En d'autres termes, la signification biologique d'une similarit entre des squences n'est pas

forcment estimable sur la seule valeur d'un score.

b. Programme FASTA - Pearson & Lipman (1988)

Le programme ne considre que les squences prsentant une rgion de forte similitude avec

la squence recherche. Il applique ensuite localement chacune de ces meilleures zones de

ressemblance un algorithme d'alignement optimal.

La codification numrique des squences, c'est--dire la dcomposition de la squence en

courts motifs (nomms uplets) transcods en entiers, confre l'algorithme l'essentiel de sa

rapidit.

Etape 1 (figure ci-contre)

Les rgions les plus denses en identits entre les deux squences sont recherches. Ces

rgions sont appels points chauds ou "hot spots".

C'est le paramtre "ktup" qui dtermine le nombre minimum de rsidus conscutifs

identiques. Gnralement : ktup = 2 pour les protines - ktup = 6 pour l'ADN.

Recherche des meilleures diagonales : plusieurs "hot spots" dans une mme rgion

gnre des diagonales de similarit sans insertion ni dltions. Ces diagonales sont les

rgions ayant le plus de similarit. Elles sont reprsentes par un graphique de points

ou "dotplot".

Lorsqu'une squence est compare une base de donnes, la premire tape est effectue pour

chaque squence prsente dans cette base de donnes.

Etape 2

Les dix meilleures diagonales sont rvalues l'aide d'une matrice de substitution et

les extrmits de ces diagonales sont coupes afin de conserver les rgions ayant les

plus hauts scores seulement. Cette recherche de similitude est faite sans insertions ni

dltions.

Le score le plus lev obtenu est appel le score "init1". Il est attribu la rgion ayant

le plus fort score parmi les 10 analyses.

Etape 3

Les diagonales trouves l'tape 1 dont le score dpasse un certain seuil ("cutoff"),

sont relies entre elles pour tendre la meilleure similarit.

Ces nouvelles rgions contiennent des insertions et/ou des dltions

Le score des nouvelles rgions est calcul en combinant le score des diagonales relies

diminu d'un score de pnalit de jonction des diagonales.

Le score le plus lev obtenu cette tape s'appelle le score "initn".

Cette tape permet d'liminer les segments peu probables parmi ceux dfinis l'tape

prcdente.

Etape 4 (figure ci-contre)

La rgion initiale qui a gnr le score"init1" est de nouveau value avec un

algorithme de programmation dynamique sur une fentre de rsidus dont la largeur est

dtermine par le paramtre "ktup". Le nouveau score est "opt".

Les squences de la base de donnes sont classes selon leurs scores "initn" ou "opt".

Les squences sont alignes avec la squence cible l'aide de l'algorithme de Smith &

Waterman : le score final est le score Smith & Waterman.

Interprtation des rsultats

La sortie de FASTA se dcompose en trois parties :

colonne 1 : chelle de valeurs

colonne 2 : nombre de squences dans la banque donnant un "z-score" = valeur

colonne 3 : nombre de squences dans la banque donnant une "E-value" = valeur

"init1" = "initn" = "opt" : 100% de similarit

"initn" > "init1" : plusieurs rgions de similarit relies par des gaps

"initn" > "opt" : pas de similarit

c. Les programmes BLAST (Basic Local Alignment Search Tool) - Altschul et al.

(1990)

Mthode heuristique qui utilise la mthode de Smith & Waterman.

C'est un programme qui effectue un alignement local entre deux squences nucliques

ou protiques.

La rapidit de BLAST permet la recherche des similarits entre une squence requte

et toutes les squences d'une base de donnes.

Voir une description de l'algorithme de BLAST

Les diffrents programmes BLAST

Acides nucliques

1. "MEGABLAST" est l'outil de choix pour identifier une squence.

2. "Standard nucleotide BLAST" est mieux adapt la recherche de squences

similaires mais pas identiques la squence requte.

3. L'option "Search for short and near exact matches" de "Nucleotide BLAST" est

adapt la recherche d'amorces ("primer") ou de courts motifs nuclotidiques.

Program Word Size

DUST

Filter

Setting

Expect Value

Standard blastn 11 On 10

Search for short and

near exact matches 7 Off 1000

Protines

1. Il n'y a pas d'quivalent de "MEGABLAST" pour les requtes protiques.

2. "Standard protein BLAST" est le mieux adapt la recherche de squences

protiques.

3. "PSI-BLAST (Position-Specific Iterated-BLAST)" est adapt la recherche de

similarit fine entre squences protiques. A utiliser quand une recherche BLAST a

chou ou renvoy des rsultats tels que : "hypothetical protein" or "similar to...".

4. "PHI-BLAST (Pattern-Hit Initiated-BLAST)" est adapt la recherche de

squences protiques qui contiennent un motif spcifi par l'utilisateur ET sont

similaires la squence requte dans le voisinage proche du motif.

5. "Search for short nearly exact matches" de "Protein BLAST" est adapt la

recherche de similarit dans le cas de courtes squences peptidiques. Les valeurs des

paramtres "Expect value cutoff" et "word size" sont modifis la matrice PAM30 (plus

stringente) remplace la matrice BLOSUM62. Une squence requte infrieure 5

acides amins est dconseille.

Program Word

Size

SEG

Filter Expect Value Score Matrix

Standard protein BLAST 3 On 10 BLOSUM62

Search for short and near

exact matches 2 Off 20000 PAM30

6. "Nucleotide query - Protein db [blastx]" est adapt pour trouver des squences

protiques similaires celles codes par une squence requte nuclotidique. Trs

utile pour l'analyse massive de squence d'EST ("Expressed Sequence Tags").

7. "Protein query - Translated db [tblastn]" est adapt pour trouver des rgions

codantes des protines homologues dans un ensemble de squences nuclotidique non-

annotes. Trs utile pour l'analyse de squence d'EST et de brouillons de gnomes

(HTG).

8. "Conserved Domain Database (CDD)": ce service utilise le programme "Reverse

Position Specific BLAST (RPS-BLAST)" pour identifier des domaines protiques

conservs en comparant la squence requte contre des bases d'alignements de

domaines conservs obtenues avec des matrices de scores de position spcifiques

"Position specific scoring matrices (PSSMs)". Les bases de donnes sont : "SMART",

"PFAM" et "LOAD" ("Library Of Ancient Domains").

9 "Conserved Domain Architecture Retrieval Tool (CDART)" permet d'examiner la

structure en domaine de toutes les protines de la base de donnes BLAST. Plus

sensible qu'une recherche BLAST classique car CDART est li au programme RPS-

BLAST ("Reverse Position-Specific BLAST") qui est lui-mme une "variation" du

programme "PSI-BLAST ".

10. "BLAST 2 Sequences" permet la comparaison de 2 squences requte. Ne

recquiert pas de format particiliers des squences. La squence entre en second est

considre comme la "base de donne" contre laquelle est effectue la comparaison.

First sequence Second

Sequence Program

Nucleotide Nucleotide blastn or

tblastx

Nucleotide Protein blastx

Protein Nucleotide tblastn

Protein Protein blastp

11. Dernier "n" des programmes de la famille : DELTA-BLAST ("Domain Enhanced

Lookup Time Accelerated BLAST"). Une recherche rapide de type RPS-BLAST

permet de construire un profil PSSM ("Position Specific Scoring Matrix") puis de

rechercher ce PSSM dans une base de donnes BLAST. Les rsultats de DELTA-

BLAST peuvent servir de point de dpart pour une recherche de type PSI-BLAST.

Un nouveau programme : CS-BLAST ("context-specific BLAST"). Pour chaque acide

amin, CS-BLAST tient compte de l'influence de la squence en acides amins qui

l'entoure, sur la probabilit de mutation de l'acide amin en question. En 2 itrations de

recherche, CS-BLAST donne un rsultat plus sensible que 5 itrations avec PSI-Blast

("Position specific iterative BLAST").

Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein

database search programs" Nucleic Acids Res. 25, 3389 - 3402

Biegert A. & Soding J.(2009) "Sequence context-specific profiles for homology searching"

(Proc Natl Acad Sci USA 106, 3770 - 3775)

Les programmes FASTA et BLAST suivants sont quivalents :

Comparaison de squence nuclique / banque nuclique : FASTA - BLASTN

Comparaison de squence protique / banque protique : FASTA - BLASTP

Comparaison de squence protique / banque nuclique (traduite dans les 6 phases) :

TFASTA - TBLASTN

Complment sur PHI-Blast

Choix des diffrentes bases de donnes de squences de protines

Bases de

donnes Description

nr Non-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF,

excluding those in env_nr.

refseq Protein sequences from NCBI Reference Sequence project.

swissprot Last major release of the SWISS-PROT protein sequence database (no

incremental updates).

pat Proteins from the Patent division of GenBank.

month All new or revised GenBank CDS translations + PDB + SwissProt + PIR +

PRF released in the last 30 days.

pdb Sequences derived from the 3-dimensional structure records from the Protein

Data Bank.

env_nr Non-redundant CDS translations from env_nt entries.

Smart v4.0 663 PSSMs from Smart, no longer actively maintained.

Pfam v11.0 7255 PSSMs from Pfam, not the latest.

COG v1.00 4873 PSSMs from NCBI COG set.

KOG v1.00 4825 PSSMs from NCBI KOG set (eukaryotic COG equivalent).

CDD v2.05 11399 PSSMs from NCBI curated cd set.

Ce programme prend en entre une squence requte protique et un motif dfini par une

expression rgulire.

PHI-Blast est adapt la recherche de squences protiques qui contiennent un motif spcifi

par l'utilisateur (fentre "PHI pattern" de la section "Algorithm") ET sont similaires la

squence requte (fentre "Search") dans le voisinage proche du motif.

La syntaxe du motif doit suivre la syntaxe de PROSITE.

Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-

[KR](4)

Application :

Aller BLAST

dans la fentre du haut ("Enter accession number(s)") : entrer le numro d'accession

AAC05356

choisir PHI-BLAST et dans la fentre qui apparat, entrer le profil : DSD

(caratristique des protines LEA de la classe 4)

Complment sur PSI-Blast

PSI-Blast est adapt :

la recherche de similarit fine entre squences protiques

la dtection de membres loigns d'une famille protique

l'tude de la fonction de protines inconnues

PSI-Blast construit un profil partir de l'alignement multiple des squences qui ont obtenu les

meilleurs scores avec la squence requte. Ce profil est compar la banque interroge et est

affin au fur et mesure des itrations. Ainsi, la sensibilit du programme est augmente.

Un profil est un tableau des frquences observes des acides amins (ou nuclotides) chaque

position dans un alignement multiple.

Exemple (trs simple) d'alignement multiple de 2 squences de 4 acides amins :

DWKD

DWNG

Le profil de probabilits correspondant :

1 2 3 4

D 1.0 0.0 0.0 0.5

G 0.0 0.0 0.0 0.5

K 0.0 0.0 0.5 0.0

N 0.0 0.0 0.5 0.0

W 0.0 1.0 0.0 0.0

Ce qui ce signifie :

probabilit de trouver D en position 1 = 1.0 (un D en premire position de chaque

squence)

probabilit de trouver G en position 1 = 0.0 (aucun G en premire position)

etc ...

L'utilisation d'un profil permet une recherche beaucoup plus sensible de squences

homologues loignes que l'utilisation d'une squence seule car le profil contient de

l'information sur la variabilit des diffrentes positions parmi les protines connues. En

contrepartie un profil est moins spcifique qu'une simple squence seule.

Si on utilise PSI-Blast sur un sous ensemble particulier de squences, il est probable que l'on

ne trouve pas tous les homologues, surtout si leur squence est peu conserve par rapport la

squence requte. Pour amliorer la sensibilit de la dtection des homologues loignes ,

il est prfrable d'effectuer un alignement avec PSI-Blast sur une banque de squences plus

grande.

Mais la sensibilit est diminue si la banque de donnes est trop grande puisque la frquence

d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de

donnes. Or, pour un alignement de 2 squences, plus le score est petit, plus la probabilit que

ces 2 squences soient homologues est grande.

Il est donc prfrable de chercher d'abord dans une banque "nettoye" ("curated") comme la

base de donnes non-redondante ("nr") o toutes les squences identiques ont t limines

sauf un exemplaire. Si plusieurs squences sont dans cette banque, on peut calculer un profil

et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi

la sensibilit de la recherche d'homologues.

Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating PSI-

BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664

Profils et "Position Specific Scoring Matrice" (PSSM)

La construction de ces profils est base sur la frquence de chaque rsidu d'acide amin une

position spcifique d'un alignement multiple

Colonne 1 : frquence (A, 1) = 0/5 = 0 ; frquence (G, 1) = 5/5 = 1 ; ...

Colonne 2 : frquence (A, 2) = 0/5 = 0 ; frquence (H, 2) = 5/5 = 1 ; ...

...

Colonne 15 : frquence (A, 15) = 2/5 = 0,4 ; frquence (C, 15) = 1/5 = 0,2 ; ...

Certaines frquences sont gales 0 du fait du nombre de squence dans l'alignement

multiple. Une telle frquence pourrait entraner une "exclusion" de l'acide amin concern

cette position.

On contourne ce biais en ajoutant une "petite valeur" toutes les frquences observes. Cette

faible "frquence non-observe" s'appelle un "pseudo-count". En reprenant l'exemple

prcdent avec un "pseudo-count" de 1 :

Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ...

Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ...

...

Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ...

La frquence de chaque acide amin dtermine chaque position est compare la

frquence laquelle chaque acide amin est attendu dans une squence au hasard. On fait

l'hypothse que chaque acide amin est observ avec une frquence identique dans une

squence au hasard.

Le score est calcul partir du logarithme du rapport (frquences observes) / (frquences

attendues) : scoreij = log (f'ij / qi)

o :

scoreij est le score pour le rsidu i la position j

f'ij est la frquence relative pour le rsidu i la position j, corrige par les "pseudo-

count"

qi est la frquence relative attendue pour le rsidu i dans une squence au hasard

Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complte calcule partir de

l'exemple prcdent

La matrice PSSM est ensuite applique la squence requte en utilisant une "fentre

glissante".

A chaque position, un score PSSM est ca lcul en sommant les scores de toutes les colonnes.

Le plus haut score est retenu

Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-

BLAST" / SIB Course

Conclusion PSSM

Avantages Inconvnients

Bonne mthode pour de courtes

rgions conserves.

Approche statistique (base sur la

taille des banques) / interprtation des

rsultats sur la base d'une "e-value".

Insertions et dltions interdites avec

les matrices PSSm . Sinon, il faut

utiliser des "profils gnraliss".

Les squences correspondant de

longues regions ne peuvent tre

dcrites avec cette mthode.

A utiliser pour modliser de courtes rgions avec une forte variabilit mais de longueurs

constantes.

Outils :

"The MEME Suite" : Motif-based sequence analysis tools

Profils gnraliss : suite "Pftools"

"InterProScan" : outils de InterPro

Bases de donnes :

"Prosite" : Database of protein domains, families and functional sites

"PRINTS": PSSM database

"Pfam": protein domain database

"SMART ": protein domain database

"ProDom ": protein domain database

"InterPRO ": protein "signatures" database

Application PSI-Blast

1. Une recherche standard BLAST est effectue contre une base de donnes en utilisant une

matrice de substitution.

2. Une matrice PSSM est construite automatiquement partir d'un alignement multiple des

squences ayant le plus haut score ("hits") dans cette premire recherche BLAST.

positions trs conserves : scores levs

positions faiblement conserves : scores faibles

3. La matrice PSSM remplace la matrice initiale et on effectue une 2me recheche BLAST.

4. Les tapes 3 et 4 sont rptes et chaque fois, les squences nouvellement trouves sont

ajoutes afin de construire une nouvelle matrice PSSM.

5. On considre que le programme PSI-BLAST a converg quand aucune nouvelle squence

n'est ajoute.

5. Programme d'alignement multiple progressif : Clustal W

La complexit des algorithmes de programmation dynamique croit de faon exponentielle

avec le nombre de squences traiter, ce qui rend difficile leur utilisation pour plusieurs

squences.

Pour contourner ce problme, plusieurs heuristiques ont t proposes. Le programme

ClustalW utilise un algorithme d'alignement multiple progressif.

Etape 1

La similarit de chaque squence est value par rapport toutes les squences.

Un score de similitude est calcul pour chaque paire de squences selon un alignement

approximatif global rapide : seuls les fragments exactements apparis et les diagonales

avec un grand nombre d'appariements sont pris en compte.

On obtient ainsi une matrice de distances.

Etape 2

Un dendrogramme ("guide tree") est construit : il s'agit d'un arrangement traduisant les

relations globales de parent entre les squences. Cet arbre phylognique est construit

selon la mthode "Neighbour-Joining".

Il indique l'ordre partir duquel l'alignement multiple graduel sera tabli.

Etape 3

Le programme construit un premier alignement multiple (par programmation

dynamique ou par une mthode semblable celle de FASTA): les 2 squences les plus

similaires servent de base pour l'laboration de cet alignement multiple primaire.

On obtient une premire squence consensus qui est aligne avec la 3e squence la

plus similaire.

Toutes les squences (des plus proches aux plus distantes) sont ainsi progressivement

ajoutes par construction de consensus successifs jusqu' l'alignement multiple final.

(Source : La Base de Connaissances en Bio-informatique)

Le risque le plus important en ce qui concerne les alignements multiples progressifs est qu'un

alignement erron l'tape initiale engendre une erreur qui est amplifie dans l'alignement

multiple global.

Le programme ClustalW comporte des particularits qui minimisent ce risque :

le poids des squences est ajust

des matrices de substitution appropries sont utilises selon l'tape de l'alignement et

la divergence des squences

l'introduction de gap est favorise des endroits spcifiques

Application

Aller "Sequence Manipulation Suite".

Gnrer 10 squences ADN alatoires de 20 paires de

base.

Faire un copier-coller des 2 premires dans un diteur de

texte.

Item : "Random Sequences".

Choisir : "-Random DNA

Sequence"

Aller "Clustal W" - EBI et coller les 2

squences dans la fentre de soumission.

Lancer l'application. Quel est le rsultat et

pourquoi ?

"ERROR: Multiple sequences found with

same name, random (first 30 chars are

significant)"

Modifier le nom des squences dans l'diteur de

texte et coller les 2 squences dans la fentre de

soumission.

Modifier les paramtres des gap et le choix des

matrices. et relancer l'application.

Voir l'alignement : "Alignment file" -

Lien "clustalw - xxxxxxxxx.aln"

Voir le score :"Output file" - Lien :

"clustalw - xxxxxxxxxxx.output"

6. Interprtation des rsultats : E-value, P-value

La signification des alignements est un point capital. Elle repose sur des valeurs spcifiques

mais aussi et (peut-tre surtout ?) sur une inspection visuelle du rsultat par l'exprimentateur

et donc sur son expertise quant aux squences sur lesquelles il travaille.

Cette signification est value statistiquement en fonction de la longueur et de la composition

de la squence, de la taille de la banque et de la matrice de scores utilise.

"Sequences producing a significant alignment" : squences ayant un alignement significatif. A

chacune de ces squences sont attribus plusieurs valeurs spcifiques qui sont une indication

de la qualit de l'alignement.

"High-Scoring Segment Pairs" ou "HSP" : les couples de squences les plus longues dont les

scores ne peuvent tre amliors aprs extension d'un segment initial (Voir une description de

l'algorithme de BLAST).

a. "E-Value" pour un score S (E = Expected)

Pour des squences de longueurs m et n, la statistique d'un score HSP

est caractrise par 2 paramtres de la distribution des valeurs

extrmes produites par l'algorithme de Smith-Waterman :

K et

"E-Value" est le nombre d'alignements diffrents que l'on peut

esprer trouver dans les banques avec un score suprieur ou gal S.

C'est donc la probabilit d'observer au hasard ce score dans les

banques de squences considres.

E-Value = K.m.n. e-S

(1)

"bit score S'" : ce score est driv du score brut S de l'alignement

aprs normalisation.

Il est utilis pour comparer des scores provenant de recherches

diffrentes :

S' = .S - Ln K / Ln 2

E-Value = m.n. 2-S'

"E-Value" Interprtation

Plus la "E-Value" est faible, plus l'alignement est significatif.

Pour des squences requtes trs courtes, la "E-Value" est leve, mme pour les squences

dont l'alignement obtenu est significatif.

< 1 e-100

La probabilit de trouver par hasard un alignement comme celui qui

est obtenu est infrieure 1 e-100

--> appariement exact : mme squence, mme origine

1 e-100

< E < 1 e-50

squences quasiment identiques : allles, mutations, espces voisines

1 e-50

< E < 0,1 une ventuel lien entre la squence requte et celles qui ont t

trouves

> 0,1 squences de l'alignement rejeter, sans lien avec la squences

requte

b. "P-Value" pour un score S

Le nombre d'HSP avec un score suprieur ou gal S et obtenus par hasard suit une

distribution selon la loi de Poisson.

La probabilit de ne trouver aucun HSP avec un score suprieur ou

gal S est :

E est la "E-Value" pour le score S calcule avec l'quation (1).

P = e-E

Donc, la probabilit de trouver au moins 1 HSP avec un score

suprieur ou gal S est : P-Value = 1 - e

-E

E P-Value

10 0,99995

5 0,993

trs faible valeurs de "E-Value" et de "P-Value" peu prs gales

BLAST renvoie la "E-Value" plutot que la "P-Value".

En effet, il est plus facile de comprendre la diffrence entre "E-Value" = 5

et "E-Value" = 10 qu'entre "P-Value" = 0.993 et 0.99995.

7. Liens Internet et rfrences bibliographiques

"Cours d'autoformation en bioinformatique" - Universit Paris 5 : Trs bien

fait et didactique. Avec exercices corrigs d'autovaluation. Aller au site

"Sequence Manipulation Suite" : ensemble d'applications Java pour

manipuler les squences. Trs bien fait et didactique pour se familiariser

rapidement. Superbe

Aller au site

"An introduction to Bionformatics Algorithms" Aller au site

"The Statistics of Sequence Similarity Scores" - Altschul, S.F. NCBI - Blast

Needleman, S.B. & Wunsch, C.D. (1970) "A general method applicable to the search for

similarities in the amino acid sequence of two proteins" J. Mol. Biol. 48, 443 - 453

Smith, T. & Waterman M. (1981) "Identification of common molecular subsequences" J.

Mol. Biol. 147, 195 - 197

Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990)

"Basic local alignment search tool" J. Mol. Biol. 215, 403 - 410

BLAST

Article

Pearson, W.R. & Lipman, D.J. (1988) "Improved tools for biological

sequence comparison" Proc. Natl. Acad. Sci. USA 85, 2444 - 244 FASTA

Thompson, J.D., Higgins, D.G. & Gibson, T.J. (1994) "CLUSTAL W:

improving the sensitivity of progressive multiple sequence alignment through

sequence weighting, position-specific gap penalties and weight matrix

choice" Nucleic Acids Res. 22, 4673 - 4680

ClustalW

Article

Corpet, F. (1988) "Multiple sequence alignment with hierarchical clustering"

Nucleic Acids Res. 16, 10881 - 10890 Multalin

Sonnhammer et al. (1998) "Pfam: multiple sequence alignments and HMM-

profiles of protein domains" Nucleic Acids Res. 26, 320 - 322

PFAM

Article

Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein

database search programs" Nucleic Acids Res. 25, 3389 - 3402

Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating

PSI-BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664

Edgar, R.C. (2004) "MUSCLE: multiple sequence alignment with high

accuracy and high throughput" Nucleic Acids Res. 32, 1792 - 1797

Biegert A. & Soding J. (2009) "Sequence context-specific profiles for

homology searching" Proc Natl Acad Sci USA 106, 3770 - 3775

Thompson et al. (2011) "A Comprehensive Benchmark Study of Multiple

Sequence Alignment Methods: Current Challenges and Future Perspectives"

PLoS ONE 6, e18093

Article

Article

Article

Eswaret et al. (2006) "Comparative protein structure modeling using

MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6

Bramucci et al. (2012) "PyMod: sequence similarity searches, multiple

sequence-structure alignments, and homology modeling within PyMOL"

BMC Bioinformatics 13, S2

Braberg et al. (2012) "SALIGN: a web server for alignment of multiple

protein sequences and structures" Bioinformatics 28, 2072 - 2073

Article

Article

CATH ("Class, Architecture, Topology and Homology")

SCOP ("Structural Classification Of Proteins")

CATH

SCOP

CHAPITRE V : La phylognie

Introduction

L'volution de la structure gnrale du gnome conduit des contraintes volutives

(composition en bases, vitesse d'volution, par exemple) qui s'exercent simultanment sur

tous ou un grand nombre de gnes indpendamment de la fonction particulire de chaque

gne. La phylognie tente de reconstituer les filiations volutives (arbres) aboutissant aux

squences tudies. Elle permet, partir de squences alignes, la suggestion d'un arbre

phylogntique qui tente de reconstruire l'histoire des divergences successives durant

l'volution, entre les diffrentes squences et leur anctre.

V-1- Quelques dfinitions

Horloge molculaire : http://www.univ-tours.fr/genet/gen13.html (GENET)

Distance volutive : nombre de substitutions au cours de lvolution entre squences.

Transition/transversion : http://anthropologie.unige.ch/evolution/transpos.html

V-2- Mthodes de reconstruction partir de squences

Ces mthodes comme cela vient dtre dit tente de suggrer un arbre phylogntique. Chaque

nud dun arbre est une estimation de lanctre des lments inclus. IL faut toujours garder

lesprit que lon obtient toujours seulement une estimation de larbre. Cela revient dire

quen pratique les arbres sont imparfaits et que leur prcision doit toujours tre

statistiquement tablie.

a) Principe de base de toutes les mthodes

On dispose dun ensemble de squences. Les diffrentes tapes sont :

1) Aligner proprement les squences

2) Appliquer des mthodes de gnration d'arbres

3) Evaluer statistiquement la robustesse des arbres.

V-3- Les diffrentes mthodes de gnration darbres

a) Mthode de parcimonie

Elle construit l'arbre le plus parcimonieux (le plus court), ayant le minimum de pas (de

substitutions, insertions, dltions pour les squences, ou de changements d'tats pour les

caractres discrets ). Autrement dit, l'arbre le meilleur est celui qui a besoin du minimum de

changements

b) Mthode de vraisemblance

Cette mthode s'applique quand le taux de changements est trs lev (d'o une approche

statistique). Les bases ou AA de toutes les squences chaque site sont considres

sparment et le log de la vraisemblance est calcul pour une topologie donne en utilisant un

modle de probabilit. Ce log de la vraisemblance est cumul sur tous les sites et la somme

est maximise pour estimer la longueur de branche de l'arbre. Cette procdure est rptes

pour toutes les topologies possibles et la topologie ayant la plus haute vraisemblance est

choisie.

c) Mthode des distances

Les distances volutives (voire dfinitions) sont 2 2 dfinies. Elles doivent tre

indpendantes et sont considres dans la mthode comme additives. Elles minimisent la

somme des carres des diffrences entre distances observes et calcules. On convertit donc

les donnes de squences en valeurs de distances arranges en matrice.

La topologie de l'arbre est construite par une mthode de classification (comme UPGMA ou

Neighbor joining (NJ)). La mthode donne une estimation de la distance pour chaque paire de

longueurs de branche dans le chemin d'une squence vers une autre.

* avantages : Facile gnrer. Calculs rapides. Bon rsultats pour des squences de forte

similitude..

* inconvnients : les squences ne sont pas considres en tant que telles. Les sites sont traits

de manire quivalentes. Pas applicable aux squences trs divergentes.

Les diffrentes distances volutives

Distance de Jukes et Cantor

Distance de Kimura

Distance de Poisson entre squences protiques

V-4- Fiabilit et robustesse des topologies

Comme cela a t dit, la prcision des arbres doit toujours tre statistiquement tablie. Pour

cela deux grandes mthodes sont utilises :

Bootstrap

Jacknife

Dans les deux cas, on value par chantillonnage au hasard des donnes alignes (avec

rptition), la robustesse des topologies. Une bonne vrification ncessite au moins 100

chantillonnages. On gnre donc partir d'un jeu de squences alignes, un ensemble

alatoire de N jeu de squences alignes. Des arbres sont calculs partir des diffrentes

mthodes et un arbre consensus est obtenu.

V-5- Les outils et programmes

a) Choix du programme

Il dpend :

1) de la nature des donnes

2) des suppositions biologiques et choix de l'algorithme

3) du type de rsultats attendus

b) Les logiciels

Alignement multiple des squences

ClustalW, MultiAlin,

Mthodes de gnration darbre

Mthode de parcimonie

protpars pour les protines

dnapars pour ADN/ARN

Mthode de vraisemblance

Dnaml pour ARN/ADN

fastDNAML plus rapide (et intgr dans le package phylo_win)

Mthode des distances

fitch Matrice de distances

(Dans FITCH les segments ne sont pas proportionnel au temps coul)

kitsch Matrice de distances

neighbor Neighbor-joining (NJ) et UPGMA

NJ est probablement la meilleure mthode et la plus simple utiliser :

prodist (ou nucdist), puis neighbor

Reprsentation graphique de larbre

Les programmes drawgram, drawplot (PHYLIP) , njplot (Mac, PC ou

Unix), treetool (Xwindow) ou growtree (GCG) permettent des reprsentations graphiques.

Evaluation de larbre

Seqboot

V-6- Les principaux packages en phylognie

GCG

La chane de programmes dans GCG est la suivante :

pileup (Alignement multiple) => distances (Construction arbre) => growtree

(Reprsentation graphique)

Le calcul des distances 2 2 entre les squences alignes par pileup peut tre fait selon

plusieurs mthodes :

1 Uncorrected distance

2 Jukes-Cantor distance

3 Kimura protein distance

CLUSTALW

Dans les diffrentes rubriques de ClustalW on trouve :

1. Multiple alignments qui permet daligner les squences

2. Phylogenetic trees

1. Draw tree qui permet la cration de larbre selon la

mthode de NJ

2. Bootstrap qui permet lvaluation de larbre

Larbre ainsi gnr pourra tre repris dans les logiciels ddition graphique darbre comme

Njplot.

Environnement PHYLIP

Ensemble de plus de 40 programmes concernant la phylognie molculaire

Documentation gnrale : http://www.infobiogen.fr/docs/PHYLIPdoc/

Alignement multiple : utiliser un logiciel comme clustalW, en utilisant loption de sortie des

fichiers au format Phylip.

Mthodes de construction darbres

Parcimonie : dnapars (dna), protpars (prot)

Distances : dnadist (Kimura ; ML ; JC), Protdist, fitch, kitsch, neighbor

Vraisemblance : dnaml

Evaluation de larbre : seqboot, consens

Des serveurs bien utiles

Avant la fin de ce cours, il est important de vous donner quelques liens vers des serveurs vous

permettant de devenir encore plus autonome pour analyser vos squences. Ces serveurs vous

Documents

NOUVEAU COURS BIOINFORMATIQUE.pdf