NOUVEAU COURS BIOINFORMATIQUE.pdf

Embed Size (px)

Citation preview

  • La bioinformatique :

    I- dfinition, description, dmarche et principales tapes

    Dfinition

    La bioinformation est l'information lie aux molcules biologiques : leurs structures, leurs

    fonctions, leurs liens de "parent", leurs interactions et leur intgration dans la cellule.

    Divers domaines d'tudes permettent d'obtenir cette bioinformation : la gnomique

    structurale, la gnomique fonctionnelle, la protomique, la dtermination de la structure

    spatiale des molcules biologiques, la modlisation molculaire ...

    La bioinformatique est l'analyse de la bioinformation.

    Description

    C'est une discipline rcente (quelques dizaines d'annes).

    C'est une discipline "hybride" : elle est fonde sur des concepts et des formalismes issus de la

    biologie, de l'informatique, des mathmatiques et de la physique.

    C'est une discipline qui utilise toutes les potentialits de traitement de l'informatique :

    modles thoriques, algorithmes et programmes, ordinateurs, rseau Internet, bases de

    donnes ...

    Dmarche

    1. Compilation et organisation des donnes biologiques dans des banques de donnes :

    ces banques sont soit gnralistes (elles contiennent le plus d'information possible sans

    expertise particulirede l'information dpose), soit spcialises dans un domaine autour de

    thmes prcis.

    2. Traitements systmatiques des donnes : l'objectif principal est de reprer et de

    caractriser une fonction et/ou une structure biologique importante. Les rsultats de ces

    traitements constituent de nouvelles donnes biologiques obtenues "in silico".

    3. Elaboration de stratgies :

    le but est d'apporter des connaissances biologiques supplmentaires en combinant les

    donnes biologiques initiales et les donnes biologiques obtenues "in silico".

    ces connaissances permettent, leur tour, de dvelopper de nouveaux concepts en

    biologie. ces connaissances permettent, leur tour, de dvelopper de nouveaux

    concepts en biologie.

    concepts qui ncessitent l'laboration de nouvelles thories et outils en mathmatiques

    et en informatique.

  • Principales tapes en biologie molculaire, en informatique et en bioinformatique

    1965 Premire compilation de protines ("Atlas of Protein

    Sequences") : Margaret Dayhoff et al.

    1967 Article : "Construction of Phylogenetic Trees" - Fitch &

    Margoliash

    1970 Algorithme pour l'alignement global de squences :

    Needleman & Wunsch

    1971 Premier microprocesseur Intel 4004

    1972 Clonage de fragments d'ADN dans un virus, l'ADN

    recombin : Paul Berg, David Jackson, Robert Symons

    1973

    Dcouverte des enzymes de restriction qui coupe

    spcifiquement l'ADN.

    Mthode de transfection (introduction d'un ADN tranger)

    des cellules eucaryotes grce un virus (vecteur).

    1974

    Programme de prdiction de structures secondaires des

    protines : "Prediction of Protein Conformation" - Chou &

    Fasman

    1977

    Micro-ordinateurs

    Techniques de squenage d'ADN : Frederick Sanger /

    Maxam & Gilbert

    1978 - 1980

    Mutagnse dirige : Michael Smith

    Squenage du 1er gnome ADN, le bactriophage

    phiX174 : Frederick Sanger

    Premires bases de donnes : EMBL, GenBank, PIR

    1980 Accs tlphonique la base de donnes PIR

    1981 : 370.000 nuclotides

    GenBank : 270 squences

    Micro-ordinateur IBM-PC 8088

    Programme d'alignement local de squences : Smith &

    Waterman

    1983 IBM-XT disque dur (10 Mb)

    1984

    Amplification de l'ADN : raction de polymrisation en

    chane (PCR) - Karry Mullis

    MacIntosh : interface graphique & souris

    1985 "FASTA" : Programme d'alignement local de squences -

    Pearson & Lipman

    1987

    Nouveau vecteur permettant de cloner des fragments d'ADN

    20 fois plus grands : le YAC (Yeast Artificial Chromosome).

    Rend possible l'tude de grands gnomes.

    1988 Taq polymrase, enzyme thermostable pour la PCR.

  • 1989 INTERNET succde ARPANET

    1990

    Clonage positionnel et premier essai de thrapie gnique.

    "BLAST" : Programme d'alignement local de squences -

    Altschul et al.

    1992 Squenage complet du chromosome III de levure

    1996 Squenage complet de la levure (consortium europen)

    1997 11 gnomes bactriens squencs

    1998 Squenage de 2 millions de nuclotides par jour

    2000 Squenage du 1er gnome de plante : Arabidopsis thaliana

    2001 Squence "premier jet" complte du gnome humain

    Janvier 2012

    Plus de 393.000.000.000

    nuclotides !

    Plus de 3040 gnomes eucaryotes et procaryotes squencs et

    des milliers en projet (Genomes OnLine) !

    Voir le dveloppement de la banque de donnes EMBL

    (banque europenne cre en 1980)

    Voir le dveloppement de la banque de donnes Genbank

    (cre en 1982 et diffuse par le National Center for

    Biotechnology Information)

    A quelles fins la bioinformatique est-elle utilise ?

    L'acquisition des donnes biologiques Bases ou banques de donns & internet

    les squences nuclotidiques et les

    squences polypeptidiques

    les gels bidimensionnels et les

    diffrentes mthodes de spectromtrie

    de masse (protomique)

    les donnes de puce ADN

    les donnes de structures

    tridimensionnelles

    la bibliographie

    stocker, trier, organiser, corriger et

    annoter les donnes

    dvelopper des protocoles de

    communication interactive (internaute

    - banques ou entre banques)

    grer la diversit des formats des

    fichiers pour optimiser les changes de

    donnes

    Une grande partie du traitement des donnes s'appuie sur la comparaison de squences pour

    trouver des similarits, des motifs connus.

    Les buts sont multiples (liste non exhaustive) :

  • Acides nucliques

    la recherche de phase de lecture

    ouverte (gne) et de signaux de

    rgulation de la transcription et de la

    traduction, dtection de bornes

    introns/exons

    la recherche de rgions transcrites

    (EST) - profil d'expression des gnes

    (puces ADN, analyse d'images)

    la dtection de polymorphismes de

    nuclotide simple ou d'insertion /

    dltion

    la reconstruction d'arbres

    phylogniques

    l'analyse de gnomes entiers

    (gnomique structurale, syntnie)

    l'ontologie : l'organisation

    hirarchique de la connaissance sur

    un ensemble d'objets par leur

    regroupement en sous-catgories

    suivant leurs caractristiques

    essentielles.

    Protines

    traduction in silico

    taux de synthse des protines

    (protomique)

    prdiction de modification post-

    traductionnelles

    recherche de motifs structuraux :

    dtection de sites actifs (enzymes), de

    domaines, de types de repliement

    (famille de protines)

    prdiction de structures secondaires

    modlisation de structure

    tridimensionnelles

    l'ontologie : l'organisation hirarchique

    de la connaissance sur un ensemble

    d'objets par leur regroupement en sous-

    catgories suivant leurs

    caractristiques essentielles.

    Pour boucler la

    boucle :

    dveloppement de thories, de modles, d'algorithmes, de

    programmes, de langages pour rpondre aux besoins qui prcdent

    Buts plus gnraux

    moyen terme :

    biologie intgrative (mtabolisme, rseaux d'interactions entre

    molcules), modliser le fonctionnement global d'une cellule

    Applications : thrapie gnique, pharmacognomique (cibles pour la mise au point

    de molcules actives), analyse d'images (IRM)

    L'industrie de la sant est devenue la premire industrie mondiale avec un chiffre d'affaires de

    2000 milliards d'euros en l'an 2000, et une perspective de 4000 milliards en 2010.

    On value le march de la bioinformatique plus de 1,1 milliard d'euros en 2005, avec un

    taux de croissance annuel de 15,8% pour atteindre 3 milliard d'euros en 2010. Essentiellement

    pour des investissements en :

    dveloppement de logiciels d'analyses et services

    chimie informatique (recherche de mdicaments)

    pharmacognomique (test de mdicaments)

  • En ce qui concerne l'Europe, le march de la bioinformatique devrait passer de 257 millions

    d'euros en 2004 598 millions d'euros en 2011, avec un taux de croissance annuel de 14.4%

    essentiellement en protomique. (Source : "Genetic Engineering News")

    Source : "Business Communications Company"

    Les domaines d'tude en "ome" ou "omique"

    Le plein essor de la bioinformatique (telle qu'on la conoit maintenant) a commenc avec la

    gnomique (dbut des annes 80) marque par des vnements phares comme le squenage

    du gnome humain.

    Puis la quantit et la multiplicit d'informations biologiques obtenues de mme que les

    avances technologiques ont fait apparatre au fur et mesure d'autres domaines d'tude en

    "ome" ou "omique".

    Leur dfinition volue ce qui explique qu'elle puisse diffrer selon les sources.

    Domaine

    d'tude source dfinition

    Gnomique

    Les Actions

    Concertes

    Incitatives

    Ministre de la

    Recherche

    La gnomique est une nouvelle discipline de la biologie qui

    vise l'analyse molculaire et physiologique complte du

    matriel hrditaire des organismes vivants. [...] il s'agit de

    dduire les fonctions des gnes et leurs interactions partir

    de leurs squences, ce qui facilite l'intgration de la

    gnomique dans la physiologie. [...]

    La gnomique repose sur des techniques qui voluent une

    vitesse prodigieuse et l'ensemble des bases de donnes

    obtenues, qui reprsente des dizaines de milliards de

    caractres rpartis en dizaines de milliers de fichiers, pose

    dj aux informaticiens des problmes considrables pour

    classer et interprter cette norme masse de donnes.

  • Rapport sur

    Gnomique et

    informatique

    L'impact sur les

    thrapies et sur

    l'industrie

    pharmacaeutique

    F. Srusclat -

    Snateur (1999)

    La gnomique est l'tude exhaustive des gnomes et

    en particulier de l'ensemble des gnes, de leur

    disposition sur les chromosomes, de leur squence,

    de leur fonction et de leur rle.

    La cartographie physique est le positionnement de

    repres sur le gnome.

    Le squenage : pour connatre les "instructions "

    que renferme un fragment d'ADN, on lit la

    succession des bases puriques et pyrimidiques (A,

    T, G, C) de l'enchanement. Cette lecture est appele

    squenage.

    Gnomique

    structurale

    Voir les cours :

    Gnomique

    fonctionnelle

    vgtale

    et

    Protomique

    Elle dcrit l'organisation du gnome, ralise son

    squenage et dresse l'inventaire des gnes : prdiction des

    rgions codantes d'un gne - dentification des sites de

    rgulation de la transcription - identification d'exons et

    d'introns ...

    Dfinition : la gnomique structurale s'attle dterminer la

    structure 3D des protines codes par le gnome. Selon

    cette dfinition, elle devrait s'appeler "protomique

    structurale"...

    Gnomique

    fonctionnelle

    ou post-

    gnomique

    La gnomique fonctionnelle ou post-gnomique tudie le

    transcriptome (ensemble des ARN messagers transcrits

    partir du gnome). Le but est de dterminer la fonction des

    gnes partir de leurs produits d'expression (ARN et

    protines) et d'tudier leur mode de rgulation et leurs

    interactions.

    On inclue souvent la protomique dans la gnomique

    fonctionnelle.

    Protomique

    La protomique tudie le protome : ensemble des

    protines identifies partir d'un gnome. Toutes les

    cellules de l'organisme possdent le mme gnome, mais

    ont un protome diffrent selon l'organe et le moment du

    dveloppement de l'individu. La protomique s'attache

    dterminer la localisation, la structure et la fonction de ces

    protines. Elle analyse leurs interactions et leurs

    modifications au cours du temps.

    Les autres "omes" et "omiques"

    Mtabolomique : description de la population des diffrents

    mtabolites d'une cellule dans un stade physiologique

    donn.

    Interactome - interactomique : description des interactions

    entre toutes les macromolcules d'une cellule.

    On trouve aussi dans la liitrature : lipidome, protasome,

    rgulome, spliceosome, prdictome, ractome

  • Liens Internet

    Revue scientifique : "Bioinformatics"

    Revue scientifique : "Nucleic Acids Research"

    Revue scientifique : "OMICS: A Journal of Integrative Biology"

    Bioinformatics

    NAR

    OMICS

    Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic

    Nomenclature" Science 296, 671 - 672

    Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era"

    Nature Genetics 33, 305 - 310

    Article

    Article

    II. molcules support, types et obtention

  • 1. Deux types de molcules support de la bioinformation : les acides nucliques et les

    protines

    ADN : Acide

    DsoxyriboNuclique

    macromolcule :

    chane nuclotidique

    constitue par un

    enchanement

    d'units lmentaires

    : les

    dsoxyribonuclotide

    s

    forme de stockage de

    l'information

    gntique. Cette

    information est

    reprsente par une

    suite linaire de

    gnes

    forme de deux brins

    complmentaires

    enrouls en double

    hlice ce qui lui

    permet de se

    dupliquer en deux

    molcules identiques

    entre elles et

    identiques la

    molcule mre

    On distingue :

    l'ADN du gnome du

    noyau

    l'ADN du gnome

    mitochondrial

    l'ADN du gnome

    chloroplastique

    ARN : Acide RiboNuclique

    macromolcule :

    chane nuclotidique

    constitu par un

    enchanement

    d'units lmentaires

    : les ribonuclotides

    forme qui permet de

    transfrer et de traiter

    l'information dans la

    cellule

    le plus souvent form

    d'un simple brin

    On distingue :

    les ARN messagers

    ou ARNm : ils sont

    transcrits partir d'un

    gne (ADN). Ils sont

    ensuite traduits en

    protines.

    les ARN de transfert

    les ARN ribosomaux

    les ARN nuclaires

    les ARN

    cytoplasmiques

    Protine

    macromolcule :

    chane

    polypeptidique

    constitu par un

    enchanement

    d'units lmentaires

    : les acides amins

    l'ensemble des

    protines assurent les

    principales fonctions

    cellulaires

    se replie sur elle-

    mme et adopte une

    conformation ou

    structure particulire

    dans l'espace. Cette

    structure

    tridimensionnelle est

    l'origine de la

    fonction de la

    protine et de la

    spcificit de cette

    fonction.

    2. Deux types de bioinformation : la squence des nuclotides et la squence des acides

    amins

  • Les chanes nuclotidiques (ADN, ARN) et les chanes polypeptidiques (protines) sont des

    polymres d'units lmentaires :

    ADN : 4 dsoxyribonuclotides = dCMP, dGMP, dAMP, dTMP

    ARN : 4 ribonuclotides = CMP, GMP, AMP, UMP

    protines : 20 acides amins = Ala (A), Cys (C), Asp (D), Glu (E), Phe (F), Gly (G),

    His (H), Ile (I), Lys (K), Leu (L), Met (M), Asn (N), Pro (P), Gln (Q), Arg (R), Ser

    (S), Thr (T), Val (V), Trp (W), Tyr (Y)

    Elles possdent 2 extrmits distinctes et sont donc orientes :

    de l'extrmit dite 5' vers l'extrmit dite 3' pour les chanes nuclotidiques

    de l'extrmit dite N-terminale vers l'extrmit dite C-terminale pour les chanes

    polypeptidiques

    En consquence :

    les chanes nuclotidiques et polypeptidiques sont une succession ordonne et oriente

    d'units lmentaires

    les squences sont leur transcription sous forme d'une succession ordonne et oriente

    de lettres qui correspondent ces units lmentaires

    Site : "L'information gntique" - Simple et didactique.

    Exemple de squence nuclotidique Exemple de squence polypeptidique

    aattccggca tagaaactca aatcaaagag

    gaagaaacac cgattctcct tttctctctc taaacaacta

    gatcagatct ctgagtttaa ggaagctttc agcctattcg

    ataaggatgg cgatggttgc atcacaacca

    aggagcttgg aactgttatg cgatcattgg gacaaaaccc

    aactgaagca

    MADQLTDDQI SEFKEAFSLF

    DKDGDGCITT KELGTVMRSL

    GQNPTEAELQ DMINEVDADG

    NGTIDFPEFL NLMARKMKDT

    DSEEELKEAF RVFDKDQNGF

    ISAAELRHVM TNLGEKLTDE

    EVDEMIREAD VDGDGQINYE

    EFVKVMMAK

    Les squences constituent l'un des principaux types de bioinformation qu'analyse la

    bioinformatique.

    Exemples d'autres types de bioinformation (directe ou obtenue "in silico")

    Les structures tridimensionnelles des protines et aussi, malgr leur nombre

    plus restreint, des acides nucliques (en particulier les ARN de transfert).

    Protein Data

    Bank

    Les donnes obtenues en protomique (gels d'lectrophorse bidimensionnel). SWISS-

    2DPAGE

    Le changement d'un nuclotide dans un gne quelconque ("Single Nucleotide SNP

  • Polymorphism").

    La taxonomie (classification) des organismes. Taxonomy

    Les rseaux d'interactions qu'tablissent les molcules biologiques. BioCarta

    L'ontologie : l'organisation hirarchique de la connaissance sur un ensemble

    d'objets par leur regroupement en sous-catgories suivant leurs

    caractristiques essentielles.

    GO

    Les donnes bibliographiques (diffusion des rsultats de la recherche par les

    articles). PubMed

    3. L'obtention des squences

    Squence des nuclotides

    par la mthode de F. Sanger (1977)

    au dpart

    puis par des techniques de plus en

    plus sophistiques, automatises et

    de masse

    Squence des acides amins

    par lamthode de P. Edman (1950) au

    dpart

    puis par traduction "in silico" des squences

    nuclotidiques

    III. les banques de donnes

    Les fichiers contenant l'information biologique sous la forme de squences est l'lment

    central autour duquel les banques de donnes se sont constitues l'origine.

    On peut distinguer :

    les bases de donnes gnralistes : elles correspondent une collecte des donnes la

    plus exhaustive possible et qui offrent un ensemble plutt htrogne d'informations

    les bases de donnes spcialises : elles correspondent des donnes plus homognes

    tablies autour d'une thmatique et qui offrent une valeur ajoute

    Il existe un grand nombre de bases de donnes d'intrt biologique : voir une liste quasi

    exhaustive avec les liens vers les bases de donnes

    1. Les banques gnralistes

  • Les banques gnralistes sont indispensables la communaut scientifique car elles

    regroupent des donnes et des rsultats essentiels dont certains ne sont plus reproduits dans la

    littrature scientifique.

    Dans le cadre de l'analyse des squences, par exemple, le fait que la majorit des squences

    connues soit runie en un seul ensemble est un lment fondamental pour la recherche de

    similitudes avec une nouvelle squence. D'autre part, la grande diversit d'organismes qui y

    est reprsente permet d'aborder des analyses de type volutif.

    Leur principale mission est de rendre publiques les squences et tout autre type d'information.

    Cette notion de mise la disposition du public a t capitale dans le cas par exemple de la

    diffusion des rsultats du squenage du gnome humain.

    On y trouve galement de l'information qui accompagne les squences (annotations,

    bibliographie, ...) et une expertise biologique directement lies aux squences traites.

    La prsence de rfrences d'autres bases permet d'avoir accs d'autres informations. Par

    exemple, la banque SWISSPROT est particulirement riche en rfrences croises avec

    d'autres banques et en annotations.

    Les multiples liens entre les groupes de donnes dans les banques gnralistes sont d'une

    complexit tonnante. Voir les exemples de Genbank ou ExPASy.

    La qualit des donnes contenues dans ces bases prsente un certain nombre de lacunes. Les

    organismes responsables de la maintenance de ces banques ont pris conscience de la ncessit

    de vrifications des donnes soumises ou saisies (surtout pour les squences anciennes).

    Maintenant, de nombreuses vrifications sont faites systmatiquement ds la soumission de la

    squence : c'est la "curation".

    Il existe dsormais un recueil de squences rfrences, annotes et "contrles" : The

    Reference Sequence (RefSeq) collection

    Exemple de grandes bases de donnes gnralistes

    Ces banques s'changent systmatiquement leur contenu depuis 1987 et adoptent un systme

    de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition).

    EMBL - EBI : Banque europenne cre en 1980 et finance par l'EMBO (European

    Moleculary Biology Organisation). Elle est aujourd'hui diffuse par l'EBI ("European

    Bioinformatics Institute", Cambridge).

    Genbank - NCBI : Cre en 1982 par la socit IntelliGenetics et diffuse maintenant par le

    NCBI ("National Center for Biotechnology Information", Bethesda - Marylandet).

    DDBJ (DNA Data Bank of Japan) : Cre en 1986 et diffuse par le NIG ("National Institute

    of Genetics", Japon).

  • Swissprot & TrEMBL : Elle a t constitue l'Universit de Genve partir de 1986. Elle

    est maintenant dveloppe par le SIB (Swiss Institute of Bioinformatics) et l'EBI. Elle

    regroupe (entre autres) des squences annotes de la PIR-NBRF ainsi que les squences

    codantes traduites de l'EMBL (TrEMBL).

    PIR-NBRF ("Protein Information Ressource") : banque de protines cre sous l'influence du

    NBRF ("National Biomedical Research Foundation") Washington. Elle diffuse maintenant

    des donnes issues du MIPS ("Martinsried Institute for Protein Sequences"), de la base

    Japonnaise JIPID ("Japan International Protein Information Database") et des donnes

    propres de la NBRF.

    UniProt ("Universal Protein Resource") : c'est la base de donnes des protines : ExPASy

    Proteomics Server. Consortium [EBI - SIB - PIR]

    GOLD: "Genomes OnLine Database" - base de donnes qui recensse les milliers de gnomes

    squencs ou en voie de squenage.

    "The Quick Guide" : autre base de donnes qui recensse des gnomes squencs (descriptions

    des organismes, liens vers les centres de squenage et vers la bibliographie).

    2. Les banques spcialises

    Pour des besoins spcifiques lis l'activit d'un groupe de personnes, ou encore par

    compilations bibliographiques, de nombreuses bases de donnes spcifiques ont t cres au

    sein des laboratoires. Certaines sont inconnues ou mal connues et attendent qu'on les exploite

    davantage.

    Les bases de donnes spcialises sont d'intrt divers et la masse des donnes qu'elles

    contiennent peut varier d'une base une autre. Ces bases correspondent des amliorations

    ou des regroupements par rapport aux donnes issues des bases gnralistes.

    Exemples de banques spcialises

    Late Embryogenesis Abundant Proteins database (LEAPdb - G. Hunault & E. Jaspard) : cette

    base de donnes contient un grand nombre d'informations sur les proines LEA impliqus

    dans la tolrance de nombreux stress, notament la dshydratation et le froid. Pour l'instant,

    on les a mises en vidence principalement chez les plantes.

    Disulfide Bridge DataBase (DBDB - J.-M. Richer, G. Hunault & E. Jaspard) : cette base de

    donnes contient un grand nombre d'informations structurales sur les cystines de plus de 400

    protines cristallises. Elle a aussi pour but de servir la mise au point d'un logiciel de

    prdiction des cystines impliques dans la formation de pont disulfure.

    RESID Database : Base de donnes sur les acides amins peu frquents (sous-partie de la base

    de donnes PIR)

    Les bases de motifs

  • L'utilisation de bases spcialises comme les bases de motifs est devenue un outil essentiel

    dans l'analyse des squences pour tenter de dterminer la fonction de protines inconnues ou

    savoir quelle famille appartient une squence non encore caractrise.

    a. Les bases de motifs nucliques

    La plupart de ces bases consiste recenser dans des catalogues les squences des diffrents

    motifs pour lesquels une activit biologique a t identifie. Certains motifs sont simples et

    non ambigus, d'autres correspondent des activits biologiques plus complexes et engendrent

    donc des squences moins prcises. Pour ces derniers types de motifs, des compilations ont

    t tablies pour donner des listes annotes de motifs qui peuvent tre communs plusieurs

    squences.

    Il existe principalement deux bases de motifs nucliques qui sont rgulirement actualises et

    qui correspondent un travail de synthse bibliographique : il s'agit des bases de facteurs de

    transcription TFD (Ghosh, 1993) et TRANSFAC (Knppel et al., 1994).

    b. Les bases spcialises de motifs protiques

    La base PROSITE (ExPASy Proteomics Server) peut tre considre comme un dictionnaire

    qui recense des motifs protiques ayant une signification biologique.

    Elle est tablie en regroupant, quand cela est possible, les protines contenues dans Swissprot

    par famille comme par exemple les kinases ou les protases. On recherche ensuite, au sein de

    ces groupes, des motifs consensus susceptibles de les caractriser spcifiquement.

    La conception de la base PROSITE repose sur quatre critres essentiels :

    collecter le plus possible de motifs significatifs

    avoir des motifs hautement spcifiques pour caractriser au mieux une famille de

    protines

    donner une documentation complte sur chacun des motifs rpertoris

    faire une rvision priodique des motifs pour s'assurer de leur validit par rapport aux

    dernires exprimentations

    Voir un exemple : motif "EF-hand" des protines fixant le calcium comme la calmoduline par

    exemple.

    3. Projet "Embrace" : standardiser l'accs aux donnes bioinformatiques en Europe

    Depuis la premire bauche du squenage du gnome humain, en 2001, les

    biologistes produisent toujours plus de donnes bioinformatiques. Pour les stocker, ils

    multiplient les bases de donnes, mais aucune standardisation n'existe encore dans ce

    domaine. En consquence, les donnes ne sont pas toutes prsentes sous la mme

    forme.

  • De plus, les protocoles d'accs sont diffrents, de mme que les algorithmes qui

    traitent les donnes.

    D'o le projet de rseau bioinformatique europen (dbut fvrier 2005), dot par la

    commission europenne de 8,28 millions d'euros pour cinq ans, il rassemble 16 partenaires de

    11 pays, dont 3 quipes du CNRS.

    Le but du projet "Embrace" est de standardiser l'accs aux innombrables donnes issues des

    projets de gnomique, et leurs mthodes d'tude, afin que les chercheurs puissent les consulter

    et les exploiter facilement.

    Embrace utilisera la "technologie de grille" (grid), o un grand nombre d'ordinateurs

    gographiquement loigns les uns des autres travaillent en rseau afin d'offrir une importante

    capacit de stockage et de calcul.

    4. Liens Internet et rfrences bibliographiques

    Base de donnes sur les acides amins peu frquents (sous-partie de la

    base de donnes "Protein Information Resource" - PIR) RESID Database

    Bases de donnes sur les proprits physico-chimiques des acides amins

    (sous-partie de la base de donnes "Expasy - Swiss-Prot")

    ProtScale

    Swiss-Prot

    Base de donnes PROWL : proprits physico - chimiques des acides

    amins, peptides, protines. PROWL

    Cours : "Les banques de squences biologiques l'Institut Pasteur" Aller au site

    IV Quelques formats de fichiers dans les banques de donnes

    Exemples de formats lis aux logiciels de traitement des squences

    1. Format FASTA

    Sans doute le plus rpandu et l'un des plus pratiques car trs simple. La squence, sous

    forme de lignes de 80 caractres maximum, est prcde d'une ligne de titre (nom,

    dfinition ...) qui doit commencer par le caractre ">".

    Plusieurs squences peuvent tre mises dans un mme fichier.

  • >1YYCA 174 bp

    GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF

    KGVTRD

    GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV

    KVA

    YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

    Example of a FASTA record

    >gi|22777494|dbj|BAC13766.1| glutamate dehydrogenase [Oceanobacillus iheyensis]

    MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRI

    PVRMDDGNVKVFTGY

    RAQHNDAVGPTKGGIRFHPNVTETEVKALSIWMSLKSGIVDLPYGGAKGGIICD

    PREMSFRELEALSRGY

    VRAVSQIVGPTKDIPAPDVFTNSQIMAWMMDEYSKIDEFNNPGFITGKPIVLGGS

    HGRESATAKGVTIVL

    NEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDAYGALYDPEG

    LDIDYLLDRRDSFGTV

    TKLFNNTISNDALFELDCDIIVPAAVENQITRENAHNIKASIVVEAANGPTTMEAT

    KILTERDILIVPDV

    LASAGGVTVSYFEWVQNNQGFYWSEEEIDNKLHEIMIKSFNNIYNMSKTRRIDM

    RLAAYMVGVRKMAEAS

    1. With the FASTA format, a single file can contain several records (sequences). Each

    record begins with ">".

    2. gi|22777494 : the GenInfo Identifier number is the sequence identification number for

    a protein or a nucleotide sequence. If a sequence changes in any way, a new GI number

    will be assigned.

    3. dbj|BAC13766.1| : one record could exist in different databases and may have many

    identifiers. The table gives the explanation of database name and identifier syntax. In

    this example, this record exists in the DNA Database of Japan under dbj|BAC13766.1.

    4. dbj|BAC13766.1| : Database sequence identifiers run parallel to the new accession

    version system as sequence identifiers. In this example, the ".1" indicates that the

    sequence has been revised one time.

    5. glutamate dehydrogenase [Oceanobacillus iheyensis] : description of the sequence. In

    this example, "glutamate dehydrogenase" is the name of the protein and Oceanobacillus

    iheyensis the organism from which it has been determined.

  • 2. Format ClustalW- suffixe ".aln"

    Doit commencer avec "CLUSTAL W" sans autre information.

    Une ou plusieurs lignes vides.

    Un ou plusieurs blocs de squences. Chaque bloc contient :

    o une ligne pour chaque squence. Chaque ligne consiste :

    1. le nom de la squence 2. espace blancs white space 3. jusqu' 60 caractres

    o Une ligne indiquant le degr de conservation (via des caractres spciaux :

    "*", ":", ".") pour les colonnes de l'alignement pour ce bloc.

    o Une ou plusieurs lignes vides.

    CLUSTAL W (1.8) multiple sequence alignment

    1YYCA

    GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF

    KGVTRD

    1YYCA

    GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV

    KVA

    1YYCA

    YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

    3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans

    "Accelrys")

    Database Name Identifier syntax

    GenBank gb|accession|locus

    EMBL Data Library emb|accession|locus

    DDBJ, DNA Database of Japan dbj|accession|locus

    NBRF PIR pir||entry

    SWISS-PROT sp|accession|entry name

    Brookhaven Protein Data Bank (PDB) pdb|entry|chain

    NCBI Reference Sequence ref|accession|locus

    Protein Research Foundation prf||name

    Local Sequence identifier lcl|identifier

    GenInfo Backbone Id bbs|number

    General database identifier gnl|database|identifier

    Patents pat|country|number

  • Le format adopt par le package GCG permet la fois de commenter les donnes

    et de vrifier l'intgrit de la squence par une valeur (=Checksum) calcule sur

    celle-ci.

    Le format GCG n'autorise qu'une seule squence par fichier..

    Le fichier est constitu de la manire suivante:

    o avant les ".." : commentaires

    o ligne signal avec identificateur et "Check #### .."

    o aprs les ".." : squence.

    o 1YYCA

    o 1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 ..

    o 1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA

    NIPTPEATVD

    o 51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA

    TRTIASGTIP

    o 101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ

    LDIGLTFDIP

    o 151 VVGDITIPVS TQGEIKLPSL RDFF

    4. Format NBRF/PIR

    Une ligne qui commence par le caractre ">" et un code 2 lettres qui dsigne le

    type de squence : P1, F1, DL, DC, RL, RC ou XX.

    Un point-virgule suivi par le code li la base de donne (dans l'exemple suivant

    : ";1YYCA").

    Une ligne qui dcrit la squence.

    La squence elle-mme. Cette partie doit finir par une astrisque.

    Plusieurs squences peuvent tre mises dans un mme fichier.

    >P1;1YYCA

    1YYCA 174 bases

    GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD

    DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP

    DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP

    VVGDITIPVS TQGEIKLPSL RDFF*

    5. Format Staden

    Le plus ancien et le plus simple : suite des lettres de la squence par lignes termines par

    un retour la ligne (80 caractres maximum par ligne). Ce format n'autorise qu'une

    squence par fichier.

    SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL

    6. Format Stanford / IG

    la 1re ligne est une ligne de commentaires prcde par le caractre ";"

    la 2e contient l'identificateur (nom de la squence) dans les 10 premires colonnes

    les lignes suivantes contiennent la squence (80 caractres maximum par ligne)

    termine par le caractre "1" (squence linaire) ou "2" (squence circulaire)

  • ;1YYCA 174 bases

    1YYCA

    GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD

    DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP

    DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP

    VVGDITIPVSTQGEIKLPSLRDFF1

    7. Autres formats

    Le format MSF ("Multiple Sequence Format") contient plusieurs squences dans un

    fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp -

    MSF et reformat -MSF de GCG.

    Le format PHYLIP : deux formats de base sont proposs.

    2. Exemples de formats lis aux banques de donnes

    a. Format GenBank

    Chaque ligne indique le nom du champs et dans chaque champs on trouve des

    informations.

    b. Format EMBL

    Chaque entre de la base EMBL est compose de lignes qui commencent par un code

    deux caractres (champs) suivi de 3 blancs eux mme suivis dinformations.

    ID 1YYCA STANDARD; PRT; 174 AA.

    SQ SEQUENCE 174 AA; C11E4F3E CRC32;

    GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD

    DVDFKGVTRD 60

    GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT

    TVLDVPVKVA 120

    YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF

    174

    //

    Aller : "Entrez" - NCBI - taper "28377945" dans "Search

    across databases"

    Description fichier

    GenBank

  • Aller : EBI dbfetch - taper "PS13882" dans "search item"

    Description codes

    entre fichier EMBL

    c. Format PROSITE

    La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base

    de donnes PROSITE est la suivante :

    lettres A-Z correspondant aux acides amins (minuscules ou majuscules)

    [] indique une ambiguite inclusive. Exemple : [ILVM]

    {} ambiguite exclusive. Exemple : {FWY}

    X caractre positionnel indiffrent

    (n) rptition n fixe d'un sous-motif. Exemple : [RD](2)

    X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)

    < au dbut du motif : le motif est cadr gauche de la squence

    > la fin du motif : le motif est cadr droite de la squence

    le caractre '-' spare chaque position

    le caractre '+' indique que la suite du motif continue la ligne suivante

    Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK]

    - {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW]

    3. Les outils de conversion de formats

    1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le

    reformatage gnral des squences. De nombreux formats de sortie sont proposs par

    Readseq.

    2. Sequence Utilities ("BCM Search Launcher") : Attention cocher la ... bonne case.

  • V-Algorithmes et programmes de comparaison de squences

    Interprtation des rsultats : E-value, P-value

    1. Dfinitions

    Il existe 3 grandes classes d'algorithmes de comparaison de squences :

    mthode de programmation dynamique

    mthode heuristique

    mthode d'apprentissage machine

    Alignement : processus par lequel deux (ou n) squences sont compares afin d'obtenir le plus

    de correspondances (identits ou substitutions conservatives) possibles entre les lettres qui les

    composent.

    alignement local : alignement des squences sur une partie de leur longueur

    alignement global : alignement des squences sur toute leur longueur

  • alignement optimal : alignement des squences qui produit le plus haut score possible

    alignement multiple : alignement global de trois squences ou plus

    brches ou "gap" : espace artificiel introduit dans une squence pour contre-balancer

    et matrialiser une insertion dans une autre squence.

    Il permet d'optimiser l'alignement entre les squences

    indel : "in" = insertion et "del" = dltion

    similarit : c'est le pourcentage d'identits et/ou de substitutions conservatives entre

    des squences. Le degr de similarit est quantifi par un score. Le rsultat de la

    recherche d'une similarit peut tre utilis pour infrer l'homologie de squences.

    homologie : 2 squences sont homologues si elles ont un anctre commun.

    L'homologie se mesure par la similarit : une similarit significative est signe

    d'homologie sauf si les squences prsentent une faible complexit.

    faible complexit ("low-complexity regions") : rgions qui contiennent peu de

    caractres diffrents. Exemples : (a) FFFPPPPPVVV, 3 acides amins diffrents

  • seulement (rgion riche en proline) - queue poly-A des ARN. Ces rgions posent des

    problmes dans l'analyse des squences car elles gnrent un score biais.

    Exemple de programme qui analyse ce type de rgions : "SEG".

    msappariement : non correspondance entre deux lettres. Un msappariement peut tre :

    soit la substitution d'un caractre par un autre, c'est--dire une mutation

    soi l'introduction d'un "gap"

    score : un score global permet de quantifier l'homologie. Il rsulte de la somme des scores

    lmentaires calculs sur chacune des positions en vis vis des deux squences dans leur

    appariement optimal. C'est le nombre total de "bons appariements" pnalis par le nombre de

    msappariements.

    score lmentaire :

    ADN : la valeur du score lmentaire est de 1 (les deux bases sont identiques, bon

    appariement) ou de 0 (les deux bases sont diffrentes, mauvais appariement).

    protines : cette valeur est extraite d'une matrice de substitution

    2. Algorithme de Needleman & Wunsch et algorithme de Smith & Waterman

    Tous deux sont des algorithmes de programmation dynamique utiliss pour obtenir

    l'alignement global ou local (respectivement) optimal de deux squences protiques ou

    d'acides nucliques.

    La programmation dynamique est une mthode dveloppe par R. Bellman (1955) qui permet

    de rsoudre de nombreux problmes dont la solution directe n'est pas possible puisque de

    complexit exponentielle.

    Exemple : calcul de la distance d'dition entre deux chanes de caractres (squences

    protiques ou d'acides nucliques).

    La programmation dynamique une mthode de rsolution ascendante qui dtermine une

    solution optimale du problme partir des solutions de tous les sous-problmes.

  • L'algorithme de Needleman & Wunsch et l'algorithme de Smith & Waterman se droulent

    globalement en deux tapes :

    la construction, ou descente, qui permet de calculer le meilleur score, c'est dire le

    cot de la transformation de la premire squence en la seconde (tape de

    programmation dynamique)

    la construction de l'alignement lui-mme, ou remonte

    Ces algorithmes n'utilisent pas d'heuristique : il sont donc sensibles mais longs.

    F(i,j) : valeur la position (i,j) de la matrice.

    s(xi,yj) : valeur obtenue partir de la matrice de substitution pour les nuclotides ou les acides

    amins (xi,yj) correspondant la position (i,j) de la matrice. C'est donc le score correspondant

    l'alignement des lettres xi et yj.

    Ce score prend, par exemple, les valeurs suivantes :

    identit : +3

    non identit : -1

    Algorithme de Needleman & Wunsch

    alignement global optimal de 2 squences

    Algorithme de Smith & Waterman

    alignement local optimal de 2 squences

    La ligne i = 0 et la colonne j = 0 sont

    initialises aux valeurs de pnalit des gaps.

    La fonction de rcurrence ne rinitialise pas

    la valeur 0 si aucune valeur positive n'est

    prsente.

    La ligne i = 0 et la colonne j = 0 sont

    initialises 0.

    N'importe quelle case de la matrice de

    comparaison peut tre un point de dpart pour

    le cacul des scores finaux. Si ce score devient

    infrieur zro, la fonction de rcurrence

    rinitialise la valeur 0 et la case peut tre

    utilise comme un nouveau point de dpart.

  • s(xi,-) et s(-,yj) est la fonction simple de pnalit de l'alignement d'un rsidu avec un

    gap : -5

    Remarque : si on opte pour d'autres valeurs, on obtient d'autres alignements optimaux, d'o le

    choix crucial de la meilleure matrice de substitution lors des alignements.

    La fonction de pnalit d'un gap est dfinie par : f(n) = d + [e . (n-1)], o :

    n = longueur du gap

    d = pnalit d'ouverture d'un gap

    e = pnalit d'extension d'un gap

    Exemple : un gap de longueur n = 3, avec une pnalit d'ouverture d = -10 et d'extension e = -

    2, aura un score de f(3) = -10 + (-2 x 2) = -14

    Application : alignement de la squence 1 = ACGCT avec la squence 2 = ACT

    On remplit la 1re ligne et la 1re colonne de la matrice qui correspondent un gap la 1re

    position :

    l'alignement du A de la squence 2 avec l'insertion d'un gap dans la squence 1 cote :

    -5

    celui du C de la squence 2 avec l'insertion d'un second gap de la squence 1 cote : -5

    + -5 = -10

    et ainsi de suite ...

    F(1,1) aura pour valeur la valeur maximale

    de l'une des possibilits suivantes :

    F(0,0) + s(A,A) = 0 + 3 = 3

    F(0,1) + s(A,-) = -5 + -5 = -10

    F(1,0) + s(-,A) = -5 + -5 = -10

    Et ainsi de suite.

    j 0 1 2 3

    i - (gap) A C T

    0 - (gap) 0 -5 -10 -15

    1 A -5 3 -2 -7

    2 C -10 -2 6 1

    3 G -15 -7 1 5

    4 C -20 -12 -4 0

    5 T -25 -17 -9 -1

    F(2,1) aura pour valeur la valeur maximale de l'une des possibilits suivantes :

    F(1,0) + s(C,A) = -5 + -1 = -6

    F(1,1) + s(C,-) = 3 + -5 = -2

    F(2,0) + s(-,A) = -10 + -5 = -15

  • Pour reconstituer l'alignement, on dmarre de la dernire case (5,3) et on dtermine la case

    partir de laquelle cette case a t atteinte :

    a. la valeur -1 de la case (5,3) ne peut-tre obtenue qu'en ajoutant +3 (soit une identit) la

    valeur -4 [(case (4,2)]. Cel correspond l'alignement du "T" de la squence 1 avec le "T" de

    la squence 2.

    b. la valeur -4 de la case (4,2) peut tre obtenue de 2 manires :

    en ajoutant +3 (soit une identit) la valeur -7 [(case (3,1)]. Cel correspond

    l'alignement du "C" de la squence 1 avec le "C" de la squence 2.

    en ajoutant -5 (soit un gap) la valeur 1 [(case (3,2)]. Cel correspond l'alignement

    du "C" de la squence 1 avec un gap dans la squence 2.

    c. Et ainsi de suite.

    Ds lors, on obtient 2 alignements optimaux qui ont le mme score de +1.

    3. Diversit des programmes - spcificit selon le type de donnes annalyses

    Seq1 A C G C T

    Seq2 A - - C T

    Seq1 A C G C T

    Seq2 A C - - T

    Voir l'extrme diversit des programmes.

    Type de squences Protines ou acides nucliques (ADN et/ou ARN) ou les deux

    Type d'alignement Local ou global

    Accessibilit Serveur Web ou implment sur l'ordinateur (lignes de commandes)

    Spcialisation de

    plus en plus

    prononce du

    champs

    recherche dans des bases de donnes

    alignement de squences 2 2 ("paiwise alignment")

    alignement de squences multiples

    analyse de gnome

    recherche de motifs (sous-squences spcifiques "signature") : ScanProsite

  • d'application des

    algorithmes /

    programmes

    alignement de millions de courtes squences (voir les nouvelles

    technologies de squenage)

    modlisation de structures homologues et superposition de structures 3D de

    protines ("homology modeling"- "protein threading")

    ...

    Les "benchmarks"

    sont de vastes

    ensembles de

    donnes

    (homognes, cures,

    testes) qui

    permettent de

    comparer les

    performances

    d'algorithmes /

    programmes.

    Exemples de "benchmarks":

    BAliBASE : le premier "benchmark" construit d'alignements de squences

    protiques

    HOMSTRAD ("HOMologous STRucture Alignment Database") : curated

    database of structure-based alignments for homologous protein families.

    PFAM ("Protein FAMilies") : contient toutes les familles de protines

    identifies (environ 14.000 en 2012). Chacune est reprsente par un

    alignement multiple des squences de la famille considre auquel est

    adjoint un profil HMM ("Hidden Markov Model").

    Affycomp : pour l'analyse de l'expression de gnes - puces ADN

    Affymetrix

    "The Protein Classification Benchmark collection" : pour l'annotation

    fonctionnelle par apprentissage machine

  • Figure ci-contre : comparaison

    des performances de plusieurs

    programmes d'alignement de

    squences

    ClustalW

    Muscle ("MUltiple

    Sequence Comparison

    by Log-Expectation")

    Dialign

    kalign

    Mafft (2 versions testes

    : fftns2 / linsi v. 6.815)

    Probcons

    T-Coffee ("Tree-based

    Consistency Objective

    Function For alignment

    Evaluation")

    Bleu : efficacit / Orange :

    rapidit (chelle log)

    Programme score

    d'efficacit

    temps

    de

    calcul

    Probcons 79.4% 2.7

    jours

    T-Coffee 79.4% 2.7

    jours

    Mafft

    (linsi) 81.6%

    1.2

    heures

    Kalign 74.3%

    3

    minutes

    !

    Source : Thompson et al. (2011)

    Les programmes sont de plus en plus spcifiques du type de donnes biologiques traites ou

    du type d'analyse effectue :

    analyse de gnomes ou assemblage d'EST en contigs

    construction d'arbres phylogntiques

    dtection de SNP ("Single Nucleotide Polymorphism")

  • recherche dans des banques gnralistes ou spcialises

    analyse de paramtres physico-chimiques d'acides amins de protines

    squences consensus conserves ("pattern")

    recherche de motifs structuraux

    analyse d'expression des gnes

    annotations

    ...

    Illustration : la comparaison de structures et la modlisation par homologie

    On a de plus en plus d'informations qui tendent dmontrer que le nombre de

    repliements des protines dans la nature est limit (quelques milliers). On peut donc

    regrouper les protines selon le type de repliement qu'elles adoptent. Voir les bases de

    donnes CATH et SCOP, par exemple.

    Remarque : les protines dites "intrinsquement non structures" sont part.

    Le pralable de la modlisation par homologie ("homology modeling"- "protein threading")

    est de disposer d'au moins une protine dont la structure 3D a t dtermine. Elle sert de

    "modle" pour modliser la structure 3D potentielle d'une protine pour laquelle on ne dispose

    que de la squence. Cette squence doit bien sr tre proche (homologue) de celle de la

    protine modle. Il faut donc d'abord effectuer des alignements de squences.

    Exemple de logiciel / interface Web qui renvoie un fichier au format PDB :

    ESyPred3D.

    Exemples d'autres programmes de modlisation structurale par homologie :

    1. DeepView

    2. Chimera

    3. MolIDE

  • Figure ci-contre :

    Procdure de "PyMod"

    qui intgre divers types

    de donnes et

    d'analyses :

    recherche dans

    une base de

    donnes de

    similarits avec

    la squence

    requte

    alignement

    multiple de

    squences

    modlisation de

    structures 3D

    par homologie

    avec le logiciel

    Modeller.

    Chaque "bloc de

    procdure" est

    indpendant des autres

    : on peut donc, par

    exemple, effectuer un

    alignement multiple de

    squences sans

    recherche pralable

    dans une base de

    donnes.

    Source : Bramucci et al. (2012)

    4. Programmes d'alignement local

    a. Prambule

    Les mthodes de programmation dynamique permettent de calculer, sous un systme de

    scores donn, l'alignement optimal, global ou local, entre deux squences en un temps

    proportionnel au produit des longueurs des deux squences.

    Appliques une banque de squences, le temps de calculs de ces mthodes augmente

    linairement avec la taille de la banque.

    On dfinit 2 caractristiques pour une mthode de comparaison de squences :

    la sensibilit : c'est l'aptitude dtecter toutes les similarits considres comme

    significatives et donc gnrer le minimum de faux-ngatifs.

  • la slectivit : c'est l'aptitude ne slectionner que des similarits considres comme

    significatives et donc gnrer le minimum de faux-positifs.

    Les programmes des familles Fasta et BLAST sont des heuristiques qui rduisent le facteur

    temps en "sacrifiant" un peu de sensibilit. L'un et l'autre simplifient le problme :

    en pr-slectionnant les squences de la banque susceptibles de prsenter une

    similarit significative avec la squence requte

    et en localisant les rgions potentiellement similaires dans les squences

    Ces tapes slectives permettent :

    de n'appliquer les mthodes de comparaison, coteuses en temps, qu' un sous-

    ensemble des squences de la banque

    et de restreindre le calcul de l'alignement optimal des parties des squences

    Cette logique de recherche plus rapide dans son excution, comporte donc le risque d'liminer

    des squences qui ont une similarit plus difficile dtecter ou d'aboutir des alignements

    sub-optimaux.

    La sensibilit et la slectivit se rfrent une notion de rsultat significatif ou non. Les

    programmes mesurent une signification statistique des rsultats par rapport un modle

    alatoire : un rsultat est considr comme significatif si la probabilit de l'obtenir par hasard

    est trs faible.

    Les systmes de score partent du postulat que les rsultats les plus significatifs du point de

    vue statistique sont aussi les plus pertinents du point de vue biologique. Or ce n'est pas

    toujours le cas car des rsultats biologiquement intressants peuvent tre non significatfs sur

    un plan statistique.

    En d'autres termes, la signification biologique d'une similarit entre des squences n'est pas

    forcment estimable sur la seule valeur d'un score.

    b. Programme FASTA - Pearson & Lipman (1988)

    Le programme ne considre que les squences prsentant une rgion de forte similitude avec

    la squence recherche. Il applique ensuite localement chacune de ces meilleures zones de

    ressemblance un algorithme d'alignement optimal.

    La codification numrique des squences, c'est--dire la dcomposition de la squence en

    courts motifs (nomms uplets) transcods en entiers, confre l'algorithme l'essentiel de sa

    rapidit.

    Etape 1 (figure ci-contre)

    Les rgions les plus denses en identits entre les deux squences sont recherches. Ces

    rgions sont appels points chauds ou "hot spots".

    C'est le paramtre "ktup" qui dtermine le nombre minimum de rsidus conscutifs

    identiques. Gnralement : ktup = 2 pour les protines - ktup = 6 pour l'ADN.

  • Recherche des meilleures diagonales : plusieurs "hot spots" dans une mme rgion

    gnre des diagonales de similarit sans insertion ni dltions. Ces diagonales sont les

    rgions ayant le plus de similarit. Elles sont reprsentes par un graphique de points

    ou "dotplot".

    Lorsqu'une squence est compare une base de donnes, la premire tape est effectue pour

    chaque squence prsente dans cette base de donnes.

    Etape 2

    Les dix meilleures diagonales sont rvalues l'aide d'une matrice de substitution et

    les extrmits de ces diagonales sont coupes afin de conserver les rgions ayant les

    plus hauts scores seulement. Cette recherche de similitude est faite sans insertions ni

    dltions.

    Le score le plus lev obtenu est appel le score "init1". Il est attribu la rgion ayant

    le plus fort score parmi les 10 analyses.

    Etape 3

    Les diagonales trouves l'tape 1 dont le score dpasse un certain seuil ("cutoff"),

    sont relies entre elles pour tendre la meilleure similarit.

    Ces nouvelles rgions contiennent des insertions et/ou des dltions

    Le score des nouvelles rgions est calcul en combinant le score des diagonales relies

    diminu d'un score de pnalit de jonction des diagonales.

    Le score le plus lev obtenu cette tape s'appelle le score "initn".

    Cette tape permet d'liminer les segments peu probables parmi ceux dfinis l'tape

    prcdente.

    Etape 4 (figure ci-contre)

  • La rgion initiale qui a gnr le score"init1" est de nouveau value avec un

    algorithme de programmation dynamique sur une fentre de rsidus dont la largeur est

    dtermine par le paramtre "ktup". Le nouveau score est "opt".

    Les squences de la base de donnes sont classes selon leurs scores "initn" ou "opt".

    Les squences sont alignes avec la squence cible l'aide de l'algorithme de Smith &

    Waterman : le score final est le score Smith & Waterman.

    Interprtation des rsultats

    La sortie de FASTA se dcompose en trois parties :

    colonne 1 : chelle de valeurs

    colonne 2 : nombre de squences dans la banque donnant un "z-score" = valeur

    colonne 3 : nombre de squences dans la banque donnant une "E-value" = valeur

    "init1" = "initn" = "opt" : 100% de similarit

    "initn" > "init1" : plusieurs rgions de similarit relies par des gaps

    "initn" > "opt" : pas de similarit

    c. Les programmes BLAST (Basic Local Alignment Search Tool) - Altschul et al.

    (1990)

    Mthode heuristique qui utilise la mthode de Smith & Waterman.

    C'est un programme qui effectue un alignement local entre deux squences nucliques

    ou protiques.

    La rapidit de BLAST permet la recherche des similarits entre une squence requte

    et toutes les squences d'une base de donnes.

    Voir une description de l'algorithme de BLAST

    Les diffrents programmes BLAST

  • Acides nucliques

    1. "MEGABLAST" est l'outil de choix pour identifier une squence.

    2. "Standard nucleotide BLAST" est mieux adapt la recherche de squences

    similaires mais pas identiques la squence requte.

    3. L'option "Search for short and near exact matches" de "Nucleotide BLAST" est

    adapt la recherche d'amorces ("primer") ou de courts motifs nuclotidiques.

    Program Word Size

    DUST

    Filter

    Setting

    Expect Value

    Standard blastn 11 On 10

    Search for short and

    near exact matches 7 Off 1000

    Protines

    1. Il n'y a pas d'quivalent de "MEGABLAST" pour les requtes protiques.

    2. "Standard protein BLAST" est le mieux adapt la recherche de squences

    protiques.

    3. "PSI-BLAST (Position-Specific Iterated-BLAST)" est adapt la recherche de

    similarit fine entre squences protiques. A utiliser quand une recherche BLAST a

    chou ou renvoy des rsultats tels que : "hypothetical protein" or "similar to...".

    4. "PHI-BLAST (Pattern-Hit Initiated-BLAST)" est adapt la recherche de

    squences protiques qui contiennent un motif spcifi par l'utilisateur ET sont

    similaires la squence requte dans le voisinage proche du motif.

    5. "Search for short nearly exact matches" de "Protein BLAST" est adapt la

    recherche de similarit dans le cas de courtes squences peptidiques. Les valeurs des

    paramtres "Expect value cutoff" et "word size" sont modifis la matrice PAM30 (plus

    stringente) remplace la matrice BLOSUM62. Une squence requte infrieure 5

    acides amins est dconseille.

    Program Word

    Size

    SEG

    Filter Expect Value Score Matrix

    Standard protein BLAST 3 On 10 BLOSUM62

    Search for short and near

    exact matches 2 Off 20000 PAM30

  • 6. "Nucleotide query - Protein db [blastx]" est adapt pour trouver des squences

    protiques similaires celles codes par une squence requte nuclotidique. Trs

    utile pour l'analyse massive de squence d'EST ("Expressed Sequence Tags").

    7. "Protein query - Translated db [tblastn]" est adapt pour trouver des rgions

    codantes des protines homologues dans un ensemble de squences nuclotidique non-

    annotes. Trs utile pour l'analyse de squence d'EST et de brouillons de gnomes

    (HTG).

    8. "Conserved Domain Database (CDD)": ce service utilise le programme "Reverse

    Position Specific BLAST (RPS-BLAST)" pour identifier des domaines protiques

    conservs en comparant la squence requte contre des bases d'alignements de

    domaines conservs obtenues avec des matrices de scores de position spcifiques

    "Position specific scoring matrices (PSSMs)". Les bases de donnes sont : "SMART",

    "PFAM" et "LOAD" ("Library Of Ancient Domains").

    9 "Conserved Domain Architecture Retrieval Tool (CDART)" permet d'examiner la

    structure en domaine de toutes les protines de la base de donnes BLAST. Plus

    sensible qu'une recherche BLAST classique car CDART est li au programme RPS-

    BLAST ("Reverse Position-Specific BLAST") qui est lui-mme une "variation" du

    programme "PSI-BLAST ".

    10. "BLAST 2 Sequences" permet la comparaison de 2 squences requte. Ne

    recquiert pas de format particiliers des squences. La squence entre en second est

    considre comme la "base de donne" contre laquelle est effectue la comparaison.

    First sequence Second

    Sequence Program

    Nucleotide Nucleotide blastn or

    tblastx

    Nucleotide Protein blastx

    Protein Nucleotide tblastn

    Protein Protein blastp

    11. Dernier "n" des programmes de la famille : DELTA-BLAST ("Domain Enhanced

    Lookup Time Accelerated BLAST"). Une recherche rapide de type RPS-BLAST

    permet de construire un profil PSSM ("Position Specific Scoring Matrix") puis de

    rechercher ce PSSM dans une base de donnes BLAST. Les rsultats de DELTA-

    BLAST peuvent servir de point de dpart pour une recherche de type PSI-BLAST.

    Un nouveau programme : CS-BLAST ("context-specific BLAST"). Pour chaque acide

    amin, CS-BLAST tient compte de l'influence de la squence en acides amins qui

    l'entoure, sur la probabilit de mutation de l'acide amin en question. En 2 itrations de

    recherche, CS-BLAST donne un rsultat plus sensible que 5 itrations avec PSI-Blast

    ("Position specific iterative BLAST").

  • Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein

    database search programs" Nucleic Acids Res. 25, 3389 - 3402

    Biegert A. & Soding J.(2009) "Sequence context-specific profiles for homology searching"

    (Proc Natl Acad Sci USA 106, 3770 - 3775)

    Les programmes FASTA et BLAST suivants sont quivalents :

    Comparaison de squence nuclique / banque nuclique : FASTA - BLASTN

    Comparaison de squence protique / banque protique : FASTA - BLASTP

    Comparaison de squence protique / banque nuclique (traduite dans les 6 phases) :

    TFASTA - TBLASTN

    Complment sur PHI-Blast

    Choix des diffrentes bases de donnes de squences de protines

    Bases de

    donnes Description

    nr Non-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF,

    excluding those in env_nr.

    refseq Protein sequences from NCBI Reference Sequence project.

    swissprot Last major release of the SWISS-PROT protein sequence database (no

    incremental updates).

    pat Proteins from the Patent division of GenBank.

    month All new or revised GenBank CDS translations + PDB + SwissProt + PIR +

    PRF released in the last 30 days.

    pdb Sequences derived from the 3-dimensional structure records from the Protein

    Data Bank.

    env_nr Non-redundant CDS translations from env_nt entries.

    Smart v4.0 663 PSSMs from Smart, no longer actively maintained.

    Pfam v11.0 7255 PSSMs from Pfam, not the latest.

    COG v1.00 4873 PSSMs from NCBI COG set.

    KOG v1.00 4825 PSSMs from NCBI KOG set (eukaryotic COG equivalent).

    CDD v2.05 11399 PSSMs from NCBI curated cd set.

  • Ce programme prend en entre une squence requte protique et un motif dfini par une

    expression rgulire.

    PHI-Blast est adapt la recherche de squences protiques qui contiennent un motif spcifi

    par l'utilisateur (fentre "PHI pattern" de la section "Algorithm") ET sont similaires la

    squence requte (fentre "Search") dans le voisinage proche du motif.

    La syntaxe du motif doit suivre la syntaxe de PROSITE.

    Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

    Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-

    [KR](4)

    Application :

    Aller BLAST

    dans la fentre du haut ("Enter accession number(s)") : entrer le numro d'accession

    AAC05356

    choisir PHI-BLAST et dans la fentre qui apparat, entrer le profil : DSD

    (caratristique des protines LEA de la classe 4)

    Complment sur PSI-Blast

    PSI-Blast est adapt :

    la recherche de similarit fine entre squences protiques

    la dtection de membres loigns d'une famille protique

    l'tude de la fonction de protines inconnues

    PSI-Blast construit un profil partir de l'alignement multiple des squences qui ont obtenu les

    meilleurs scores avec la squence requte. Ce profil est compar la banque interroge et est

    affin au fur et mesure des itrations. Ainsi, la sensibilit du programme est augmente.

    Un profil est un tableau des frquences observes des acides amins (ou nuclotides) chaque

    position dans un alignement multiple.

    Exemple (trs simple) d'alignement multiple de 2 squences de 4 acides amins :

    DWKD

    DWNG

    Le profil de probabilits correspondant :

    1 2 3 4

    D 1.0 0.0 0.0 0.5

    G 0.0 0.0 0.0 0.5

    K 0.0 0.0 0.5 0.0

    N 0.0 0.0 0.5 0.0

    W 0.0 1.0 0.0 0.0

  • Ce qui ce signifie :

    probabilit de trouver D en position 1 = 1.0 (un D en premire position de chaque

    squence)

    probabilit de trouver G en position 1 = 0.0 (aucun G en premire position)

    etc ...

    L'utilisation d'un profil permet une recherche beaucoup plus sensible de squences

    homologues loignes que l'utilisation d'une squence seule car le profil contient de

    l'information sur la variabilit des diffrentes positions parmi les protines connues. En

    contrepartie un profil est moins spcifique qu'une simple squence seule.

    Si on utilise PSI-Blast sur un sous ensemble particulier de squences, il est probable que l'on

    ne trouve pas tous les homologues, surtout si leur squence est peu conserve par rapport la

    squence requte. Pour amliorer la sensibilit de la dtection des homologues loignes ,

    il est prfrable d'effectuer un alignement avec PSI-Blast sur une banque de squences plus

    grande.

    Mais la sensibilit est diminue si la banque de donnes est trop grande puisque la frquence

    d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de

    donnes. Or, pour un alignement de 2 squences, plus le score est petit, plus la probabilit que

    ces 2 squences soient homologues est grande.

    Il est donc prfrable de chercher d'abord dans une banque "nettoye" ("curated") comme la

    base de donnes non-redondante ("nr") o toutes les squences identiques ont t limines

    sauf un exemplaire. Si plusieurs squences sont dans cette banque, on peut calculer un profil

    et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi

    la sensibilit de la recherche d'homologues.

    Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating PSI-

    BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664

    Profils et "Position Specific Scoring Matrice" (PSSM)

    La construction de ces profils est base sur la frquence de chaque rsidu d'acide amin une

    position spcifique d'un alignement multiple

  • Colonne 1 : frquence (A, 1) = 0/5 = 0 ; frquence (G, 1) = 5/5 = 1 ; ...

    Colonne 2 : frquence (A, 2) = 0/5 = 0 ; frquence (H, 2) = 5/5 = 1 ; ...

    ...

    Colonne 15 : frquence (A, 15) = 2/5 = 0,4 ; frquence (C, 15) = 1/5 = 0,2 ; ...

    Certaines frquences sont gales 0 du fait du nombre de squence dans l'alignement

    multiple. Une telle frquence pourrait entraner une "exclusion" de l'acide amin concern

    cette position.

    On contourne ce biais en ajoutant une "petite valeur" toutes les frquences observes. Cette

    faible "frquence non-observe" s'appelle un "pseudo-count". En reprenant l'exemple

    prcdent avec un "pseudo-count" de 1 :

    Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ...

    Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ...

    ...

    Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ...

    La frquence de chaque acide amin dtermine chaque position est compare la

    frquence laquelle chaque acide amin est attendu dans une squence au hasard. On fait

    l'hypothse que chaque acide amin est observ avec une frquence identique dans une

    squence au hasard.

    Le score est calcul partir du logarithme du rapport (frquences observes) / (frquences

    attendues) : scoreij = log (f'ij / qi)

    o :

    scoreij est le score pour le rsidu i la position j

    f'ij est la frquence relative pour le rsidu i la position j, corrige par les "pseudo-

    count"

    qi est la frquence relative attendue pour le rsidu i dans une squence au hasard

    Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complte calcule partir de

    l'exemple prcdent

  • La matrice PSSM est ensuite applique la squence requte en utilisant une "fentre

    glissante".

    A chaque position, un score PSSM est ca lcul en sommant les scores de toutes les colonnes.

    Le plus haut score est retenu

  • Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-

    BLAST" / SIB Course

    Conclusion PSSM

    Avantages Inconvnients

    Bonne mthode pour de courtes

    rgions conserves.

    Approche statistique (base sur la

    taille des banques) / interprtation des

    rsultats sur la base d'une "e-value".

    Insertions et dltions interdites avec

    les matrices PSSm . Sinon, il faut

    utiliser des "profils gnraliss".

    Les squences correspondant de

    longues regions ne peuvent tre

    dcrites avec cette mthode.

    A utiliser pour modliser de courtes rgions avec une forte variabilit mais de longueurs

    constantes.

    Outils :

    "The MEME Suite" : Motif-based sequence analysis tools

    Profils gnraliss : suite "Pftools"

    "InterProScan" : outils de InterPro

    Bases de donnes :

    "Prosite" : Database of protein domains, families and functional sites

  • "PRINTS": PSSM database

    "Pfam": protein domain database

    "SMART ": protein domain database

    "ProDom ": protein domain database

    "InterPRO ": protein "signatures" database

    Application PSI-Blast

    1. Une recherche standard BLAST est effectue contre une base de donnes en utilisant une

    matrice de substitution.

    2. Une matrice PSSM est construite automatiquement partir d'un alignement multiple des

    squences ayant le plus haut score ("hits") dans cette premire recherche BLAST.

    positions trs conserves : scores levs

    positions faiblement conserves : scores faibles

    3. La matrice PSSM remplace la matrice initiale et on effectue une 2me recheche BLAST.

    4. Les tapes 3 et 4 sont rptes et chaque fois, les squences nouvellement trouves sont

    ajoutes afin de construire une nouvelle matrice PSSM.

    5. On considre que le programme PSI-BLAST a converg quand aucune nouvelle squence

    n'est ajoute.

    5. Programme d'alignement multiple progressif : Clustal W

    La complexit des algorithmes de programmation dynamique croit de faon exponentielle

    avec le nombre de squences traiter, ce qui rend difficile leur utilisation pour plusieurs

    squences.

    Pour contourner ce problme, plusieurs heuristiques ont t proposes. Le programme

    ClustalW utilise un algorithme d'alignement multiple progressif.

    Etape 1

    La similarit de chaque squence est value par rapport toutes les squences.

    Un score de similitude est calcul pour chaque paire de squences selon un alignement

    approximatif global rapide : seuls les fragments exactements apparis et les diagonales

    avec un grand nombre d'appariements sont pris en compte.

    On obtient ainsi une matrice de distances.

    Etape 2

    Un dendrogramme ("guide tree") est construit : il s'agit d'un arrangement traduisant les

    relations globales de parent entre les squences. Cet arbre phylognique est construit

    selon la mthode "Neighbour-Joining".

    Il indique l'ordre partir duquel l'alignement multiple graduel sera tabli.

  • Etape 3

    Le programme construit un premier alignement multiple (par programmation

    dynamique ou par une mthode semblable celle de FASTA): les 2 squences les plus

    similaires servent de base pour l'laboration de cet alignement multiple primaire.

    On obtient une premire squence consensus qui est aligne avec la 3e squence la

    plus similaire.

    Toutes les squences (des plus proches aux plus distantes) sont ainsi progressivement

    ajoutes par construction de consensus successifs jusqu' l'alignement multiple final.

    (Source : La Base de Connaissances en Bio-informatique)

    Le risque le plus important en ce qui concerne les alignements multiples progressifs est qu'un

    alignement erron l'tape initiale engendre une erreur qui est amplifie dans l'alignement

    multiple global.

  • Le programme ClustalW comporte des particularits qui minimisent ce risque :

    le poids des squences est ajust

    des matrices de substitution appropries sont utilises selon l'tape de l'alignement et

    la divergence des squences

    l'introduction de gap est favorise des endroits spcifiques

    Application

    Aller "Sequence Manipulation Suite".

    Gnrer 10 squences ADN alatoires de 20 paires de

    base.

    Faire un copier-coller des 2 premires dans un diteur de

    texte.

    Item : "Random Sequences".

    Choisir : "-Random DNA

    Sequence"

    Aller "Clustal W" - EBI et coller les 2

    squences dans la fentre de soumission.

    Lancer l'application. Quel est le rsultat et

    pourquoi ?

    "ERROR: Multiple sequences found with

    same name, random (first 30 chars are

    significant)"

    Modifier le nom des squences dans l'diteur de

    texte et coller les 2 squences dans la fentre de

    soumission.

    Modifier les paramtres des gap et le choix des

    matrices. et relancer l'application.

    Voir l'alignement : "Alignment file" -

    Lien "clustalw - xxxxxxxxx.aln"

    Voir le score :"Output file" - Lien :

    "clustalw - xxxxxxxxxxx.output"

    6. Interprtation des rsultats : E-value, P-value

    La signification des alignements est un point capital. Elle repose sur des valeurs spcifiques

    mais aussi et (peut-tre surtout ?) sur une inspection visuelle du rsultat par l'exprimentateur

    et donc sur son expertise quant aux squences sur lesquelles il travaille.

    Cette signification est value statistiquement en fonction de la longueur et de la composition

    de la squence, de la taille de la banque et de la matrice de scores utilise.

    "Sequences producing a significant alignment" : squences ayant un alignement significatif. A

    chacune de ces squences sont attribus plusieurs valeurs spcifiques qui sont une indication

    de la qualit de l'alignement.

    "High-Scoring Segment Pairs" ou "HSP" : les couples de squences les plus longues dont les

    scores ne peuvent tre amliors aprs extension d'un segment initial (Voir une description de

    l'algorithme de BLAST).

    a. "E-Value" pour un score S (E = Expected)

  • Pour des squences de longueurs m et n, la statistique d'un score HSP

    est caractrise par 2 paramtres de la distribution des valeurs

    extrmes produites par l'algorithme de Smith-Waterman :

    K et

    "E-Value" est le nombre d'alignements diffrents que l'on peut

    esprer trouver dans les banques avec un score suprieur ou gal S.

    C'est donc la probabilit d'observer au hasard ce score dans les

    banques de squences considres.

    E-Value = K.m.n. e-S

    (1)

    "bit score S'" : ce score est driv du score brut S de l'alignement

    aprs normalisation.

    Il est utilis pour comparer des scores provenant de recherches

    diffrentes :

    S' = .S - Ln K / Ln 2

    E-Value = m.n. 2-S'

    "E-Value" Interprtation

    Plus la "E-Value" est faible, plus l'alignement est significatif.

    Pour des squences requtes trs courtes, la "E-Value" est leve, mme pour les squences

    dont l'alignement obtenu est significatif.

    < 1 e-100

    La probabilit de trouver par hasard un alignement comme celui qui

    est obtenu est infrieure 1 e-100

    --> appariement exact : mme squence, mme origine

    1 e-100

    < E < 1 e-50

    squences quasiment identiques : allles, mutations, espces voisines

    1 e-50

    < E < 0,1 une ventuel lien entre la squence requte et celles qui ont t

    trouves

    > 0,1 squences de l'alignement rejeter, sans lien avec la squences

    requte

    b. "P-Value" pour un score S

    Le nombre d'HSP avec un score suprieur ou gal S et obtenus par hasard suit une

    distribution selon la loi de Poisson.

    La probabilit de ne trouver aucun HSP avec un score suprieur ou

    gal S est :

    E est la "E-Value" pour le score S calcule avec l'quation (1).

    P = e-E

    Donc, la probabilit de trouver au moins 1 HSP avec un score

    suprieur ou gal S est : P-Value = 1 - e

    -E

  • E P-Value

    10 0,99995

    5 0,993

    trs faible valeurs de "E-Value" et de "P-Value" peu prs gales

    BLAST renvoie la "E-Value" plutot que la "P-Value".

    En effet, il est plus facile de comprendre la diffrence entre "E-Value" = 5

    et "E-Value" = 10 qu'entre "P-Value" = 0.993 et 0.99995.

    7. Liens Internet et rfrences bibliographiques

    "Cours d'autoformation en bioinformatique" - Universit Paris 5 : Trs bien

    fait et didactique. Avec exercices corrigs d'autovaluation. Aller au site

    "Sequence Manipulation Suite" : ensemble d'applications Java pour

    manipuler les squences. Trs bien fait et didactique pour se familiariser

    rapidement. Superbe

    Aller au site

    "An introduction to Bionformatics Algorithms" Aller au site

    "The Statistics of Sequence Similarity Scores" - Altschul, S.F. NCBI - Blast

    Needleman, S.B. & Wunsch, C.D. (1970) "A general method applicable to the search for

    similarities in the amino acid sequence of two proteins" J. Mol. Biol. 48, 443 - 453

    Smith, T. & Waterman M. (1981) "Identification of common molecular subsequences" J.

    Mol. Biol. 147, 195 - 197

    Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990)

    "Basic local alignment search tool" J. Mol. Biol. 215, 403 - 410

    BLAST

    Article

    Pearson, W.R. & Lipman, D.J. (1988) "Improved tools for biological

    sequence comparison" Proc. Natl. Acad. Sci. USA 85, 2444 - 244 FASTA

    Thompson, J.D., Higgins, D.G. & Gibson, T.J. (1994) "CLUSTAL W:

    improving the sensitivity of progressive multiple sequence alignment through

    sequence weighting, position-specific gap penalties and weight matrix

    choice" Nucleic Acids Res. 22, 4673 - 4680

    ClustalW

    Article

    Corpet, F. (1988) "Multiple sequence alignment with hierarchical clustering"

    Nucleic Acids Res. 16, 10881 - 10890 Multalin

    Sonnhammer et al. (1998) "Pfam: multiple sequence alignments and HMM-

    profiles of protein domains" Nucleic Acids Res. 26, 320 - 322

    PFAM

    Article

  • Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein

    database search programs" Nucleic Acids Res. 25, 3389 - 3402

    Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating

    PSI-BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664

    Edgar, R.C. (2004) "MUSCLE: multiple sequence alignment with high

    accuracy and high throughput" Nucleic Acids Res. 32, 1792 - 1797

    Biegert A. & Soding J. (2009) "Sequence context-specific profiles for

    homology searching" Proc Natl Acad Sci USA 106, 3770 - 3775

    Thompson et al. (2011) "A Comprehensive Benchmark Study of Multiple

    Sequence Alignment Methods: Current Challenges and Future Perspectives"

    PLoS ONE 6, e18093

    Article

    Article

    Article

    Eswaret et al. (2006) "Comparative protein structure modeling using

    MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6

    Bramucci et al. (2012) "PyMod: sequence similarity searches, multiple

    sequence-structure alignments, and homology modeling within PyMOL"

    BMC Bioinformatics 13, S2

    Braberg et al. (2012) "SALIGN: a web server for alignment of multiple

    protein sequences and structures" Bioinformatics 28, 2072 - 2073

    Article

    Article

    CATH ("Class, Architecture, Topology and Homology")

    SCOP ("Structural Classification Of Proteins")

    CATH

    SCOP

  • CHAPITRE V : La phylognie

    Introduction

    L'volution de la structure gnrale du gnome conduit des contraintes volutives

    (composition en bases, vitesse d'volution, par exemple) qui s'exercent simultanment sur

    tous ou un grand nombre de gnes indpendamment de la fonction particulire de chaque

    gne. La phylognie tente de reconstituer les filiations volutives (arbres) aboutissant aux

    squences tudies. Elle permet, partir de squences alignes, la suggestion d'un arbre

    phylogntique qui tente de reconstruire l'histoire des divergences successives durant

    l'volution, entre les diffrentes squences et leur anctre.

    V-1- Quelques dfinitions

    Horloge molculaire : http://www.univ-tours.fr/genet/gen13.html (GENET)

    Distance volutive : nombre de substitutions au cours de lvolution entre squences.

    Transition/transversion : http://anthropologie.unige.ch/evolution/transpos.html

    V-2- Mthodes de reconstruction partir de squences

    Ces mthodes comme cela vient dtre dit tente de suggrer un arbre phylogntique. Chaque

    nud dun arbre est une estimation de lanctre des lments inclus. IL faut toujours garder

    lesprit que lon obtient toujours seulement une estimation de larbre. Cela revient dire

    quen pratique les arbres sont imparfaits et que leur prcision doit toujours tre

    statistiquement tablie.

    a) Principe de base de toutes les mthodes

    On dispose dun ensemble de squences. Les diffrentes tapes sont :

    1) Aligner proprement les squences

    2) Appliquer des mthodes de gnration d'arbres

    3) Evaluer statistiquement la robustesse des arbres.

    V-3- Les diffrentes mthodes de gnration darbres

    a) Mthode de parcimonie

    Elle construit l'arbre le plus parcimonieux (le plus court), ayant le minimum de pas (de

    substitutions, insertions, dltions pour les squences, ou de changements d'tats pour les

    caractres discrets ). Autrement dit, l'arbre le meilleur est celui qui a besoin du minimum de

    changements

    b) Mthode de vraisemblance

    Cette mthode s'applique quand le taux de changements est trs lev (d'o une approche

    statistique). Les bases ou AA de toutes les squences chaque site sont considres

  • sparment et le log de la vraisemblance est calcul pour une topologie donne en utilisant un

    modle de probabilit. Ce log de la vraisemblance est cumul sur tous les sites et la somme

    est maximise pour estimer la longueur de branche de l'arbre. Cette procdure est rptes

    pour toutes les topologies possibles et la topologie ayant la plus haute vraisemblance est

    choisie.

    c) Mthode des distances

    Les distances volutives (voire dfinitions) sont 2 2 dfinies. Elles doivent tre

    indpendantes et sont considres dans la mthode comme additives. Elles minimisent la

    somme des carres des diffrences entre distances observes et calcules. On convertit donc

    les donnes de squences en valeurs de distances arranges en matrice.

    La topologie de l'arbre est construite par une mthode de classification (comme UPGMA ou

    Neighbor joining (NJ)). La mthode donne une estimation de la distance pour chaque paire de

    longueurs de branche dans le chemin d'une squence vers une autre.

    * avantages : Facile gnrer. Calculs rapides. Bon rsultats pour des squences de forte

    similitude..

    * inconvnients : les squences ne sont pas considres en tant que telles. Les sites sont traits

    de manire quivalentes. Pas applicable aux squences trs divergentes.

    Les diffrentes distances volutives

    Distance de Jukes et Cantor

    Distance de Kimura

    Distance de Poisson entre squences protiques

    V-4- Fiabilit et robustesse des topologies

    Comme cela a t dit, la prcision des arbres doit toujours tre statistiquement tablie. Pour

    cela deux grandes mthodes sont utilises :

    Bootstrap

    Jacknife

    Dans les deux cas, on value par chantillonnage au hasard des donnes alignes (avec

    rptition), la robustesse des topologies. Une bonne vrification ncessite au moins 100

    chantillonnages. On gnre donc partir d'un jeu de squences alignes, un ensemble

    alatoire de N jeu de squences alignes. Des arbres sont calculs partir des diffrentes

    mthodes et un arbre consensus est obtenu.

  • V-5- Les outils et programmes

    a) Choix du programme

    Il dpend :

    1) de la nature des donnes

    2) des suppositions biologiques et choix de l'algorithme

    3) du type de rsultats attendus

    b) Les logiciels

    Alignement multiple des squences

    ClustalW, MultiAlin,

    Mthodes de gnration darbre

    Mthode de parcimonie

    protpars pour les protines

    dnapars pour ADN/ARN

    Mthode de vraisemblance

    Dnaml pour ARN/ADN

    fastDNAML plus rapide (et intgr dans le package phylo_win)

    Mthode des distances

    fitch Matrice de distances

    (Dans FITCH les segments ne sont pas proportionnel au temps coul)

    kitsch Matrice de distances

    neighbor Neighbor-joining (NJ) et UPGMA

    NJ est probablement la meilleure mthode et la plus simple utiliser :

    prodist (ou nucdist), puis neighbor

    Reprsentation graphique de larbre

    Les programmes drawgram, drawplot (PHYLIP) , njplot (Mac, PC ou

    Unix), treetool (Xwindow) ou growtree (GCG) permettent des reprsentations graphiques.

    Evaluation de larbre

    Seqboot

  • V-6- Les principaux packages en phylognie

    GCG

    La chane de programmes dans GCG est la suivante :

    pileup (Alignement multiple) => distances (Construction arbre) => growtree

    (Reprsentation graphique)

    Le calcul des distances 2 2 entre les squences alignes par pileup peut tre fait selon

    plusieurs mthodes :

    1 Uncorrected distance

    2 Jukes-Cantor distance

    3 Kimura protein distance

    CLUSTALW

    Dans les diffrentes rubriques de ClustalW on trouve :

    1. Multiple alignments qui permet daligner les squences

    2. Phylogenetic trees

    1. Draw tree qui permet la cration de larbre selon la

    mthode de NJ

    2. Bootstrap qui permet lvaluation de larbre

    Larbre ainsi gnr pourra tre repris dans les logiciels ddition graphique darbre comme

    Njplot.

    Environnement PHYLIP

    Ensemble de plus de 40 programmes concernant la phylognie molculaire

    Documentation gnrale : http://www.infobiogen.fr/docs/PHYLIPdoc/

    Alignement multiple : utiliser un logiciel comme clustalW, en utilisant loption de sortie des

    fichiers au format Phylip.

    Mthodes de construction darbres

    Parcimonie : dnapars (dna), protpars (prot)

    Distances : dnadist (Kimura ; ML ; JC), Protdist, fitch, kitsch, neighbor

    Vraisemblance : dnaml

  • Evaluation de larbre : seqboot, consens

    Des serveurs bien utiles

    Avant la fin de ce cours, il est important de vous donner quelques liens vers des serveurs vous

    permettant de devenir encore plus autonome pour analyser vos squences. Ces serveurs vous