41
Bases de données en biologie (suite) G. Almouzni (I. Curie)

Bases de données en biologie (suite) G. Almouzni (I. Curie)

Embed Size (px)

Citation preview

Page 1: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Bases de données en biologie (suite)

G. Almouzni (I. Curie)

Page 2: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• BD bibliographiques

• Historique

Plan du cours (1)

Rappels de BIO

• BD spécialisées - par organisme- par thématique (problématique bio)

Violaine Pillet+ Extraction d ’information à partir de textes

• Des bases de données aux bases de connaissances

Page 3: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Banques de séquences généralistes

• PIR-NBRF

Banques de séquences protéiques

• données expérimentalesisolation, séquençage

• données in silicodéduction à partir de la séquence nucléique par simple traduction

Séquences protéiques

• Swissprot

Page 4: Bases de données en biologie (suite) G. Almouzni (I. Curie)

PIR-NBRF

• création 1984

• données

NBRF (National Biomedical Research Foundation)

MIPS (Martinsried Institute for Protein Sequences, Munich)JIPID (Japan International Protein Information Database)

Page 5: Bases de données en biologie (suite) G. Almouzni (I. Curie)

http://pir.georgetown.edu/

Page 6: Bases de données en biologie (suite) G. Almouzni (I. Curie)
Page 7: Bases de données en biologie (suite) G. Almouzni (I. Curie)
Page 8: Bases de données en biologie (suite) G. Almouzni (I. Curie)
Page 9: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Swissprot

• création 1986

• données

Université de Genève

Séquences banque PIR-NBRFSéquences banque EMBL (traduction)

Chaque entrée de la base a été expertisée par un annotateur

Amos Bairoch

SIB: Swiss Institute of Bioinformatics

Collaboration : SIB + EBI

Page 10: Bases de données en biologie (suite) G. Almouzni (I. Curie)

www.expasy.org/sprot/

Page 11: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• Historique

Plan du cours

Rappels de BIO• BD spécialisées

- par organisme- par thématique (problématique bio)

• Des bases de données aux bases de connaissances

Page 12: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Forte croissance + hétérogénéité des séquences des banques généralistes

constitution de bases de données

• par thématique

• par organisme

espace de connaissances de références

Des banques aux bases de séquences (1)

Page 13: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• bases de séquences dédiées – à un organisme– à des objets biologiques communs à

plusieurs organismes

• travail important– correction des erreurs– élimination des doublons– annotations

Des banques aux bases de séquences (2)

Page 14: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Bases de séquences Adresse Bases génériques (multi- organismes)EMBL / trEMBL http:/ / www.ebi.ac.uk/ embl/Genbank / GenPept http:/ / www.ncbi.nlm.nih.gov/ entrezDDBJ (DNA Data Bank of J apan) http:/ / www.ddbj .nig.ac.jp/SwissProt http:/ / www.expasy.org/ sprot/ Bases spécialisées (organisme)GenoList http:/ / genolist.pasteur.f rCyanobase http:/ / www.kazusa.or.jp/ cyano/TAI R (The Arabidopsis I nformation Resource) http:/ / www.arabidopsis.orgFlyBase (Database of the Drosophila Genome) http:/ / flybase.bio.indiana.edu/MGD (Mouse Genome Database) http:/ / www.informatics.jax.org/GDB (Human Genome data Base) http:/ / gdbwww.gdb.org/ Bases spécialisées (thématique)PROSI TE http:/ / www.expasy.org/ prositeeMOTI F http:/ / f old.stanford.edu/ motifEPD (Eukaryotic Promoter Database) http:/ / www.epd.isb-sib.ch/

Bases de séquences spécialisées

Page 15: Bases de données en biologie (suite) G. Almouzni (I. Curie)
Page 16: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Génomes procaryotes

Page 17: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Mais les données ne se limitent pas aux séquences...

Page 18: Bases de données en biologie (suite) G. Almouzni (I. Curie)

BD biologie moléculaire

Nom adresse MétabolismeKEGG (Kyoto Encyclopedia of Genes and Genomes) http:/ / www.genomes.ad.jp/ keggBRENDA http:/ / www.brenda.uni-koeln.deEMP (Enzymes and Metabolic Pathways) http:/ / www.empproject.comEnzyme http:/ / www.expasy.ch/ enzymeEcoCyc http:/ / ecocyc.org Régulation transcriptionnelleRegulonDB http:/ / itzmanna.cif n.unam.mx/ Computational

_Genomics/ regulonDB I nteractions protéine- protéineDI P (Database of I nteracting Proteins) http:/ / dip.doe-mbi.ucla.edu/BI ND (The Biomolecular I nteraction NetworkDatabase)

http:/ / www.bind.ca/

Données structurales (3D)PDB (Protein Data Bank) http:/ / www.rcsb.org/ pdbEC to PDB http:/ / www.biochem.ucl.ac.uk/ enzymes Famille de gènes ou de protéinesThe Protein Kinase Resource (PKR) http:/ / www.sdsc.edu/ kinases5S Ribosomal RNA Database http:/ / biobases.ibch.poznan.pl/ 5Sdata/

Page 19: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Données structurales : PDB

Page 20: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Navigation dans les bases

Page 21: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• BD spécialisées - par organisme- par thématique (problématique bio)

Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• Historique

Plan du cours

Rappels de BIO

• Des bases de données aux bases de connaissances

Page 22: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• Illusoire de penser construire un jour “ le ” système d’informations biologiques universel 

pluralité des problématiques pluralité des bases de données

• > 1000 BDs

• Ces BDs sont conçues pour répondre à des objectifs différents.

• Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer

Schéma conceptuel = modèle dont la conception est pilotée par les questions qu’il doit permettre d’aborder

Une multiplicité de bases de données hétérogènes

Mais, conséquences pratiques facheuses...

Page 23: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Une multiplicité de BDs hétérogènes : conséquences (1)Recherche d ’informations

Interroger plusieurs basesRelier entre elles les données extraites= Intégrer les données

merci Internet

Démarche fastidieuse

Démarche inenvisageable

Analyse d ’un petit nombre de séquences

Analyse de résultats à grande échelle (génome, protéome, transcriptome,…)

Page 24: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• Problème technique : Diversité des modèles et des formats des bases concernées.

Cas favorable : s’adapter au modèle de chacune des bases.

Cas moins favorable (mais plus fréquent) : les dites “ bases de données ” sont constituées de simples fichiers munis d’un langage d’interrogation et de manipulation ad hoc.

Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données

Une multiplicité de BDs hétérogènes : conséquences (2)

Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases

Souvent: schéma indisponible, inexistant,…Pb :connaître le nom d ’un champ ou d ’un enregistrement est insuffisant

Page 25: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Une multiplicité de BDs hétérogènes

Problème majeur:HETEROGENEITE des données ( nature, formats)

Volume de données : non limitant

Comment intégrer ces données biologiques, hétérogènes et distribuées, afin qu’elles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ?

INTEGRATION

Page 26: Bases de données en biologie (suite) G. Almouzni (I. Curie)

2 grandes catégories de solutions

Entrepôts de données (data warehousing)2

= restructurer les données au sein d ’un schéma uniqueles données des différentes bases concernées sont copiées de leurs bases d’origine

(+) temps de traitement des requêtes(-) mises à jours

Intégration de données hétérogènes

= ajouter, au-dessus des bases existantes, une couche logicielle • offre les interfaces nécessaires entre les bases • fait apparaître l’ensemble comme une seule base virtuelle

Approche fédérative1

(+) assure d’accéder à tout instant à des données qui sont à jour

Résoudre les problèmes d ’incompatibilité syntaxique et sémantique

Page 27: Bases de données en biologie (suite) G. Almouzni (I. Curie)

SRS - Sequence Retrieval System

Rajouter l ’URL

1

Page 28: Bases de données en biologie (suite) G. Almouzni (I. Curie)

SRS permet d ’accéder à différentes BDs via une interface uniqueExemple: ExPASy: SWISS-PROT, TrEMBL (SPTR)

SRS - Sequence Retrieval System1

Page 29: Bases de données en biologie (suite) G. Almouzni (I. Curie)

ENTREZ

ENTREZ (NCBI)1

Page 30: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Mise en correspondance des entités modélisées dans différents schémas conceptuels

Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement

documenté

Cependant,dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base)

Parfois,description sous forme de textes dans la documentation associée

Expliciter et formaliser les entités manipulées

Entrepôt de données2

= restructurer les données au sein d ’un schéma unique

Page 31: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Représentation de connaissances

François Rechenmann

Danielle Ziébelin : AROM

Des bases de données aux bases de connaissances...

Page 32: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Modéliser plus finement les classes d’entités, ainsi que les relations qu’elles entretiennent

non plus seulement à des fins de requêtes et de gestionmais pour expliciter formellement leurs définitions

Des bases de données aux bases de connaissances

Ontologie : formalisation des concepts d’un domaine et des relations qu’ils entretiennent

Une ontologie n’est pas réductible à la constitution d’un vocabulaire

En pratique, le schéma d’une base de connaissance correspond = mise en œuvre de l’ontologie retenue

bases de données base de connaissances

Page 33: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Les modèles de connaissances offrent une capacité d ’expression permettant d’aborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases

Champs texte (langage naturel)

Lisible et interprétable par un humain

Exploitation automatique très délicate

Ex: champ fonction

Bases de connaissances

Page 34: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• Syntactic Annotation Feature detection by content

Genome annotation

DNA sequence

• CDSs, RNAs• Regulation signals• Repeats... etc

• Functional Annotation « function » attribution

Objects

Seq

•• Relational / Context Annotation ?

• gene products• operator families

•• Sequence similarity

Page 35: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Genome B

Genome A

Synton

Genome A Genome B

Dyn. Prog.

• Comparative genomics

• Genetic networks

• Molecular assemblies

ABC tranporters Fichant et al.

• Metabolic pathways

relation

Relational Annotation

Page 36: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Panoramix KBs

gene polypeptide

Chromosome BChromosome A

biochemical reactions

compounds (e.g. sugar...)molecularassembly

EC

EC

EC

Metabolix

Proteix

Genomix

EC enzyme

Page 37: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Fini pour aujourd’hui...

Page 38: Bases de données en biologie (suite) G. Almouzni (I. Curie)

ENTREZ - BLAST

Page 39: Bases de données en biologie (suite) G. Almouzni (I. Curie)

Les limites des bases de séquences...

Hétérogénéité dans la nature des séquences

Variabilité de l ’état des connaissances sur les séquences

Erreurs dans les séquences

Biais d ’échantillonage

A voir ???

Page 40: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• Databases: nombreuses erreurs (annotation automatique) !

• Toutes les BDs ne sont pas disponibles sur tous les serveurs

• Problème de synchronisation des mises à jour

• Références croisées

BDs: ATTENTION !

• Compatibilité syntaxique Format

• Compatibilité sémantiqueBiologiste + bio-informaticien

Page 41: Bases de données en biologie (suite) G. Almouzni (I. Curie)

• Analyse de séquences

• Données de bonne qualité

• Complète, détaillée

• Remise à jour

• Peu redondante

• Indexée pour pouvoir poser des requêtes compliquées

• Quel site répond le plus rapidement

• …….??????

Prolifération de BDs

Recherche de la BD idéale