27
Système de représentation et xploration de données biologiques hétérogèn

Système de représentation et dexploration de données biologiques hétérogènes

Embed Size (px)

Citation preview

Page 1: Système de représentation et dexploration de données biologiques hétérogènes

Système de représentation et d’exploration de données biologiques hétérogènes.

Page 2: Système de représentation et dexploration de données biologiques hétérogènes

Sommaire

GenoLink

Genostar

Démonstration de GenoLink

Page 3: Système de représentation et dexploration de données biologiques hétérogènes

GenoLink ?

Système de représentation de données bio. hétérogènes

Système d’intégration de données

Moteur de requêtes

Outils de visualisation adaptés à la gestion de graphes

Deux versions du logiciel: autonome et module de Genostar.

Page 4: Système de représentation et dexploration de données biologiques hétérogènes

Représentation des données

Principe: utilisation d’un graphe

contient domainecode pourinteraction

protéine noeuds

arêtes

gènedomaine

Chaque nœud/arête a un identifiant, type, et peut avoir des attributs.

Notion de voisinage.

GenoLink:Concept:1/3

Page 5: Système de représentation et dexploration de données biologiques hétérogènes

Modèle de données

Pour décrire formellement les données autorisées dans un graphe, GenoLink s’appuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble).

Gene

Identifier

Name

Type de l’entité

attributsIsLocatedOn

fromto

Chromosome

Identifier

Size

Topology

Type et attributsde la relation

GenoLink:Concept:1/3

Page 6: Système de représentation et dexploration de données biologiques hétérogènes

Modèle de données

HasPhysicalInteractionWith

IsCodingFor ContainsFragment

IsOrthologTo

HasNucleicSimilarityWith

HasPeptidicSimilarityWith

Organism

PeptidicComposite

FragmentPolypeptide

Peptidic

Gene

Nucleic

PeptidicAtomicReplicon

RnaGene ProteinGene

IsLocatedOn

IsRepliconOf

Identifier: string

Name: string

Synonym: string

Description: string

Length: int

Polypeptide

GenoLink:Concept:1/3

Identifier: string

from: int

to: int

IsLocatedOn

Exemple de modèle pour la génomique bactérienne.

Page 7: Système de représentation et dexploration de données biologiques hétérogènes

Graphe d’instances

Helicobacter pylori 26695NC_000915

HP0072

HP0073

ureB

ureA

IROILO

ILO

ICF

ICFHPIW

HPIW

Identifier:pp15644702

Name:urease beta subunit (urea amidohydrolase) (ureB)

Synonym:GI:15644702,RS:NP_206872,GB:AAD07143

Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID:149011

GB:AE000511 percent identity: 100.00; identified by sequence similarity; putative

Length:569

IRO : IsRepliconOf

ILO : IsLocatedOn

ICF : IsCodingFor

HPIW : HasPhysicalInteractionWith

Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915).

GenoLink:Concept:1/3

Exemple: représentation d ’un génome.

Page 8: Système de représentation et dexploration de données biologiques hétérogènes

Exploration d’un graphe d’instances

GénoLink ‘voit’ l’information via un graphe

Requête GenoLink = un motif de graphe

GenoLink:Concept:2/3

Page 9: Système de représentation et dexploration de données biologiques hétérogènes

Exploration d’un graphe : principe

Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli.

Organism Gene OrganismGene

H.pylori E.coliIsOrthologToRequête:

Résultat: H.pylori HP0396 E.coliyigC

H.pylori HP0810 E.coliyhhF

H.pylori HP1247 E.coliholA

...

GenoLink:Concept:2/3

Page 10: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

GQL = GenoLink-Graph Query Language

Soit Q=(A,Y,GC) un graphe requête

où A={ai}i=1,m un ensemble de variables de noeud

Y={yk}k=0,n un ensemble de variables d’arête

GC une expression sur ai et yk (Global Constraint).

Q ne peut contenir qu’une unique composante connexe,

A et Y définissent la topologie de la requête.

GenoLink:Concept:2/3

Page 11: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

Déclaration d’une variable de nœud:

Na isa TE [where AE];

Nom de la variable

Expression de type

Expression decontrainte locale

pg isa ProteinGene where Length>600 ;pp isa Polypeptide where Name!:”hypothetical” ;

GenoLink:Concept:2/3

Page 12: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

Les opérateurs autorisés dans les expressions:

Relationnels: < > <= >= != ==Booléens: and or notArithmétiques: + - * / ( )Pattern-matching: !: :: (GNU RegExp)

GenoLink:Concept:2/3

Page 13: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

Déclaration d’une variable d’arête:

Ny (Na1, Na2) isa TE [where AE];

Nom de la variable

Expression de type

m (pg,pp) isa IsCodingFor ;

Nom des variables de nœud source (a1) et cible (a2)

GenoLink:Concept:2/3

Expression decontrainte locale

Page 14: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

Déclaration d’une requête:

query Nq Nx [where GC];

Nom de la requête

Liste de noms de variable

Contrainte globale

query q m;

Page 15: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

En résumé :

pg isa ProteinGene where Length>600 ;pp isa Polypeptide where Name!:”hypothetical” ;m (pg,pp) isa IsCodingFor ;

query q m;

create graphRes from GenolinkDB with q;

pg ppm

GenoLink:Concept:2/3

Page 16: Système de représentation et dexploration de données biologiques hétérogènes

Langage de requête : GQL

Requête avec contrainte globale et filtrage des résultats:

p1 isa Polypeptide ;p2 isa Polypeptide ;ppi (p1,p2) isa HasPhysicalInteractionWith ;

query q2 ppi where p1.Length<=250 and p1!=p2;

create graphRes2 from GenolinkDB with q2 distinct p1;

p1 p2ppi

Page 17: Système de représentation et dexploration de données biologiques hétérogènes

Construction d’une requête GenoLink

GenoLink:Concept:2/3

En pratique: Query Builder.

Page 18: Système de représentation et dexploration de données biologiques hétérogènes

Algorithme de recherche

Soit: pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:”hypothetical” ; m (pg,pp) isa IsCodingFor ; query q m; create g from GenolinkDB with q distinct pg;

pg ppm

1. Validation du GQL,

PG {pgi}i=1,2

S Øfor all pgi in PG do if solve(pgi)=true then for all neighbours of pgi do s = DFS(query, pgi) if s Ø then if solve(s, query.GC)=true then S.addDistinct(s, DC) end if end if end for end ifend for

3. Résolution:

GenoLink:Concept:2/3

2. Choix de l’amorce: interrogation du graphe d’instances,

pg1 pp1

pg2 pp2

pp3pg2

pg1 pp1

pg2 pp2

pp3

ProteinGene 2 instancesPolypeptide 3 instancesIsCodingFor 3 instances

Page 19: Système de représentation et dexploration de données biologiques hétérogènes

Opérateurs spéciaux de GQL

Opérateurs sur les ensembles :

union, intersection et différence (de graphes).

GenoLink:Concept:2/3

Page 20: Système de représentation et dexploration de données biologiques hétérogènes

Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe d’objets: groupe de gènes orthologues. classifications fonctionnelles.

Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification)

Modèle ouvert, interchangeable

Quelles données ?

Modèle de données pour génomes bactériens

GenoLink:Concept:3/3

Page 21: Système de représentation et dexploration de données biologiques hétérogènes

Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI

Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies.

Quelles données ?

GenoLink:Concept:3/3

Page 22: Système de représentation et dexploration de données biologiques hétérogènes

Processing / Integration

Genomicdata

Interaction data

FunctionalClasses

Domaindata

PG PP PP PP DS PP EC

GenoLink data-graph

PGPP

DSEC

Intégration de données

GenoLink:Concept:3/3

Page 23: Système de représentation et dexploration de données biologiques hétérogènes
Page 24: Système de représentation et dexploration de données biologiques hétérogènes

GENOME ExpressHybrigenicsINRIAInstitut Pasteur

développer une plate-forme bioinformatique de génomique exploratoire

But :

Partenaires :

Plus : www.genostar.org

Genostar

Page 25: Système de représentation et dexploration de données biologiques hétérogènes

Genostar

Genostar est aussi, et avant tout, une plate-forme de développement logicielle multi-OS pour la bioinformatique (Java 1.4.x).

GenoCore, le noyau du système, propose les services logiciels (API):de modélisation et de gestion des données (AROM),de typage complexe (matrice, séquence),de modélisation des tâches (AROM-Task),d’exécution de logiciels externes avec gestion des entrées/sorties (BLAST),d’affichage graphique générique (AROM-GCL) et cartographique,d’interopérabilité,...

Tout module Genostar (GenoAnnot, GenoLink, GenoBool, ...)fonctionne grâce à GenoCore.

Page 26: Système de représentation et dexploration de données biologiques hétérogènes

Genostar

Genostar 1.x: destinée aux utilisateurs (depuis décembre 2002),

Genostar 2.x: destinée aux utilisateurs/programmeurs (décembre 2003).

Page 27: Système de représentation et dexploration de données biologiques hétérogènes

Démo...