My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10...

Preview:

Citation preview

myGrid: Une Vision globale

Rencontre autour de la plate-forme bioinformatiquesRennes, 2008-04-10

Franck Tanohhttp://www.mygrid.org.uk

myGrid

Le projet myGrid a un ensemble de composants destinés

à soutenir la réalisation d’expériences in silico en biologie.

Taverna workbench = Un système de gestion de workflows

Feta = découverte des services web myExperiment = collaboration + réutilisation des

workflows

open source

Partenaires

Première étape du projet fiancée par l’EPSRC

Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.

OMII-UK

Motivations

NAR 2007 – 968 base de données

EMBL database growth

Problèmes

Tout est distribuées: Données Ressources Scientifiques

Ressources hétérogènes Très peu de standards

formats d’entrée et de sortie représentation annotation des données

L’intégration des données, l’interopérabilité des ressources très difficile.

Intégration des données bioinformatiques

12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa

Couper-coller

Couper-coller Avantages:

Technologie très simple Analyse des résultats pendant l’intégration

Inconvénients: Demande beaucoup de temps Répétition difficile Limitée aux petites données Exposés aux erreurs

Impossible d’appliquer cette technologie au génome/protéome/métabolome

Intégration des données bioinformatiques

Pipeline programmation Avantages

Reproductible Automatique Rapide, fiable, efficace

Inconvénients Exige des compétences en programmation Difficile a modifier Nécessite outils et maintenance des bases de

données !!!

Intégration des données bioinformatiques

Meilleurs solutions ??

Un système qui: Permet d’automatiser l’intégration des données Fonctionne sur des ressources distribuées Facilite la répétition, la vérification et le partage des

expériences scientifiques Nécessite peu ou pas de compétences en

programmation Fonctionne à partir d’un ordinateur de

bureau/portable

La solution myGrid

myGrid permit d’automatiser l’exécution d'expériences in

silico sur des ressources distribuées à partir d’un simple

ordinateur de bureau.

Technologie basée sur: Services web Workflows Web sémantique

Services web

Un Service Web est un programme informatique permettant la

communication et l'échange de données entre applications et

systèmes hétérogènes dans des environnements distribués (Wikipedia).

Avantages: Interopérabilité entre divers logiciels fonctionne sur diverses plate-forme Utilise des standards et protocoles ouverts

European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter)

Workflows

Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressourcesPassent d'un participant à un autre.

sequenceDNA

GenScanService web

BlastService web

Décrivez ce que vous voulez faire

Pas besoin d’êtres programmeur

Moteur de workflows

Différents langages, accès, domaines

Taverna est : Un moteur de workflow basé sur le flot des données. Un environnement pour la construction et l’édition de

workflows. Un système d'exécution des workflows sur des données

fournies par l’utilisateur Un système de visualisation des résultats (3d, html…)

Taverna

Le tout en un logiciel exécutable à partir de votre ordinateur

http://taverna.sf.net

>45000 téléchargements International: US, Singapore, UK, Europe, Australie Parmi les 200 logiciels sur sourceforge en Juin 2007

Taverna

Par défaut, Taverna interopère avec: SOAP services web Biomart Entrepôts de données Soaplab outils de ligne de commande BioMoby services web Interprète script Beanshell (proche de Java)

Taverna

Taverna dans la recherche

Biologie des systèmes Biologie moléculaire Annotation Gene/protéine Analyse des données

microarray Analyse d’images

médicales Simulation cardiaque Etude des

Génotypes/Phénotypes Informatique médicale Astronomie Chimie informatique Intégration de données

http://www.genomics.liv.ac.uk/tryps/trypsindex.html

An

dy Brass

Steve

Ke

mp

Pa

ul Fishe

r

La trypanosomiase chez les bovins

Trypanosomiase chez les bovins

Une forme de la maladie du sommeil chez les bovins connue sous

le nom n’gana causée par Trypanosoma brucei.

Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est

pas le cas des bovins Anglais.

Quelles sont les causes des différences?

Trypanosomiase chez les bovins

Comprendre le phénotype Comparaison des souches sensibles vs résistants – Microarrays

Comprendre le génotype Analyse de QTL (Loci de Caractères Quantitatifs )

A – Trouver les gènes dans les régions QTL

B – Annotation des gènes avec des bases de données externes

C – Faire correspondre KEGG ids et gène ids

D – Récupérer les données microarray

E – pour chaque KEGG gène retrouver sa voie métabolique

F – obtenir la description de chaque voie métabolique

G – obtenir l’annotation de chaque KEGG gène

Etude de la Trypanosomiase

Résultats

Identification du gène (Daxx) qui semblerait jouer un rôle

dans la résistance à la trypanosomiase.

Au préalable, l’analyse manuelle des même données n’a pas

réussi à identifier ce gène comme un candidat.

Succès du workflow?

Chaque donnée est systématiquement analysée Pas besoin de filtrer les données ou émettre des

hypothèses en vu de réduire le volume de données. Enregistrement de la ‘provenance’ des données Volume de données réduit a l’issue de l’expérience

Gestion des erreurs

La plupart des services web n’appartiennent pas à myGrid .

Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: Encourager l’utilisation des services fournis par de

grands organismes come EMBL, NCBI, DDBJ … Informer l’utilisateur lorsqu'un service ne fonctionne

pas Ré-exécuter les services Remplacement des services

Découverte des services web

Plus de 24 000 services web (seekda 03/08)

Difficile de trouver un service particulier?

Majorité des services sans descriptions

WSDL: input0:string, Output0:string

Nom des services

fonction des services. e.g serachsimple, seqret

On ne peut donc pas uniquement ‘Google’ les services web

La solution myGrid

Découverte des services en fonction de leurs: Noms Fonctions Paramètres (entrées et sorties) Ressources utilisées

Annotation Sémantique: Annotation manuelle ou automatique des services web

à partir

de vocabulaires contrôlés (ontologies).

Annotation des services web

Ontologie bioinformatiqueWSDL

Marquer chaque description avec des termes dans l’ontologie.

Plus de 600 services dans le catalogue de myGrid . Annotation faite par des experts en

bioinformatique. En démontrant l‘importance de l’annotation dans

l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.

Annotation des services web

Feta découverte sémantique

Feta, composant de myGrid interroge le catalogue des services web .

Exemple de questions:Trouve-moi tous les services qui effectuent un

alignement des séquences et acceptent pour input des

séquences de protéines avec le format FASTA

Interface utilisateur de Feta

Provenance et Origine

Workflows peuvent générer beaucoup d’informations: Données Métadonnées origine de l’expérience

Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues

Comment gérer de telles donnes?

Le Logbook de myGrid

qui, quoi, ou, quand, pourquoi?, comment?

Contexte Interprétation Reproductibilité Vérification Crédibilité

Smart Tea

BioMOBY

Bonnes pratiques scientifiques

Interface utilisateur du Logbook

myExperiment

Motivations

Workflows = nouvelles rock and roll

“L'ère” des Services web en bioinformatiques

Motivations

Recyclage, Réutilisation, Réorientation des workflows

Motivations

Communauté scientifique distribuée et sous équipée

myExperiment est…

Réseau social pour le scientifique

Demo

myExperiment

http://www.myexperiment.org

La communauté de myGrid

Taverna2 ou T2 Moteur workflow (enactor) totalement

réécrit avec plus de points d'extensions Adresser les problèmes de sécurité des

données Taverna sur le grid Glisser-déposer (Drag and drop )

myGrid: nouvelle direction

T2: un avant-goût

Les erreurs sont également des données

T2: un avant-goût

T2: un avant-goût

Data Manager: plusieurs gestionnaires de données Mémoire Fichiers Disque dur Serveurs

Taverna 1.7… Contient un plugin pour T2 Plusieurs mise à jour à suivre courant 2008

http://taverna.sourceforge.net/download

T2: un avant-goût

Biocatalogue

Un catalogue de services web

Workflow Warehouse

Service Catalogue

ProvenanceWarehouse

Client Applications

Service Ontology

Provenance Ontology

Une vision globale de myGrid

myExperimentmyExperimentWeb portalWeb portal

Taverna Taverna WorkbenchWorkbench

GUIGUI

Feta Feta InformationInformation

ServicesServices

LogbookLogbookProvenanceProvenance

ManagementManagement

TavernaTavernaWorkflowWorkflowEnactorEnactor

Middleware(Web Services, Grid Services)

Please see http://www.mygrid.org.uk/wiki/Mygrid/Acknowledgements for most up to date list

http://www.mygrid.org.uk

Recommended