55
my Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 ranck Tanoh tp://www.mygrid.org.uk

My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Embed Size (px)

Citation preview

Page 1: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

myGrid: Une Vision globale

Rencontre autour de la plate-forme bioinformatiquesRennes, 2008-04-10

Franck Tanohhttp://www.mygrid.org.uk

Page 2: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

myGrid

Le projet myGrid a un ensemble de composants destinés

à soutenir la réalisation d’expériences in silico en biologie.

Taverna workbench = Un système de gestion de workflows

Feta = découverte des services web myExperiment = collaboration + réutilisation des

workflows

open source

Page 3: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Partenaires

Première étape du projet fiancée par l’EPSRC

Page 4: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.

OMII-UK

Page 5: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Motivations

NAR 2007 – 968 base de données

EMBL database growth

Page 6: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Problèmes

Tout est distribuées: Données Ressources Scientifiques

Ressources hétérogènes Très peu de standards

formats d’entrée et de sortie représentation annotation des données

L’intégration des données, l’interopérabilité des ressources très difficile.

Page 7: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Intégration des données bioinformatiques

12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa

Couper-coller

Page 8: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Couper-coller Avantages:

Technologie très simple Analyse des résultats pendant l’intégration

Inconvénients: Demande beaucoup de temps Répétition difficile Limitée aux petites données Exposés aux erreurs

Impossible d’appliquer cette technologie au génome/protéome/métabolome

Intégration des données bioinformatiques

Page 9: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Pipeline programmation Avantages

Reproductible Automatique Rapide, fiable, efficace

Inconvénients Exige des compétences en programmation Difficile a modifier Nécessite outils et maintenance des bases de

données !!!

Intégration des données bioinformatiques

Page 10: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Meilleurs solutions ??

Un système qui: Permet d’automatiser l’intégration des données Fonctionne sur des ressources distribuées Facilite la répétition, la vérification et le partage des

expériences scientifiques Nécessite peu ou pas de compétences en

programmation Fonctionne à partir d’un ordinateur de

bureau/portable

Page 11: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

La solution myGrid

myGrid permit d’automatiser l’exécution d'expériences in

silico sur des ressources distribuées à partir d’un simple

ordinateur de bureau.

Technologie basée sur: Services web Workflows Web sémantique

Page 12: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Services web

Un Service Web est un programme informatique permettant la

communication et l'échange de données entre applications et

systèmes hétérogènes dans des environnements distribués (Wikipedia).

Avantages: Interopérabilité entre divers logiciels fonctionne sur diverses plate-forme Utilise des standards et protocoles ouverts

European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter)

Page 13: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Workflows

Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressourcesPassent d'un participant à un autre.

sequenceDNA

GenScanService web

BlastService web

Décrivez ce que vous voulez faire

Pas besoin d’êtres programmeur

Page 14: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Moteur de workflows

Différents langages, accès, domaines

Page 15: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Taverna est : Un moteur de workflow basé sur le flot des données. Un environnement pour la construction et l’édition de

workflows. Un système d'exécution des workflows sur des données

fournies par l’utilisateur Un système de visualisation des résultats (3d, html…)

Taverna

Le tout en un logiciel exécutable à partir de votre ordinateur

Page 16: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

http://taverna.sf.net

Page 17: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

>45000 téléchargements International: US, Singapore, UK, Europe, Australie Parmi les 200 logiciels sur sourceforge en Juin 2007

Taverna

Page 18: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Par défaut, Taverna interopère avec: SOAP services web Biomart Entrepôts de données Soaplab outils de ligne de commande BioMoby services web Interprète script Beanshell (proche de Java)

Taverna

Page 19: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Taverna dans la recherche

Biologie des systèmes Biologie moléculaire Annotation Gene/protéine Analyse des données

microarray Analyse d’images

médicales Simulation cardiaque Etude des

Génotypes/Phénotypes Informatique médicale Astronomie Chimie informatique Intégration de données

Page 20: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

http://www.genomics.liv.ac.uk/tryps/trypsindex.html

An

dy Brass

Steve

Ke

mp

Pa

ul Fishe

r

La trypanosomiase chez les bovins

Page 21: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Trypanosomiase chez les bovins

Une forme de la maladie du sommeil chez les bovins connue sous

le nom n’gana causée par Trypanosoma brucei.

Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est

pas le cas des bovins Anglais.

Quelles sont les causes des différences?

Page 22: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Trypanosomiase chez les bovins

Comprendre le phénotype Comparaison des souches sensibles vs résistants – Microarrays

Comprendre le génotype Analyse de QTL (Loci de Caractères Quantitatifs )

Page 23: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

A – Trouver les gènes dans les régions QTL

B – Annotation des gènes avec des bases de données externes

C – Faire correspondre KEGG ids et gène ids

D – Récupérer les données microarray

E – pour chaque KEGG gène retrouver sa voie métabolique

F – obtenir la description de chaque voie métabolique

G – obtenir l’annotation de chaque KEGG gène

Etude de la Trypanosomiase

Page 24: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Résultats

Identification du gène (Daxx) qui semblerait jouer un rôle

dans la résistance à la trypanosomiase.

Au préalable, l’analyse manuelle des même données n’a pas

réussi à identifier ce gène comme un candidat.

Page 25: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Succès du workflow?

Chaque donnée est systématiquement analysée Pas besoin de filtrer les données ou émettre des

hypothèses en vu de réduire le volume de données. Enregistrement de la ‘provenance’ des données Volume de données réduit a l’issue de l’expérience

Page 26: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Gestion des erreurs

La plupart des services web n’appartiennent pas à myGrid .

Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: Encourager l’utilisation des services fournis par de

grands organismes come EMBL, NCBI, DDBJ … Informer l’utilisateur lorsqu'un service ne fonctionne

pas Ré-exécuter les services Remplacement des services

Page 27: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Découverte des services web

Plus de 24 000 services web (seekda 03/08)

Difficile de trouver un service particulier?

Majorité des services sans descriptions

WSDL: input0:string, Output0:string

Nom des services

fonction des services. e.g serachsimple, seqret

On ne peut donc pas uniquement ‘Google’ les services web

Page 28: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

La solution myGrid

Découverte des services en fonction de leurs: Noms Fonctions Paramètres (entrées et sorties) Ressources utilisées

Annotation Sémantique: Annotation manuelle ou automatique des services web

à partir

de vocabulaires contrôlés (ontologies).

Page 29: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Annotation des services web

Ontologie bioinformatiqueWSDL

Marquer chaque description avec des termes dans l’ontologie.

Page 30: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Plus de 600 services dans le catalogue de myGrid . Annotation faite par des experts en

bioinformatique. En démontrant l‘importance de l’annotation dans

l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.

Annotation des services web

Page 31: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Feta découverte sémantique

Feta, composant de myGrid interroge le catalogue des services web .

Exemple de questions:Trouve-moi tous les services qui effectuent un

alignement des séquences et acceptent pour input des

séquences de protéines avec le format FASTA

Page 32: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Interface utilisateur de Feta

Page 33: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Provenance et Origine

Workflows peuvent générer beaucoup d’informations: Données Métadonnées origine de l’expérience

Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues

Comment gérer de telles donnes?

Page 34: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Le Logbook de myGrid

qui, quoi, ou, quand, pourquoi?, comment?

Contexte Interprétation Reproductibilité Vérification Crédibilité

Smart Tea

BioMOBY

Bonnes pratiques scientifiques

Page 35: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Interface utilisateur du Logbook

Page 36: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

myExperiment

Page 37: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Motivations

Workflows = nouvelles rock and roll

“L'ère” des Services web en bioinformatiques

Page 38: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Motivations

Recyclage, Réutilisation, Réorientation des workflows

Page 39: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Motivations

Communauté scientifique distribuée et sous équipée

Page 40: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

myExperiment est…

Réseau social pour le scientifique

Page 41: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Demo

myExperiment

http://www.myexperiment.org

Page 42: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh
Page 43: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh
Page 44: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh
Page 45: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh
Page 46: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

La communauté de myGrid

Page 47: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Taverna2 ou T2 Moteur workflow (enactor) totalement

réécrit avec plus de points d'extensions Adresser les problèmes de sécurité des

données Taverna sur le grid Glisser-déposer (Drag and drop )

myGrid: nouvelle direction

Page 48: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

T2: un avant-goût

Les erreurs sont également des données

Page 49: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

T2: un avant-goût

Page 50: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

T2: un avant-goût

Data Manager: plusieurs gestionnaires de données Mémoire Fichiers Disque dur Serveurs

Page 51: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Taverna 1.7… Contient un plugin pour T2 Plusieurs mise à jour à suivre courant 2008

http://taverna.sourceforge.net/download

T2: un avant-goût

Page 52: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Biocatalogue

Un catalogue de services web

Page 53: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Workflow Warehouse

Service Catalogue

ProvenanceWarehouse

Client Applications

Service Ontology

Provenance Ontology

Une vision globale de myGrid

myExperimentmyExperimentWeb portalWeb portal

Taverna Taverna WorkbenchWorkbench

GUIGUI

Feta Feta InformationInformation

ServicesServices

LogbookLogbookProvenanceProvenance

ManagementManagement

TavernaTavernaWorkflowWorkflowEnactorEnactor

Middleware(Web Services, Grid Services)

Page 54: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Please see http://www.mygrid.org.uk/wiki/Mygrid/Acknowledgements for most up to date list

http://www.mygrid.org.uk

Page 55: My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh