Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE,...

Preview:

Citation preview

Recherche de similarité de séquences à grande

échelleS. Penel, P. Calvat, Y. Cardenas

LBBE, CCIN2P3Calculs “BLAST” intensifs sur la Calculs “BLAST” intensifs sur la

plateforme plateforme TIDRATIDRA - -

TTraitement de données et raitement de données et IInformatique nformatique DDistribuée en istribuée en RRhône-hône-AAlpes.lpes.

Contexte biologiqueContexte biologique

Bases de données dédiées à la phylogénomique

HOVERGEN ( vertébrés), HOGENOM( génome complets), etc.

Principe : pour chaque base de données:Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul d’alignement et d’arbre phylogénétique pour chaque famille

Généralisation Création d’une base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases

Calcul de similarité sur toutes les séquences de protéine :

BLAST de 8,000,000 x 8,000,000 séquences

Technologie grille et Technologie grille et services associésservices associés

RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)

7000 coeurs (cpu)7000 coeurs (cpu) 300 To de stockage300 To de stockage 5 Noeuds5 Noeuds

• LAPP (Annecy)LAPP (Annecy)• LPSC (Grenoble)LPSC (Grenoble)• IPNL (Lyon)IPNL (Lyon)• IBCP (Lyon)IBCP (Lyon)• CC-IN2P3 ( Lyon)CC-IN2P3 ( Lyon)

Technologie grille et Technologie grille et services associésservices associés

RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)

Middleware:Middleware:• Job management : gLite, LRMSJob management : gLite, LRMS• Stockage : iRODS, SRMStockage : iRODS, SRM• Utilisateur : JSAGA Utilisateur : JSAGA

implemtantation SAGAimplemtantation SAGA

vo.rhone-alpes.idgrilles.frvo.rhone-alpes.idgrilles.fr

RessourcesRessources

SE/SRM

SE/SRM

SE/SRM

SE/SRM

CE/WN

CE/WNCE/WNSE/SRM

CE/WN

CE/WN

UI

SE/SRM

WN

WN

WN

SE/SRM

Control et Load balancingControl et Load balancing WMS

SE/SRM

SE/SRM

WN

UI

SE/SRM

WN

WN

WN

SE/SRM

Stokage distribuée et catalogue Stokage distribuée et catalogue

global de Donnéesglobal de Données LFC

SE/SRMSE/SRM

WN

Job

Job

Job

Job

UI

WN

WN

WN

Optimisation de calculOptimisation de calcul Serveur MyProxy

WN

Job

Job

JobJob

Client

WN

WN

WN

Gestion et stokage centralisé avec Gestion et stokage centralisé avec IRODSIRODS

IRODS cluster

WN

Job

Job

JobJob

8 millions de séquences à 8 millions de séquences à blaster:blaster:

StratégieStratégieProgramme BLAST 2.2.17

options standards

Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines

Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA

30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire

Tache unitaire : blast d’un fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences.

Une tache unitaire représente un temps de calcul assez court.

Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches

8 millions de séquences à 8 millions de séquences à blaster:blaster:

StratégieStratégie

1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x 100 3 - Une fois tous les jobs terminés, génération d’une nouvelle liste de fichier à traiter 4 - Retour au point 1

8 millions de séquences à 8 millions de séquences à blaster:blaster:

StratégieStratégie

StratégieStratégie1

100

200

300

400

1

100

200

300

400

1

100

200

300

400

première production

1

100

200

300

400

deuxième production

StratégieStratégie Déroulement d’un job numéro N:

Récupération de différents outils via lcg-cp:outils iRODSoutils pour l’estimation du temps de calculoutils pour la gestion des proxy

Renouvellement du proxy Lancement de l’application:

Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle:

Traite le fichier i, copie le résultat via iRODSTant que 95% du temps maximum n’est pas atteint, passe au fichier suivant

Post traitement: envoi de mail, copie des logs via iRODS

Résultats (en cours)Résultats (en cours)

1 200 jobs paramétriques1 200 jobs paramétriques 5 280 millions d’heures S12K5 280 millions d’heures S12K jobs de 20hjobs de 20h Calcul en 1 semaine au lieu de Calcul en 1 semaine au lieu de

8 ans8 ans

Recommended