33
COMITÉ UTILISATEURS Plateau Bioinfo Agap 28 janvier 2016

CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire [email protected]. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Embed Size (px)

Citation preview

Page 1: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

COMITÉ UTILISATEURSPlateau Bioinfo Agap

28 janvier 2016

Page 2: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Les -omiques, un changement de paradigme 1 Générer massivement des données2 Organiser (stocker, documenter, annoter)3 Analyser (extraire de l’information)4 Diffuser l’information

Avant

Maintenant

Faire face au « Data Deluge »

1 Concevoir l’expérimentation2 Collecter des résultats3 Analyser des résultats

Page 3: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Faire face au « Data Deluge »

• Organisation de la bioinfo dans Agap

• Évolution techniques ces 12 derniers mois

• Projet Stockage

• Nouveau mode de financement du plateau

• Analyse de l’enquête utilisateurs

• Questions / Réponses

Page 4: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Bioinformatique dans AGAP Nouvelle organisation

Page 5: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Equipe ID

Plateau Bioinformatique

Pôle de bioanalyse

Comité de pilotage

Infrastructure materielle

Support bioanalyse

Recherche appliquée et bases de données

Recherche et animation scientifique

CHARTE

Nouvelle organisation

Page 6: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Fonctionnement du pôle bioanalyse

* Demandes ponctuelles à formuler à l'adresse

* Possibilité d'en discuter avec nous, mais uniquement en matinée

* Demandes importantes à discuter en comité de pilotage

* Possibilité d'en tirer des conclusions sur des besoins de formations ou de mode opératoire

[email protected]

Page 7: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Évolutions ces 12 derniers mois

Page 8: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Médoc

Lomagne

Gohelle

Dombes

Bases de données

Services Web

Services intranet

Marmadais

Marasin

IO-1

IO-2

Baie IBM

HyperMem

n26

n1

n2

NAS Isilon

100 To20 To

Calcul

Stockage sécurisé

Données temporaires

Administration

Fonction et date d’obsolescence

02/2015

02/2015

02/2015

12/2015

02/2015

12/2015

n3

n4

Diffusion

Page 9: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Médoc

Lomagne

Gohelle

Dombes

Bases de données

Services Web

Services intranet

Marmadais

Marasin

IO-1

IO-2

Baie IBM

HyperMem

n26

n1

n2

NAS Isilon

100 To20 To

Calcul

Stockage sécurisé

Données temporaires

Administration02/2015

02/2015

02/2015

12/2015

02/2015

12/2015

n3

n4

Diffusion

VirtualisationChantier mutualisé DSI

(Crédits ARCAD)

OK ☑

Calcul1000 ❤ - 192 Go RAM

2 Serveurs I/O1 Machine Administration

80 To / Work (Crédits DSI + DG-DRS+ID + IFB)

Maintenance étenduesur BigMem (32 ❤ - 1 To RAM)

(Crédits IFB)

Stockage données temporaire 200 To(Crédits ARCAD Feder)

OK ☑

Page 10: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about
Page 11: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about
Page 12: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Stockage

Page 13: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Stockage Choisir maintenant … pour 5 ans

• Croissance régulière et inéluctable …

• Démarrer à 500 To ?

• Horizon à 5 ans ?

• Hypothèse basse : 600 To

• Hypothèse haute : 2 Po

Page 14: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Puissance de calculLoi de Moore (la puissance de calcul double tous les 18 mois)

Conséquences :

Le budget calcul reste stable

Durée de vie d’un cluster de calcul : 4-5 ans

Page 15: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

StockageLa pierre d’achoppement du data déluge

was great for the genome informatics ecosystem. The archival databases and the value-added genome distri bu-tors did not need to worry about running out of disk storage space because the long-term trends allowed them to upgrade their capacity faster than the world’s sequencing labs could update theirs. Computational biologists did not worry about not having access to sufficiently powerful networks or compute clusters because they were always slightly ahead of the curve.

However, the advent of ‘next generation’ sequencing technologies in the mid-2000s changed these long-term trends and now threatens the conventional genome infor-matics ecosystem. To illustrate this, I recently plotted long-term trends in hard disk prices and DNA sequenc-ing prices by using the Internet Archive’s ‘Wayback Machine’ [17], which keeps archives of websites as they appeared in the past, to view vendors’ catalogs, websites and press releases as they appeared over the past 20 years (Figure  2). Notice that this is a logarithmic plot, so exponential curves appear as straight lines. I made no attempt to factor in inflation or to calculate the cost of DNA sequencing with labor and overheads included, but

the trends are clear. From 1990 to 2010, the cost of storing a byte of data has halved every 14 months, consistent with Kryder’s Law. From 1990 to 2004, the cost of sequencing a base decreased more slowly than this, halving every 19 months - good news if you are running the bioinformatics core for a genome sequencing center.

However, from 2005 the slope of the DNA sequencing curve increases abruptly. This corresponds to the advent of the 454 Sequencer [18], quickly followed by the Solexa/Illumina [19] and ABI SOLiD [20] technologies. Since then, the cost of sequencing a base has been dropping by half every 5 months. The cost of genome sequencing is now decreasing several times faster than the cost of storage, promising that at some time in the not too distant future it will cost less to sequence a base of DNA than to store it on a hard disk. Of course there is no guarantee that this accelerated trend will continue indefinitely, but recent and announced offerings from Illumina [21], Pacific Biosystems [22], Helicos [23] and Ion Torrent [24], among others, promise to continue the trend until the middle of the decade.

Figure 2. Historical trends in storage prices versus DNA sequencing costs. The blue squares describe the historic cost of disk prices in megabytes per US dollar. The long-term trend (blue line, which is a straight line here because the plot is logarithmic) shows exponential growth in storage per dollar with a doubling time of roughly 1.5 years. The cost of DNA sequencing, expressed in base pairs per dollar, is shown by the red triangles. It follows an exponential curve (yellow line) with a doubling time slightly slower than disk storage until 2004, when next generation sequencing (NGS) causes an inflection in the curve to a doubling time of less than 6 months (red line). These curves are not corrected for inflation or for the ‘fully loaded’ cost of sequencing and disk storage, which would include personnel costs, depreciation and overhead.

1990 1992 1994 1996 1998 2000 2003 2004 2006 2008 2010 20120

1

10

100

1,000

10,000

100,000

1,000,000

0.1

1

10

100

1000

10,000

100,000

1,000,000

10,000,000

100,000,000

Year

Dis

k st

orag

e (M

byte

s/$)

DN

A sequencing (bp/$)

Hard disk storage (MB/$)Doubling time 14 months

Pre-NGS (bp/$)Doubling time 19 months

-

NGS (bp/$) Doubling time 5 months

Stein Genome Biology 2010, 11:207 http://genomebiology.com/2010/11/5/207

Page 2 of 7Le prix du stockage ne baisse pas assez vite pour faire face à un besoin exponentiel : Le budget stockage explose

Page 16: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Une préoccupation partagée

Page 17: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Une bascule vers le tout numérique

17Big data: The next frontier for innovation, competition, and productivityMcKinsey Global Institute

Most recently, Martin Hilbert and Priscila López published a paper in Science that analyzed total global storage and computing capacity from 1986 to 2007.19 Their analysis showed that while global storage capacity grew at an annual rate of 23 percent over that period (to more than 290 exabytes in 2007 for all analog and digital media), general-purpose computing capacity, a measure of the ability to generate and process data, grew at a much higher annual rate of 58 percent. Their study also documented the rise of digitization. They estimated that the percentage of data stored in digital form increased from only 25 percent in 2000 (analog forms such as books, photos, and audio/video tapes making up the bulk of data storage capacity at that time) to a dominant 94 percent share in 2007 as media such as hard drives, CDs, and digital tapes grew in importance (Exhibits 5 and 6).

Exhibit 5

Data storage has grown significantly, shifting markedly from analog to digital after 2000

SOURCE: Hilbert and López, “The world’s technological capacity to store, communicate, and compute information,” Science, 2011

Global installed, optimally compressed, storage

OverallExabytes

Detail%; exabytes

NOTE: Numbers may not sum due to rounding.

50

300

250

200

150

100

02007200019931986

6

75

979994

100% =

Analog

Digital

20072000

54 295

25

1993

163

1986

31

Exhibit 6

Computation capacity has also risen sharply

SOURCE: Hilbert and López, “The world’s technological capacity to store, communicate, and compute information,” Science, 2011

Global installed computation to handle information

Overall1012 million instructions per second

Detail%; 1012 million instructions per second

NOTE: Numbers may not sum due to rounding.

0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

6.0

6.5

2007200019931986

17

2341

6 66

2000

66

6.379100%

2007

3

25

0.289

86

53

1993

0.004

64

6

1986

<0.001

33

9

Personal computers

Pocket calculators

Video game consoles

Mobile phones/PDA

Servers andmainframes

Supercomputers

19 Martin Hilbert and Priscila López, “The world’s technological capacity to store, communicate, and compute information,” Science, February 10, 2011.

Page 18: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about
Page 19: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

600 TO + 1.5 PO

9351 Deering Avenue, Chatsworth, CA 91311

Date 1er juillet 2015Contact Name Frédéric Delamotte / Bertrand Pitollat

Company Name INRA/CIRADQuote ESTIMATION

Salesperson Valérie Augis Salesperson email [email protected]

Salesperson phone 06 32 70 96 98Installation city, country Montpellier

Description GS12K - WOS architecture

PRODUCT QTY DESCRIPTION Unit PRICE

Extended PRICE

Storage and server hardware

Appliance GS12K avec 120 disques de 6To, 2 tiroirs : 840TB brut, 596TiBAppliance GridScaler (GPFS), incluant serveurs d'I/O virtuels (NSD) et licences GPFS (incluant les deux licences GPFS pour machines virtuelles)

12KX20ED-GS4+DM 1 GS12K GRIDScaler 3.x appliance. Includes 12KX20ED-CX3, GPFS v4 server and DirectMon DM-LFSA-LIC licenses with 1 year support; not included: DirectMon DM-VSN-LIC for each NSD and at least one DM server in the environment

139 485,00€ 139 485,00€

SS8K-SBOD 3 SS8460 84-slot 6Gb/s SAS/SATA/SSD enclosure. Includes 2x I/O modules, redundant power supplies, power cables, rail kit for rack mounting and cable management arms.

32 999,00€ 98 997,00€

RK42-9900EU-R 1 42U Rack with four PDUs for Europe - 9.9kW Max 4 589,00€ 4 589,00€ H07C0600234CH12 140 6TB 7,200 RPM 12Gb/s SAS 4Kn drive module for SS7000 enclosure 639,00€ 89 460,00€ SFA-7K7-OS20 7 SFA7700/SFA7700X/GS7K SFA OS license for each set of up to 20 drives. 608,00€ 4 256,00€

Solution stockage Objet WOS : 2x96x8TB = 1,5PBWOS-AR-768 2 WOS Archive Appliance. Includes WOS-AR-SER server, SS9960-JBOD, 96 X 8TB SMR

drives. (768TB total Capacity)84 780,00€ 169 560,00€

WAN-BDL-2GW 1 WOS Access NFS Gateway HA Pair, active/passive configuration, 2x 1U Server, 4x 300GB (1.2TB total) SAS drives, 4x 1 GigE network ports, 32GB Memory, includes WOS Access NFS Software

21 870,00€ 21 870,00€

WGS-GW-BDL 1 WOS-GRIDScaler Gateway bundle: 1x 1U single socket server, 2x 300TB SAS drives, 32GB, GS-WOS Migration SW, GS server with 1 year support, 2x10 GigE CX3 VPI network ports. Optical transceivers (not included).

13 770,00€ 13 770,00€

iRODS serversSER-1U-268C1S 2 1U DDN Server - Single 2.6GHz Intel E5-2650 v2(8 core), 32GB (upgradeable to 96GB max),

2x 146GB 15K SAS, 4x 1GigE, 2x empty PCIe3 Slots, rails. No OS. RHEL subscription or evidence of site subscription required if RHEL is to be installed.

7 260,00€ 14 520,00€

SUBTOTAL - STORAGE EQUIPMENT 556 507,00€ INSTALLATION and OPTIMIZATION - STORAGE

Installation equipmentINS-GS7K-A 1 Installation GS7K including hardware and GRIDScaler SW; HW fully factory configured only,

SW configured onsite; with Customer lift assist only, up to 4 servers; includes 1 expansion enclosure; travel included

5 600,00€ 5 600,00€

INS-WOSC-2 1 Installation and Configuration of initial WOS Core enclosures up to 2; per location 2 800,00€ 2 800,00€

Installation - configuration iRODS8 Configuration 2 400,00€ 19 200,00€

iRODS SERVERo Build and configure iRODS server and serviceso Build and configure iCAT Metadata catalogue server iRODS Group and Userso Build skeleton group and user account iRODS Resourceso Build and configure DDN WOS Drivero Configure server local “Unix file system” resource (for functional tests only) iRODS Client (not supplied)o Build and configure iRODS commands

2 Test and validation/ functionalities 2 400,00€ 4 800,00€

Training1 Document the “As Built” configuration installation 2 400,00€ 2 400,00€ 3 Provide on-site knowledge transfer to local administrators on iRODS basic functionality 2 400,00€ 7 200,00€

SUBTOTAL - STORAGE INSTALLATION 42 000,00€ 1 YEAR - Support and services for storage and server hardware and drivesDDN Onsite Support: DDN Direct Storage Systems and ServersSUP-BSOS-1 1 Basic Onsite Support; storage systems, storage servers, disk drives and accessories; 7x24

remote support; NBD parts and labor onsite; CRUs are customer replaceable; does not include SW support for apps or file systems; annual pricing

50 085,63€

GRAND TOTAL (before shipping and handling): 662 992,63€

This DataDirect Networks Inc. (“DDN”) quote is valid for 30 days from the date above; and subject to (i) the DDN Terms and Conditions of Sale; (ii) the terms and conditions of the

DataDirect Networks Support Plans; (iii) shipping terms as ExWorks, Origin; and (iv) credit approval.

Page 20: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Co-Financement

Page 21: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

A partir du 1er janvier 2016, tout espace de stockage ouvert pour un projet sera facturé 300 euros / To / an

Ce choix découle de plusieurs constatations :

- Les bailleurs de fonds (tutelles, FEDER, région …) exigent que nous disposions d’un « modèle économique » qui assure les investissements nécessaires à la maintenance et aux évolutions de l’infrastructure qu’ils co-financent

- La nécessité que nous puissions plus facilement anticiper les crédits dont nous disposons pour entreprendre dans les temps des appels d’offre nécessaires

- Cela offre une opportunité pédagogique de responsabilisation des utilisateurs à une saine gestion des données

Ce qui ne change pas : 

L’accès à la puissance de calcul reste gratuitChaque utilisateur bénéficie de 150 Go de stockage gratuit pour son /homeL’espace /work reste gratuit mais avec une contention dans le temps (les données ne pourrons pas rester longtemps sur

ces disques)

Pour les deux années à venir, seuls les nouveaux dossiers (ou l’augmentation des dossiers déjà existants) sont concernés par cette tarification

Page 22: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

et autres bilans

Analyse Questionnaire

Page 23: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Bilan 2015 CC2

• Jobs en attente sur + de 2 jours 0

• Jobs en erreur 1%

• Jours avec 0% d’espace libre 0 😗

• Installation logiciel en - de 15 J 99 % (184/1)

• Comptes créés en - de 2 J 64 (3 hors délais)

• Taux d’utilisation moyen > 20 %

Page 24: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Questionnaire

• La migration s’est globalement bien passée

• Une petite formation aurait été la bienvenue *

• Cluster > Galaxy

• pertinence de Galaxy // gros jeux de données *

• On trouve tout >>> y a rien

• Fréquence des mise à jour

Page 25: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Questionnaire (2)

• Offre logicielle

• Fréquence de mise à jour

• Qui s’en charge ?

• Besoin de documentation

• Promis !

Page 26: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Groupes de Travail

Page 27: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

GBS’thon

ReSeq’thon

RNASeq’thon’thon

Historique

Page 28: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about
Page 29: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about
Page 30: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Frequency should be increased

0%

Frequency should be reduced

4,8%

38,1% Frequency suits me

57,1% Frequency should be

adapted to users needs

Do the current workgroups frequency suit you ? (once a month)

Page 31: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about
Page 32: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Les formations aux utilisateurs

Formations annuelles:

* Galaxy, son utilisation simple (1 journée) septembre-novembre

* Bioinformatique générale (5 journées) février

* Utilisation de R (5 journées), septembre-novembre

* Ligne de commandes, scripts (3 journées), septembre-novembre

+ les ponctuelles…

Page 33: CU 2015 v2 - umr-agap.cirad.fr · ou de mode opératoire bioinfo_agap@cirad.fr. Évolutions ces 12 derniers mois. Médoc Lomagne Gohelle Dombes ... biologists did not worry about

Les petits séminaires IDSujets très ouverts, sur la bioinformatique: * revue de publication * discussion technique, ou méthodologique * discussion autour d’un projet * …

Format court, privilégiant la discussion

Fréquence à la demande

Pédagogie absolument prioritaire

Lieu d’échange scientifique, implication de l’UMR dans ses thématiques de recherche bioinformatique