19
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules Problématique du devenir des données au Centre de Calcul de l'IN2P3 Pascal CALVAT, 16 Janvier 2015

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Embed Size (px)

Citation preview

Page 1: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules

Problématique du devenir des données

au Centre de Calcul de l'IN2P3 Pascal CALVAT, 16 Janvier 2015

Page 2: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Plan

2

L’avalanche numérique dans tous les domaines

Présentation du Centre de calcul CCIN2P3

Plan de management des données au CCIN2P3

Pistes d’améliorations de la gestion des données : Inventaire des données

Point annuel avec les responsables des données

Page 3: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

L’avalanche numérique dans tous les domaines

3

Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent

de plus en plus de données, engendrant une avalanche numérique.

• Découverte du boson de Higgs

•15 Po de données brutes par an répartis sur une grille de calcul mondiale

• 70000 processeurs

• http://home.web.cern.ch/

• Scan de l’ensemble du ciel en trois nuits (démarrage 2020)

•150 Po de données brutes sur 15 ans

• Base relationnelle de 15 Po

• Une partie des données sera rendue publique

• http://www.lsst.org/

Physique des particules - LHC (CERN - Genève)

Astronomie - LSST (Chili)

Quelques exemples :

Page 4: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Le détecteur ATLAS au CERN (Genève)

4

Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent

de plus en plus de données, engendrant une avalanche numérique.

• Découverte du boson de Higgs

•15 Po de données brutes par an répartis sur une grille de calcul mondiale

• 70000 processeurs

• http://home.web.cern.ch/

• Scanne de l’ensemble du ciel en trois nuits (démarrage 2020)

•150 de données brutes sur 15 ans

• Base relationnelle de 15 Po

• Une partie des données sera rendue public

• http://www.lsst.org/

Physique des particules - LHC (CERN - Geneve)

Astronomie - LSST (Chili)

Quelques exemples :

Page 5: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

L’avalanche numérique dans tous les domaines

5

Biologie – Séquenceur haut débit

BNF (Paris)

• Numérisation d’ouvrages

• 100 To par an

• Archivage pérenne

• Service de diffusion de données

• http://www.bnf.fr

• Séquençage de l’ADN

• 1 Po pour la plateforme informatique

• Machine de calcul parallèle

• Plusieurs To de mémoire pour l’analyse

• Données rendues publiques

• http://bioinfo.genotoul.fr/

Page 6: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Avalanche numérique : besoin de ressources informatiques mutualisées

Titre de la présentation 6

Pour faire face à cette avalanche numérique, les chercheurs doivent avoir accès à des ressources informatiques mutualisées.

Laboratoire Centre de calcul Grille de calcul

(plusieurs centres de calculs)

La gestion des données numériques devient un point incontournable dans la réussite des projets scientifiques

Page 7: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Avantages d’une bonne gestion des données

Titre de la présentation Date 7

Mener un projet de recherche à son terme

Eviter la perte de données uniques ou difficilement reproductibles

Accélérer la recherche en mutualisant les efforts dans les équipes de recherche

Améliorer la qualité des données en réduisant les données orphelines

Intensifier la collaboration entre chercheurs en accédant à des données structurées en ligne (gratuites ou pas)

Continuer à exploiter des données après la fin des projets :

Exploiter les données après l’arrêt d’un accélérateur

Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux)

Réduire les dépenses informatiques

Quels sont les avantages d’une bonne gestion des données?

Page 8: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Le Centre de calcul de l’IN2P3 en quelques mots

8

8

L’IN2P3 dispose d’un centre de calcul,

le CCIN2P3, installé à Lyon depuis

1986

La mission du CCIN2P3

est de fournir des services

informatiques aux laboratoires de

l’IN2P3 (CNRS) et l’IRFU (CEA)

Ouverture vers la biologie et les

sciences humaines et sociales

60 ingénieurs informaticiens

Services disponibles 24h/24

IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules

Page 9: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Le CCIN2P3 : un gigantesque entrepôt de données

9

9

25 Po

Disque

20 000 cœurs de calcul pour l’analyse des données et les simulations

Bandes magnétiques

15 Po sur disque

Calcul

Page 10: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Le CCIN2P3 : un gigantesque entrepôt de données

10

Utilisateurs répartis dans différentes disciplines : Physique nucléaire et des particules (LHC au CERN)

Astrophysique

Ouverture interdisciplinaire : biologie, écologie, sciences humaines et sociales (Huma-Num)

Au total : 2500 utilisateurs répartis dans 170 groupes de recherche (groupe = projet scientifique)

40 Po répartis dans différentes technologies de stockage

Technologie Espace occupé Fichier en millions

GPFS 1.5 Po 476

AFS 3.5 To 3.5

HPSS 25 Po 49

iRODS 9 Po 60

DCACHE 8 Po -

TSM 1 Po -

Page 11: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Le CCIN2P3 : Type de fichiers

11

Fichiers de données avec tout type de format

◦ Raw data (appareil de mesure, relevé de terrain)

◦ Banques de données communautaires

◦ Simulation

◦ Analyse

Programmes informatiques (liés à un langage et un

environnement d’exécution)

Codes de gestion du workflow ◦ Lancement des calculs

◦ Traitement sur les données (transfert, fusion de données)

Comment gérer efficacement une telle diversité de données?

Page 12: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Gestion des données : le Data Management Plan

12

Pour une gestion correcte des données, chaque projet devrait

définir un plan de gestion de données

Le Data Management Plan (DMP) formalise la façon de gérer

les données liées à un projet de recherche

- Description des données, des métadonnées et du format

- Description du cycle de vie des données y compris après le projet

- Détail de la politique associée aux données (accès, diffusion,

confidentialité)

- Aspects budgétaires

Exemple de DMP en français issu du projet Horizon 2020 :

http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p

gd_horizon_2020_tr_fr.pdf

Page 13: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Gestion des données: le plan de management « en vigueur » au CCIN2P3

13

DMP (Data Management Plan) par défaut au CCIN2P3 : o Recopie des données sur des supports récents. Cette opération est effectuée de manière transparente par les experts du Centre de calcul.

o Les données sont accessibles pendant la durée du projet o Pas de campagne systématique d'effacement des données (sauf demande explicite) y compris en fin de projet

o Certaines zones de stockage peuvent être sauvegardées à la demande

o Désignation d’un responsable des données par projet

o Respect des engagements du MoU (Memorandum of understanding). oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou

Les projets scientifiques disposent rarement d’un plan de management des données.

Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté

sur la préservation des octets et l’accès en ligne aux données

Page 14: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur

14

Qualités - Données accessibles en temps réel - Garantie de relire les données dans le futur sur des médias récents - Perte de temps minimale concernant la gestion des données - Gain de temps pour faire de la recherche et écrire des publications

Faiblesses - Le CCIN2P3 ne connaît pas la criticité des données stockées - Données temporaires ou orphelines pas supprimées entièrement - Difficulté d’identification du propriétaire des données pour les projets terminés - Lourdeur de la migration des données - Pas de stockage au sens archivistique du terme

Réaliser un inventaire des données stockées au CCIN2P3

Faire un point annuel entre le CCIN2P3 et les responsables des

données côté projet

Pistes d’amélioration de la gestion des données :

Page 15: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

L’inventaire des données

15

Un inventaire des données est réalisé quotidiennement sur l’ensemble des systèmes de stockage du centre (40 Po) Cet inventaire est à destination des ingénieurs du centre pour avoir une vue détaillée des données, mais aussi à destination des responsables des données dans le projet de recherche Informations recueillies (si disponibles) : Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE) Propriétaire du fichier, nom du projet Répertoire parent Nombre de fichiers, sous-répertoires, liens Espace utilisé, quota alloué Date de dernière modification Date de dernier accès

Il a fallu plus de deux ans pour mettre en place l’inventaire

Page 16: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Inventaire des données : informations actuellement moissonnées

16

Propriétaire

Fichiers Espace utilisé Répertoire parent

Date de dernier accès

Date de dernière modification

Quota

AFS

Par utilisateur

Par utilisateur

Par utilisateur

DCACHE Par projet

HPSS

Par utilisateur

Par utilisateur

Par utilisateur

IRODS Par utilisateur

GPFS

Par utilisateur

Par projet

Ces informations sont indispensables pour une curation efficace des données. Vocabulaire : curation = l'ensemble des activités et opérations nécessaires à une gestion active des données de recherche numériques

Page 17: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Un point annuel sur les données

17

Le point sur les données a pour but d’identifier les actions de curation prioritaires

Réalisé avec le(s) responsable(s) des données au moins une fois par an Difficile à organiser avec 170 groupes de recherche répartis dans le monde o Réunion au CCIN2P3 ou dans le laboratoire de recherche o Visio-conférence o Téléphone o Par mail

Points abordés : o Identification des comptes à fermer ou à prolonger o Identification des actions de curation prioritaires o Estimation des besoins en stockage pour l’année suivante

Page 18: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Devenir des données au CCIN2P3

18

Après la fin d’un projet, les données suivent des destins

différents selon la politique du projet :

Les données peuvent :

Etre supprimées

Restées accessibles en ligne pendant plusieurs années

Exportées vers une base de données communautaire

Sauvegardées avec un replica

Page 19: Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Conclusion

19

La gestion des données est une étape devenue incontournable dans les projets scientifiques

Le Data Management Plan doit être défini en amont du projet afin d’éviter de mauvaises surprises

La pérennisation et la mise à disposition des données doit être spécifiée clairement dans le DMP d’un point de vue technique et financier

L’inventaire des données et le point annuel sont indispensables pour enclencher les actions de curation

Contact : calvat(at)in2p3(dot)fr

Groupe de réflexion sur le devenir des données au CCIN2P3:

Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat, Rachid Lemrani, Jean-Yves Nief

MERCI