15
10 ans d’archivage numérique au CINES : premiers bilans et perspectives Lorène Béchard [email protected] Forum AAF - 30 mars 2016

10 ans d’archivage numérique au CINES : premiers bilans et perspectives

Embed Size (px)

Citation preview

10 ans d’archivage numérique au CINES : premiers bilans et perspectives

Lorène Béchard [email protected]

Forum AAF - 30 mars 2016

• Evolution de la mission de préservation du CINES

• Evolutions de la plateforme technique

• Evolutions des ressources affectées à la préservation

• Evolutions des usages et des usagers

• Partenariats nationaux et internationaux

• Perspectives

Sommaire

Le Calcul de Haute Performance OCCIGEN 2,1 Pflops (2,1 millions de milliards d’opérations

par seconde), 50 544 cœurs, 200 To de mémoire, 315000000 d’heures de calcul disponibles en 2015

La Conservation à long terme des données et documents numériques (Agrément du Service Interministériel des Archives de France)

Des missions statutaires nationales stratégiques

en synergie :

Des infrastructures tier 3 / 4 Fortement sécurisées disponibles 24h/24, 7j/7 • 1500 m2 sur 5 salles machines protégées • 2000 m2 de locaux techniques • 2 lignes électriques ERDF : 2,5 MW et 10 MW onduleurs redondants + groupes électrogènes • accès réseaux à haut débit (10 Gbits/s)

Des équipes (55) : expertise, support,

formations, exploitation, astreinte

Participation à des projets Européens

Montpellier

Hébergement = activité permettant de mutualiser les infrastructures Hébergement de plates-formes stratégiques de partenaires publics d’envergure nationale (ESR en priorité) : - Baies entières ou serveurs dans baies CINES. Facturation basée sur nombre de baies et conso. électrique - ABES, DSI Inserm, HPC@LR, Nœuds Renater et R3LR, ISSN, Cour des comptes, etc. - contraintes : ne pas contrarier l’évolution des missions et les procédures d’exploitation associés

Infrastructure commune pour Données Calcul

La mission d’archivage du CINES en quelques dates…

2004 2008 2006

1ères réflexions

sur l’archivage

numérique

Centre

archiveur des

thèses

dans PAC-V1

Mission archivage

confirmée dans

lettre de cadrage

+ Mise en production

de PAC_V2

2005

Prestation de conseil en

Archivage Electronique

recrutement d’une

archiviste

2007

Ouverture de PAC à d’autres

projets

Persée, HAL, biblio univ,

établissements de recherche,

universités

Besoin agrément SIAF (2010)

Besoin agrément santé (2014)

2010

1ère convention avec

durée de service

illimitée

2014

Mise à jour des

statuts du CINES

archivage pérenne

mission statutaire

Les candidats à l’archivage

Observations Résultats de calculs Mails Données de gestion

Documents numériques ou

numérisés

conserver

- Accélérateurs de particules

- Séquenceurs de génomes

- Capteurs utilisés en

météorologie/climatologie

- Points de tir en sismique

pétrolière ou données spatiales

- etc.

- Simulations multi-physiques,

multi échelles

- Augmentation de la

résolution des modèles

- Nouvelles thématiques

Avec des problèmes de

- Taille des données (nombre de fichiers, taille des fichiers, …)

- Métadonnées associées , identification unique

- Sécurisation

- Variété des formats (texte, image, son, vidéos, …)

- Manuscrits anciens

- Revues numérisées

- Thèses numériques

- etc.

à des communautés distribuées

diffuser

et pour objectif de

Archivage intermédiaire

Archivage pérenne

traiter

Evolutions* de la plateforme technique : au début

Entrées Stockage & gestion des données

Accès

Administration

Planification de la pérennisation

Réception des données

Validation métadonnées (schéma CINES)

Validation formats fichiers (pdf, images, texte)

Création PID-PAC

Création AIP

Validation SIP

Recherches sur l’ensemble des MD indexées

Stockage en plusieurs exemplaires sur disques + bandes + index BDDr

Externalisation d’une copie transfert manuel

Vérification des données : au moins une copie OK

Filtrage des accès Statistiques

(* : liste non exhaustive)

Evolutions* de la plateforme technique : vers 2010

Entrées Stockage & gestion des données

Accès

Administration

Planification de la pérennisation

Réception des données

Validation métadonnées (schéma CINES) + renforcement AQ (typage-MD, emprOri oblig…)

Validation formats fichiers (pdf, images, texte, audio, vidéo…) + traitement BIR

Création PID-PAC + ARK

Création AIP

Validation SIP

Recherches sur l’ensemble des MD indexées

Stockage en plusieurs exemplaires sur disques + bandes + index BDDr

Externalisation d’une copie transfert manuel

Vérification des données : au moins une copie OK

Règles de gestion : versionning…

Migration de plateforme + Certification

Gestion des risques Processus métier Migration logique PPDI

Filtrage des accès

Restitution des données au format SEDA

Statistiques

Evolutions* de la plateforme technique : 2014/2015

Entrées Stockage & gestion des données

Accès

Administration

Planification de la pérennisation

Réception des données

Validation métadonnées (CINES + SEDA) + renforcement AQ (typage-MD, emprOri oblig…)

Validation formats fichiers + traitement BIR

Création PID-PAC + ARK

Création AIP

Validation SIP

Recherches sur l’ensemble des MD indexées

Stockage en plusieurs exemplaires sur disques + bandes + index BDDr Stockage modulable

Externalisation d’une copie transfert auto (site distant > 300km)

Vérification des données : toutes les copies OK + index OK + contrôles métier

Recherches via plan de classement

Règles de gestion : versionning, DUA, communicabilité…

Migrations plateformes + Certification + Renforcement sécurité (phys &logique)

Gestion des risques Processus métier Migration logique PPDI

Restitution des données au format SEDA

Filtrage des accès Statistiques

Evolutions de la plateforme technique

Prévision de forte augmentation de la volumétrie :

• multiplication de données volumineuses (vidéos, images en haute définition, observations satellites, …)

• prise en charge des « big data »

Evolutions de la plateforme technique

•RH : 13 agents dédiés en 2015 + mutualisation (systèmes, réseau, sécurité, infrastructures, …)

Evolutions des ressources affectées à la préservation

0

2

4

6

8

10

12

14

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

3 4

5 5

7

11 11 12 12 12 13 13

Nombre de collaborateurs dédiés

Equivalents Temps Pleins

Evolutions des usages et usagers

• Thèses

• Ouvrages numérisés (Persée, BUs)

• Données de la recherche

• Données spatiales

Impacts :

• Prise en compte des spécificités du Code du Patrimoine (SEDA, Communicabilité, etc.)

• Constitution du bordereau de versement » & définition de formats-pivots plus difficile (moins standard) implication de scientifiques dans les process

• Adaptation des procédures quand elles ne sont pas directement applicables (format de fichier non validable, etc.)

13

Groupes de travail nationaux :

Groupes de travail internationaux :

CG46-CN 4

CN 171

ISO : PDF Formations

Collaborations SIAF (élimination, journaux de logs, SEDA, MEDONA,

VITAM…)

Pôles disciplinaires :

ESGF (climato), THEIA

Positionnement national et à l’international

Perspectives

• Collaboration avec les autres opérateurs institutionnels - Partage d’expérience et des infrastructures avec des partenaires nationaux et internationaux

• Inscrire la France & l’ESR dans l’excellence internationale en matière de préservation de l’information numérique.

• Relever le défi de la migration logique

• Sensibiliser / Convaincre les scientifiques de l’importance de l’archivage de leurs données

• Faire face à l’explosion de la volumétrie