Upload
associationaf
View
951
Download
0
Embed Size (px)
Citation preview
10 ans d’archivage numérique au CINES : premiers bilans et perspectives
Lorène Béchard [email protected]
Forum AAF - 30 mars 2016
• Evolution de la mission de préservation du CINES
• Evolutions de la plateforme technique
• Evolutions des ressources affectées à la préservation
• Evolutions des usages et des usagers
• Partenariats nationaux et internationaux
• Perspectives
Sommaire
Le Calcul de Haute Performance OCCIGEN 2,1 Pflops (2,1 millions de milliards d’opérations
par seconde), 50 544 cœurs, 200 To de mémoire, 315000000 d’heures de calcul disponibles en 2015
La Conservation à long terme des données et documents numériques (Agrément du Service Interministériel des Archives de France)
Des missions statutaires nationales stratégiques
en synergie :
Des infrastructures tier 3 / 4 Fortement sécurisées disponibles 24h/24, 7j/7 • 1500 m2 sur 5 salles machines protégées • 2000 m2 de locaux techniques • 2 lignes électriques ERDF : 2,5 MW et 10 MW onduleurs redondants + groupes électrogènes • accès réseaux à haut débit (10 Gbits/s)
Des équipes (55) : expertise, support,
formations, exploitation, astreinte
Participation à des projets Européens
Montpellier
Hébergement = activité permettant de mutualiser les infrastructures Hébergement de plates-formes stratégiques de partenaires publics d’envergure nationale (ESR en priorité) : - Baies entières ou serveurs dans baies CINES. Facturation basée sur nombre de baies et conso. électrique - ABES, DSI Inserm, HPC@LR, Nœuds Renater et R3LR, ISSN, Cour des comptes, etc. - contraintes : ne pas contrarier l’évolution des missions et les procédures d’exploitation associés
Infrastructure commune pour Données Calcul
La mission d’archivage du CINES en quelques dates…
2004 2008 2006
1ères réflexions
sur l’archivage
numérique
Centre
archiveur des
thèses
dans PAC-V1
Mission archivage
confirmée dans
lettre de cadrage
+ Mise en production
de PAC_V2
2005
Prestation de conseil en
Archivage Electronique
recrutement d’une
archiviste
2007
Ouverture de PAC à d’autres
projets
Persée, HAL, biblio univ,
établissements de recherche,
universités
Besoin agrément SIAF (2010)
Besoin agrément santé (2014)
2010
1ère convention avec
durée de service
illimitée
2014
Mise à jour des
statuts du CINES
archivage pérenne
mission statutaire
Les candidats à l’archivage
Observations Résultats de calculs Mails Données de gestion
Documents numériques ou
numérisés
conserver
- Accélérateurs de particules
- Séquenceurs de génomes
- Capteurs utilisés en
météorologie/climatologie
- Points de tir en sismique
pétrolière ou données spatiales
- etc.
- Simulations multi-physiques,
multi échelles
- Augmentation de la
résolution des modèles
- Nouvelles thématiques
Avec des problèmes de
- Taille des données (nombre de fichiers, taille des fichiers, …)
- Métadonnées associées , identification unique
- Sécurisation
- Variété des formats (texte, image, son, vidéos, …)
- Manuscrits anciens
- Revues numérisées
- Thèses numériques
- etc.
à des communautés distribuées
diffuser
et pour objectif de
Archivage intermédiaire
Archivage pérenne
traiter
Evolutions* de la plateforme technique : au début
Entrées Stockage & gestion des données
Accès
Administration
Planification de la pérennisation
Réception des données
Validation métadonnées (schéma CINES)
Validation formats fichiers (pdf, images, texte)
Création PID-PAC
Création AIP
Validation SIP
Recherches sur l’ensemble des MD indexées
Stockage en plusieurs exemplaires sur disques + bandes + index BDDr
Externalisation d’une copie transfert manuel
Vérification des données : au moins une copie OK
Filtrage des accès Statistiques
(* : liste non exhaustive)
Evolutions* de la plateforme technique : vers 2010
Entrées Stockage & gestion des données
Accès
Administration
Planification de la pérennisation
Réception des données
Validation métadonnées (schéma CINES) + renforcement AQ (typage-MD, emprOri oblig…)
Validation formats fichiers (pdf, images, texte, audio, vidéo…) + traitement BIR
Création PID-PAC + ARK
Création AIP
Validation SIP
Recherches sur l’ensemble des MD indexées
Stockage en plusieurs exemplaires sur disques + bandes + index BDDr
Externalisation d’une copie transfert manuel
Vérification des données : au moins une copie OK
Règles de gestion : versionning…
Migration de plateforme + Certification
Gestion des risques Processus métier Migration logique PPDI
Filtrage des accès
Restitution des données au format SEDA
Statistiques
Evolutions* de la plateforme technique : 2014/2015
Entrées Stockage & gestion des données
Accès
Administration
Planification de la pérennisation
Réception des données
Validation métadonnées (CINES + SEDA) + renforcement AQ (typage-MD, emprOri oblig…)
Validation formats fichiers + traitement BIR
Création PID-PAC + ARK
Création AIP
Validation SIP
Recherches sur l’ensemble des MD indexées
Stockage en plusieurs exemplaires sur disques + bandes + index BDDr Stockage modulable
Externalisation d’une copie transfert auto (site distant > 300km)
Vérification des données : toutes les copies OK + index OK + contrôles métier
Recherches via plan de classement
Règles de gestion : versionning, DUA, communicabilité…
Migrations plateformes + Certification + Renforcement sécurité (phys &logique)
Gestion des risques Processus métier Migration logique PPDI
Restitution des données au format SEDA
Filtrage des accès Statistiques
Evolutions de la plateforme technique
Prévision de forte augmentation de la volumétrie :
• multiplication de données volumineuses (vidéos, images en haute définition, observations satellites, …)
• prise en charge des « big data »
•RH : 13 agents dédiés en 2015 + mutualisation (systèmes, réseau, sécurité, infrastructures, …)
Evolutions des ressources affectées à la préservation
0
2
4
6
8
10
12
14
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
3 4
5 5
7
11 11 12 12 12 13 13
Nombre de collaborateurs dédiés
Equivalents Temps Pleins
Evolutions des usages et usagers
• Thèses
• Ouvrages numérisés (Persée, BUs)
• Données de la recherche
• Données spatiales
Impacts :
• Prise en compte des spécificités du Code du Patrimoine (SEDA, Communicabilité, etc.)
• Constitution du bordereau de versement » & définition de formats-pivots plus difficile (moins standard) implication de scientifiques dans les process
• Adaptation des procédures quand elles ne sont pas directement applicables (format de fichier non validable, etc.)
13
Groupes de travail nationaux :
Groupes de travail internationaux :
CG46-CN 4
CN 171
ISO : PDF Formations
Collaborations SIAF (élimination, journaux de logs, SEDA, MEDONA,
VITAM…)
Pôles disciplinaires :
ESGF (climato), THEIA
Positionnement national et à l’international
Perspectives
• Collaboration avec les autres opérateurs institutionnels - Partage d’expérience et des infrastructures avec des partenaires nationaux et internationaux
• Inscrire la France & l’ESR dans l’excellence internationale en matière de préservation de l’information numérique.
• Relever le défi de la migration logique
• Sensibiliser / Convaincre les scientifiques de l’importance de l’archivage de leurs données
• Faire face à l’explosion de la volumétrie