42
L’archivage pérenne du document numérique au CINES Mireille Gay (CINES) [email protected] Journées STAR 02/10/2015

PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

L’archivage pérenne du document numérique au CINES

Mireille Gay (CINES) [email protected]

Journées STAR 02/10/2015

Page 2: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Sommaire

I. Le CINES.

La mission d’archivage au CINES

II. La problématique de l’archivage numérique pérenne

III. La plateforme d’archivage du CINES: PAC

Architecture; Principe de fonctionnement

Implémentation des procédures d’assurance qualités (techniques et organisationnelles)

Les données archivées; Volumétrie

Journées STAR 02/10/2015–

2

Page 3: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Le Centre Informatique National de l’Enseignement Supérieur

Centre Informatique National de l’Enseignement Supérieur

• Basé à Montpellier (Hérault, France)

• EPA créé en 1999, succédant au CNUSC – créé en 1980

• Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche

• Missions

– Calcul numérique intensif

– Archivage pérenne de documents électroniques

Activité transverse : hébergement d'environnements informatiques

• Plus d’informations : http://www.cines.fr/ La machine " Occigen" du

CINES

Journées STAR 02/10/2015

3

Page 4: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

La sécurisation de l’information : un ensemble de moyens, une même finalité

10 MW

2.5 MW

Onduleurs

CINES : site sécurisé

Groupe Electrogène

Equipements

d’archivage :

PAC, ISAAC,

EUDAT@CINES

Salles

machines

Monitoring + Astreinte

24/24 – 7/7

Pare-feu + système

d’authentification

Service

Versant

4

Page 5: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Tous les projets d’archives à long terme partagent la même plateforme

Mutualisation de l’infrastructure matérielle d’archivage ;

Protocole de versement générique ;

Diminution des coûts de mise en place et d’exploitation.

→ Le service d’archivage bénéficie des infrastructures et de l’équipe d’experts d’un Centre Informatique National

La Plateforme d’archivage pérenne au CINES – PAC v2.0

Capacité actuelle 40 To + 20 To en reserve

En exploitation depuis Mai 2008

Logiciel d’archivage Arcsys (Infotel)

Serveurs applicatifs et baie de stockage SUN – Oracle

Librairie de bandes IBM (2 x 1Po)

PAC: Les infrastructures, supports et moyens de PAC

Journées STAR 02/10/2015– 5

Page 6: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

La mission d’archivage du CINES

Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique.

– Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat

– Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée

– Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne

– Mars 2014 : modification des statuts du CINES, l’archivage devient officiellement la deuxième mission

Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne

L’équipe : 1 chef de projet, 9 ingénieurs, 2 archivistes, 2 techniciens

Journées STAR 02/10/2015–

6

Page 7: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Projet

d’archivage

électronique

Informaticiens Archivistes

Producteurs

des

documents

Chef de projet

JuristesUtilisateurs

Experts

formats

Développeurs

Adminis-

trateurs

système

Profils / domaines de compétences

7

7

Page 8: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Problématique de l’archivage pérenne

Journées STAR 02/10/2015–

8

Page 9: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Le contexte, la problématique et les constats

Qu’est-ce que l’archivage électronique pérenne ?

L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Dans son aspect physique comme dans son aspect intellectuel,

Sur le très long terme …et au-delà,

De manière à ce qu’il soit en permanence accessible et compréhensible.

Journées STAR 02/10/2015–

9

Page 10: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Perte compréhensionet accessibilité ?

4 risques inéluctables :

– Connaissance perdue du contenu des fichiers ;

– Format de fichier inconnu ;

– Support physique détérioré ;

– Logiciel ou matériel de lecture disparu.

Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent

La problématique de l’archivage numérique

Journées STAR 02/10/2015–

10

Page 11: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Voici un document

que j’ai créé en

1998…

De quoi s’agit-il

déjà ? Est-ce bien

ce qui est indiqué

sur la disquette ?

La disquette est-

elle toujours en bon

état ?

Mon portable,

acheté en 2006, n’a

pas de lecteur de

disquette…

J’ai créé ce document avec

Claris Works. Comment

retrouver ce logiciel ? Quel

est le format du document ?

J’ai trouvé le

logiciel, mais puis-

je l’installer et

l’utiliser sous

Windows XP ?

Ça marche ! Mais

j’ai perdu toute ma

mise en forme…

Les défis, orientations et choix pour l’archivage au CINES

11

Page 12: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Objectifs : la mise en place d’une solution

Performante pour la conservation à long terme du patrimoine numérique des établissements

Economique et sécurisée

Contraintes

Besoin d’une solution générique, basée sur les normes du domaine

Facilité de veille technologique et de migration

Les données concernées sont :

Les données scientifiques – résultats d’observations ou de calcul

Les données patrimoniales – pédagogiques, publications, etc.

Les données administratives – archives intermédiaires

Dans le respect du contexte législatif archivistique français

Le service d’archivage pérenne du CINES

Journées STAR 02/10/2015– 12

Page 13: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

L’initiation d’un projet d’archives

Qui ? Tout organisme

Produisant ou collectant en grande quantité des documents électroniques dont le contenu possède une valeur patrimoniale scientifique ou technique

Doté d’un système informatique pouvant être interfacé avec la plateforme PAC

Comment ? Deux phases

1. Phase préliminaire durant laquelle les points suivants sont abordés :

L’identification des informations à pérenniser La liste des données et métadonnées transmises au CINES (format, taille, nombre…) L’analyse de faisabilité (sécurité, aspects légaux, coûts et risques…) L’évaluation de la volumétrie et des ressources requises.

2. Phase dite de définition La définition précise des objets à transférer Les termes et conditions du protocole de transfert (restrictions d’accès,

communicabilité au public) Le niveau de préservation attendu La planification des transferts physiques La formation du personnel du service versant à l’utilisation du système PAC

Les accords trouvés pendant cette seconde phase sont matérialisés dans la convention passée entre l’organisme et le CINES

Journées STAR 02/10/2015– 13

Page 14: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

1. La qualité technique

Qualité des métadonnées = capacité à garder la connaissance des contenus ;

Qualité des formats de fichiers = capacité à convertir à de nouveaux formats ;

Qualité du stockage = capacité à conserver le train de bits constituant les fichiers.

→Tous ces points sont contrôlés au moment du versement et à intervalles réguliers

2. La qualité organisationnelle

Documentation des processus métiers = répétabilité, autoévaluation et amélioration des mécanismes de conservation, publication ;

Gestion des risques = maintient d’un niveau de qualité acceptable en identifiant de façon proactive les évènements pouvant impacter la conservation et les plans d’actions à mettre en place ;

Démarche de certification = validation des actions entreprises, confiance des utilisateurs et des tutelles.

Les procédures d’assurance qualité

Journées STAR 02/10/2015– 14

Page 15: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les acteurs

Le producteur – Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé

des archives dans l’exercice de son activité.

Le service versant – Organisation qui transfère une archive à un service d’archives

Le service de contrôle – Personne physique ou morale qui effectue le contrôle scientifique, juridique et

technique des documents archivés, et éventuellement valide les demandes de communication d’archives

Le service d’archives – Organisation recevant le document à archiver transféré et chargée de la conserver

pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser

L’utilisateur – Toute personne ou système client en relation avec le service d’archives pour

trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives.

Journées STAR 02/10/2015–

15

Page 16: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les échanges

Transfert d’archives

– Transmission physique d’une archive ou d’un ensemble d’archives par un service versant à un service d’archives

Modification d’archives

– Modification des métadonnées et/ou du document pour en assurer la préservation

Elimination d’archives

– Elimination des métadonnées et/ou du document à la demande du services d’archives, du service versant ou du service de contrôle

Restitution d’archives

– Transmission de documents par le service d’archives au service versant ou au producteur afin de leur en restituer la garde

Communication d’archives

– Transmission de copie de document à un utilisateur ayant l’autorisation du service versant et /ou du service de contrôle

Journées STAR 02/10/2015–

16

Page 17: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les principes de fonctionnement

Serveurs Fonctions

Transfert réception des SIP

détection d’un nouveau transfert

envoi d’un accusé de réception

contrôle des SIP structure informatique

conformité des métadonnées sip.xml par rapport au schéma sip.xsd

correspondance entre la description sip.xml et les fichiers qui

composent le document

contrôle et validation du format des fichiers

calcul de l’empreinte numérique de chaque fichier

création des AIP

création de l’identifiant du document archivé

mise à jour des métadonnées : sip.xml > aip.xml

transfert de l’AIP au serveur de stockage

Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports

envoi du certificat d’archivage

vérification périodique de l’intégrité des AIP archivés

migration technologique

fourniture d’états et de statistiques

Accès contrôle de l’authentification de l’utilisateur

consultation du catalogue des AIP archivés

communication d’une copie d’un document archivé

Journées STAR 02/10/2015–

17

Page 18: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

PAC : architecture fonctionnelle

Journées STAR 02/10/2015–

18

Page 19: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les normes et standards utilisés

• OAIS - ISO 14721 : Reference model for an Open Archival Information System – Modèle purement conceptuel, ne fait aucune recommandation technique

• P2A Politique et pratiques d’archivage (sphère publique) – Recommandations en termes d’architecture, moyens, sécurité, etc.

• Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination

• Normes internationales de description archivistique – ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les

Archives relatives aux collectivités, aux personnes ou aux familles – ISAD-G – Norme générale et internationale de description archivistique

• Métadonnées descriptives de l’archive – DCMI – Dublin Core Metadata Initiative

• Identifiant unique et pérenne – Interne, séquentiel, basé sur le principe URI – Couplé à un identifiant persistant externe de type ARK

• Empreintes numériques – Algorithmes MD5, SHA-256

Journées STAR 02/10/2015–

19

Page 20: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les formats

Journées STAR 02/10/2015–

20

Page 21: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Comment choisir un format pour l’archivage ?

Condition n°1 pour qu’un format soit archivable : le format doit être

exploitable dans son intégralité et sur une durée indéterminée

Il doit donc être :

– Publié

– Largement utilisé (ou promis à l’être)

– Normalisé (si possible)

Ceci est nécessaire pour :

– Le contrôle de la validité d’un format

– La migration (transformation vers un autre format)

– La lecture et la compréhension du format

Journées STAR 02/10/2015– 21

Page 22: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

A l’étude

Potentiellement

archivable

Archivable

Obsolète

REJETE

En voie

d’obsolescence

Comment organiser la veille sur les formats ?

Le CINES s’est doté d’une expertise formats chargée d’étudier l’existant et

d’émettre des alertes

Gestion de 5 listes de formats :

22 Journées STAR 02/10/2015–

Page 23: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

• Présentant une valeur patrimoniale scientifique ou technique

• De préférence des objets dits « primaires »

– Documents originaux,

– Bruts de scan, etc.

• Dans un format identifié et vérifiable :

Les types de documents à archiver de façon pérenne

– Format publié

– Format largement utilisé (ou promis à l’être)

– Format normalisé si possible

Les formats doivent respecter les spécifications de leur format

• Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour

– Identifier, Valider, Caractériser le format des fichiers transférés

Type Format

Texte PDF, TXT, XML, ODT

Image GIF, JPEG2000, JPEG, TIFF, PNG,

SVG, GEOTIFF

Audio WAV, AIFF, AAC, VORBIS, OGG

Vidéo MJPEG2000, MPEG4, THEORA,

MKV 23 Journées STAR 02/10/2015

Page 24: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Un outil en ligne pour valider les formats de fichier

• Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format

Evolution du Validateur de Format

Evolution de l’application Facile

• Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC

• Permet une validation des fichiers avant dépôt de la part du producteur

http://facile.cines.fr

FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise

Journées STAR 02/10/2015–

24

Page 25: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les métadonnées

Journées STAR 02/10/2015–

25

Page 26: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Fonds ou

Projet d’archives

Qualité des métadonnées : Les niveaux de MD dans PAC

PPDI.XML Document

BIR (Bibliothèque d’Informations de Représentation)

BIR Formats

BIR DocPac

Métadonnees_métier.XML

SIP.XML / AIP.XML

BIR Projet

Journées STAR 02/10/2015–

Page 27: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

• L’ensemble de ces informations est regroupé au sein d’une Bibliothèque

d’Informations de Représentation (BIR). Elle contient :

BIR Formats

Spécifications des formats des fichiers archivés,

Schémas XSD ou DTD des fichiers XML archivés

BIR Projets

PPDI, Profils d’archivages, Conventions d’archivage, Demandes d’éliminations, Normes utilisées pour la description des archives

BIR DocPac

Spécifications techniques, Documentation du système d’archivage PAC

• Elle garantit la lisibilité ou la recouvrabilité d’un fichier à un format donné

grâce à la compréhension de la manière dont se constitue ce format

La bibliothèque d’information et de représentation

Journées STAR 02/10/2015– 27

Page 28: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

La structure du document à archiver

Document à archiver composé de deux pièces :

La description de l’archive

– Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd), 3 sections décrivant :

Le document dans son projet d’archives (DocDC)

Le document proprement dit (DocMeta)

Les fichiers du document (FichMeta)

Le dossier contenant les documents électroniques à archiver

– Répertoire « DEPOT »

• Sous arborescences autorisées : répertoire « DESC » contenant les fichiers métiers

• Tout fichier présent doit être décrit dans le fichier sip.xml

Journées STAR 02/10/2015–

28

Page 29: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les métadonnées de PAC

www.cines.fr/pac/sip.xsd (aip.xsd)

– 14 métadonnées officielles du Dublin Core (DocDC)

– des métadonnées de « gestion » au niveau du document et du fichier, spécifiques à PAC (DocMeta et FichMeta)

http://www.cines.fr/pac/ppdi.xsd

– Et les métadonnées « projet » pour documenter les informations relatives au projet lui-même et à la manière de remplir les métadonnées (PPDI)

Volonté d’avoir un jeu de métadonnées génériques modulable en partie selon les projets d’archives…

– définitions des champs volontairement très larges

– aip.xml sert d’enveloppe générale pour uniformiser les différents projets d’archives dans PAC

– les métadonnées « métier » sont regroupées dans un fichier XML distinct qui est versé en même temps que le document qu’elles décrivent

Le choix des métadonnées

Journées STAR 02/10/2015– 29

Page 30: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Etat des lieux de la réflexion sur les métadonnées

Problèmes rencontrés Solutions apportées / envisagées

Les définitions des champs ne sont pas

toujours très explicites

Donner des exemples du contenu attendu

Les services versants peuvent largement

adapter les métadonnées pour y mettre ce

qu’ils veulent

Accompagner les services versants pour

remplir les champs en fonction des données

qu’ils possèdent

Consigner dans un fichier spécifique la

manière dont le service versant remplit les

métadonnées, et archiver ce fichier

Effectuer un contrôle sur le contenu de

l’ensemble des champs

Certaines métadonnées sont obligatoires

mais ne sont pas toujours utilisées

Revoir la cardinalité des métadonnées

Manque d’informations générales de

contexte sur les projets d’archives, les fonds

archivés, les services versants,…

Noter dans un même document toutes les

informations de contexte relatives au projet

d’archives, et archiver ce document dans le

système d’archivage

…mais qui a ses limites !

Journées STAR 02/10/2015– 22 30

Page 31: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Le stockage

Journées STAR 02/10/2015–

31

Page 32: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

PAC: Qualité du stockage

La qualité du stockage garantit la conservation du train de bits composant les fichiers de données

Copies multiples:

2 copies sur disques

1 réplication sur un site distant CC-IN2P3

1 copie sur bandes

Indépendance des supports de copies (mélange disques/bandes, localisation géographique)

Audit fréquent de l’intégrité des copies (Arkchec module de supervision qui détecte les corruptions silencieuses)

Le contrôle de l’intégrité des fichiers permet d’anticiper la corruption de l’information

• Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc.

Migration physique (remplacement de disques vieillissants ou abimés)

• Au niveau logiciel : vérification des sommes de contrôle (en anglais checksum)

Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale

Utilisation d’algorithme de hachage (MD5, SHA-256), etc.

Journées STAR 02/10/2015– 22

Page 33: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

La stratégie de préservation des documents

• La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation)

• Migration physique

– Changement du support de stockage

– Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service

• Migration logique

– Conversion de formats

– Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme

– Identification d’un format offrant de meilleures garanties de pérennité

– Migration après accord des services versants concernés

– Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage

– Conservation des versions 1 (initiale), n-1 et n d’un document migré

Journées STAR 02/10/2015– 22

33

Page 34: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Les perspectives

Le CINES est maintenant un acteur reconnu du domaine de la préservation

à long terme des documents numériques.

• Il joue un rôle clé dans la réussite au niveau national d’une stratégie pour

l’archivage pérenne des documents électroniques produits par la

communauté Université-Recherche.

– Aide et conseil à la construction de projets d’archivage à long terme

– Retour d’expérience

– Mise en place de nouveaux projets d’archives

Objectifs 2016:

• La poursuite et le développement de tous ces projets: Université de Lorraine

Atilf (linguistique), Paris 7 Diderot, INRAP(archéologie urbaine), IRSTEA(cemagref)…

• PAC V3 : passage en production de nouveaux matériels, plus de stockage, différents

niveaux de services (bandes/disques)

Journées STAR 02/10/2015–

Page 35: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

L’archivage au CINES en quelques dates…

2004 2008 2006

• 1ères réflexions sur

l’archivage

numérique

• Prestation de

conseil en AE

(2005)

• Arrêté du 7 août

2006 (Thèses)

• 1ères thèses versées

dans PAC_V1, une

plateforme

d’archivage

« maison » (arrêté du

07/08/2006)

• Convention pour

l’archivage du portail

Persée (02/05/2007)

• Recadrage des

activités du CINES

(lettre du

12/02/2008)

• Mise en production

de PAC_V2 (basée

sur la solution

Arcsys d’Infotel et

un client spécifique)

« migration de

plateforme »

Journées STAR 02/10/2015–

35

Page 36: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

L’archivage au CINES en quelques dates…

2012 2014 2010

• Publication de guides

méthodologiques sur

les formats de fichiers

audio et vidéo (2010-

2012) + Bases de

données (2013) + PDF

(en cours)

• Archivage des

données de la Cour

des Comptes

conformément au

SEDA (2013)

• Archivage des

données de l’INSERM

(2013)

• Fin 2013 / début

2014 : Archivage de

données

scientifiques dans

le nœud

EUDAT@CINES

(projet européen

FP7)

• Début 2014 :

Renouvellement

agrément SIAF

• Mars 2014

modification des

statuts du CINES

• Archivage de HAL

(Hyper Articles en

Ligne), des données

orales du CRDO

(TGE-Adonis), de

livres numérisés

(Cujas, BIUS,

BSG…)

• 2009 : 1er To archivé

• Agrément SIAF

(14/12/2010)

• Projet APARSEN :

évaluation norme

ISO 16363 (2011)

2015

36

• 500 000ème

archive déposée

• 40 To archivés

Journées STAR 02/10/2015–

Page 37: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

PAC : Les données archivées

Les utilisateurs de PAC

Journées STAR 02/10/2015–

37

Page 38: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Quelques statistiques

38

PDF Autresformats

Requêtes FACILE : répartition formats

84 mai-15 696 648 39283 976 603

85 juin-15 710 661 40264 981 616

86 juil.-15 725 675 41195 931 629

87 août-15 728 678 41399 204 642

Mois Volumétrie réelle (en

G o)

Volumétrie réelle (en

G i o)

Cumul dépôts Dépôts mensuels Volumétrie

prévisionnelle

Evolution de la volumétrie

Page 39: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Version nnombre

PDF 1.2 157 0,3%

PDF 1.3 761 1,5%

PDF 1.4 26967 52,1%

PDF 1.5 9051 17,5%

PDF 1.6 3637 7,0%

PDF 1.7 3276 6,3%

XML 1.0 164 0,3%

WAV 1423 2,7%

TXT 110 0,2%

PNG 1.0 3242 6,3%

PNG 1.1 21 0,0%

AAC 2137 4,1%

MPEG-4 183 0,4%

JPEG NA 97 0,2%

JPEG 1.01 286 0,6%

JPEG 1.02 34 0,1%

GIF 89a 29 0,1%

OGG 27 0,1%

FLAC NA 53 0,1%

FLAC 1,2,1 79 0,2%

TIFF 5.0 5 0,0%

TIFF 6.0 38 0,1%

Quelques statistiques

39 Total 51777 100,0%

Page 40: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Quelques statistiques

40

0

100

200

300

400

500

600

700

800

juin-08 juin-09 juin-10 juin-11 juin-12 juin-13 juin-14 juin-15

Volumétrie réelle (en Go) Volumétrie prévisionnelle

Evolution de la volumétrie

Vo

lum

étr

ie (

en

Go

)

Page 41: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Alfresco

http://Alfresco.cines.fr

Les documents de références : spécifications techniques …

Web

http://www.cines.fr

http://www.cines.fr/pac/

Description des schémas :sip.xsd, aip.xsd, ppdi.xsd….

La documentation

41 Journées STAR 02/10/2015–

Page 42: PAC – Plate-forme d’Archivage du CINES Revue de Projet 24 ... · La plateforme d’arhivage du CINES: PAC ... Le contexte, la problématique et les constats ... et pour accéder

Questions & Réponses

Plus d’information à l’adresse : http://www.cines.fr/spip.php?rubrique219

[email protected]

Journées STAR 02/10/2015– 22

42