45
Les guides de bonnes pratiques #2 Le guide des bonnes pratiques numériques Le passage au numérique est devenu une priorité et parfois même une nécessité dans le paysage actuel de la recherche et de sa patrimonialisation. Il n’est cependant pas toujours simple d’opérer le bon choix technologique pour numériser, sauvegarder ou exploiter des données souvent hétérogènes. En s’intéressant de manière détaillée aux formats, standards et pratiques les plus stables aujourd’hui en matière de numérique, ce guide souhaite répondre aux besoins de ceux qui souhaitent se lancer dans un projet numérique ou mettre à niveau leurs corpus numériques existants. Il peut être téléchargé sur : http://www.huma-num.fr/ressources/guides INFORMER PARTAGER DIFFUSER TGIR Huma-Num Pôle communication 190, avenue de France 75013 PARIS huma-num.fr En savoir plus

Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

  • Upload
    others

  • View
    65

  • Download
    5

Embed Size (px)

Citation preview

Page 1: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

Les guides de bonnes pratiques

2Le guide desbonnes pratiques numeacuteriquesLe passage au numeacuterique est devenu une prioriteacute et parfois mecircme une neacutecessiteacute dans le paysage actuel de la recherche et de sa patrimonialisation Il nrsquoest cependant pas toujours simple drsquoopeacuterer le bon choix technologique pour numeacuteriser sauvegarder ou exploiter des donneacutees souvent heacuteteacuterogegravenesEn srsquointeacuteressant de maniegravere deacutetailleacutee aux formats standards et pratiques les plus stables aujourdrsquohui en matiegravere de numeacuterique ce guide souhaite reacutepondre aux besoins de ceux qui souhaitent se lancer dans un projet numeacuterique ou mettre agrave niveau leurs corpus numeacuteriques existants

Il peut ecirctre teacuteleacutechargeacute sur httpwwwhuma-numfrressourcesguides

INFORMER PARTAGER DIFFUSER

TGIR Huma-NumPocircle communication

190 avenue de France75013 PARIS

huma-numfr

En savoir plus

Ce guide de bonnes pratiques est une version remanieacutee du guide initialement publieacute en septembre 2011

3GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

INTRODUCTION

Le passage au numeacuterique est devenu une prioriteacute et souvent mecircme une neacuteces-siteacute dans le paysage actuel de la recherche et de sa patrimonialisation Numeacuteriser comme proceacutedeacute de communication et drsquoexploitation de lrsquoinformation numeacuteriser comme proceacutedeacute de conservation de lrsquoinformation Numeacuteriser afin de traiter et drsquoanalyser autrement et plus en profondeur les donneacutees et de creacuteer un patrimoine scientifique pour les geacuteneacuterations agrave venir afin drsquoecirctre en phase avec les pratiques qui se geacuteneacuteralisent ailleurs afin de valoriser la production scientifique afin de pouvoir travailler agrave distance et en collaboration sur des corpus voici parmi bien drsquoautres les objectifs qui motivent les laboratoires chercheurs et enseignants-chercheurs agrave effectuer ce passage Srsquoajoute aux opeacuterations de numeacuterisation le fait qursquoaujourdrsquohui de plus en plus de donneacutees sont numeacuteriques degraves leur creacuteation

Malgreacute les opportuniteacutes incontestables qursquooffre le numeacuterique il est aussi parfois synonyme de confusion et de propagation de pratiques formats et supports les plus divers et les moins transparents Nombreux sont ceux qui se retrouvent apregraves des efforts humains et financiers parfois consideacuterables avec un corpus numeacute-rique inexploitable quelques anneacutees plus tard seulement parce que les formats ont changeacute ou que les outils de lecture et drsquoexploitation nrsquoexistent plus Souvent aussi des corpus numeacuteriseacutes se reacutevegravelent inexploitables sur des plateformes ou avec des logiciels couramment utiliseacutes dans le monde de la recherche et de lrsquoarchivage numeacuterique

Le passage aux pratiques numeacuteriques nrsquoest ainsi pas automatiquement synonyme de potentiel drsquoexploitation ni drsquoarchivage agrave long terme Encore faut-il que les pratiques numeacuteriques soient en phase avec celles qui sont adopteacutees par les acteurs du paysage Drsquoougrave lrsquoimportance de choisir des formats interopeacuterables crsquoest-agrave-dire des formats qui permettent lrsquoeacutechange des donneacutees et des informations laquo lrsquoobjetraquo devient partageable et diffusable car sa description sur le plan informatique respecte des formats standards ou bien des normes soit encore des reacutefeacuterences internationalement reconnues

Ce guide de bonnes pratiques constitue une premiegravere eacutetape dans lrsquoaccompagnement des chercheurs qui se lancent dans le numeacuterique En srsquointeacuteressant de maniegravere deacutetailleacutee aux formats et en faisant le point sur les pratiques les plus reacutecentes ce guide peut aussi reacutepondre aux besoins de ceux qui souhaitent harmoniser ou mettre agrave niveau leurs corpus numeacuteriques existants Le guide est une reacutealisation de la TGIR Huma-Num agrave laquelle ont collaboreacute diffeacuterents acteurs de la communauteacute des humaniteacutes numeacuteriques Il a eacuteteacute reacutedigeacute sous lrsquoimpulsion de lrsquoInstitut des Sciences Humaines et Sociales du CNRS et du Ministegravere de lrsquoEnseignement Supeacuterieur et de la Recherche

Janvier 2015

4 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

SOMMAIREIntroduction 3

Le projet numeacuterique 7

1 Deacutecider 7

2 Organiser 7

3 Numeacuteriser 8

4 Structurer 9

5 Exploiter 9

6 Diffuser 10

7 Peacuterenniser 10

8 Liste des recommandations 11

Meacutetadonneacutees HTML RDF protocole OAI-PMH 13

1 Meacutetadonneacutees geacuteneacuteraliteacutes 13

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques 14

21 Le Dublin Core 14

22 Le scheacutema METS14

3 HTML 16

4 Le RDF 16

5 Le protocole OAI-PMH 17

6 Les ressources 17

Les bases de donneacutees 19

1 Geacuteneacuteraliteacutes 19

2 Les meacutetadonneacutees 19

5 Les ressources 20

3 Lrsquoentrepocirct 20

4 Liste des recommandations 20

Les donneacutees textuelles 21

1 Les donneacutees 21

2 La numeacuterisation 21

3 Les meacutetadonneacutees 22

4 La TEI (text encoding initiative) 22

5 Liste des recommandations 23

6 Les ressources 23

5GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les donneacutees iconographiques - I les images fixes 25

1 Les donneacutees 25

2 La numeacuterisation 25

21 Le format de fichier 25

22 Paramegravetres de qualiteacute 26

3 Les meacutetadonneacutees 27

31 Meacutetadonneacutees techniques 27

32 Les meacutetadonneacutees techniques les EXIF27

33 Meacutetadonneacutees descriptives 28

34 Les meacutetadonneacutees descriptives les XMP et les IPTC 28

4 Liste des recommandations 29

5 Les ressources 29

Les donneacutees iconographiques - I I Les images animeacutees et les films 31

1 Les donneacutees 31

2 Les conteneurs et les codecs 31

21 Les principaux formats conteneurs videacuteo 31

21 Les principaux codecs videacuteo 33

3 La numeacuterisation 34

4 Les meacutetadonneacutees 34

5 Liste des recommandations 35

6 Les ressources 35

Les donneacutees sonores 36

1 Les donneacutees 36

2 La numeacuterisation 36

3 Les meacutetadonneacutees 37

4 Liste des recommandations 38

5 Les ressources 38

Glossaire 39

7GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LE PROJET NUMEacuteRIQUE

1 Deacutecider

Il srsquoagit ici de collecter les ideacutees de deacutefinir lrsquoobjectif et de preacuteciser tous les aspects et tous les enjeux du projet On recommande lrsquoapplication de la meacutethode QQOQCCP laquo Qui fait Quoi Ougrave Quand Comment Combien Pourquoi raquo qui permet de poser lrsquoensemble des questions neacutecessaires Il importe de reacutepondre agrave chacune de ces questions avec le plus de preacutecisions possibles

Agrave cette eacutetape du projet trois questions importantes sont agrave traiter la question des droits juridiques (qui touchent les donneacutees du projet notamment en matiegravere de diffusion) la question du stockage et la question de lrsquoarchivage

Drsquoautres meacutethodes que la meacutethode QQOQCCP existent On peut citer la meacutethode Agile la meacutethode en V la meacutethode iteacuterative Nous les recommandons non au deacutebut du projet mais plutocirct pour les eacutetapes de reacutealisation des diffeacuterentes phases du projet

Le document final reacutesultant de cette eacutetape est une note drsquointention qui reprend les diffeacuterentes questions de la meacutethode QQOQCCP dans le but de convaincre ses interlocuteurs (financeurs partenaires )

2 Organiser

On preacutepare ici le pilotage du projet Celui-ci passe par la preacuteparation drsquoune note de cadrage qui eacutetablit lrsquoorganisation preacutecise du projet Elle en permet la validation Par la suite il faut construire le cahier des charges fonctionnel Ideacutealement celui-ci doit suivre la norme AFNOR NF X50-151 Enfin il importe drsquoeacutetablir le planning preacutevisionnel du projet et en particulier de ses livrables

Un projet numeacuterique est toujours un projet collectif car il requiert des compeacutetences varieacutees (probleacute-matique de recherche informatique documentation communication etc)

Tout projet numeacuterique demande drsquoadopter une meacutethodologie de projet

Les diffeacuterentes eacutetapes drsquoun projet numeacuterique peuvent ecirctre structureacutees agrave travers les verbes suivants bull Deacutecider bull Organiser bull Numeacuteriser bull Structurer bull Exploiter bull Diffuser

Il faut y ajouter le verbe laquo Peacuterenniser raquo qui rassemble un ensemble de questions qursquoil importe de se poser degraves le deacutebut du projet et qui implique des deacutecisions et des actions pratiquement agrave chaque eacutetape du projet

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 2: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

Ce guide de bonnes pratiques est une version remanieacutee du guide initialement publieacute en septembre 2011

3GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

INTRODUCTION

Le passage au numeacuterique est devenu une prioriteacute et souvent mecircme une neacuteces-siteacute dans le paysage actuel de la recherche et de sa patrimonialisation Numeacuteriser comme proceacutedeacute de communication et drsquoexploitation de lrsquoinformation numeacuteriser comme proceacutedeacute de conservation de lrsquoinformation Numeacuteriser afin de traiter et drsquoanalyser autrement et plus en profondeur les donneacutees et de creacuteer un patrimoine scientifique pour les geacuteneacuterations agrave venir afin drsquoecirctre en phase avec les pratiques qui se geacuteneacuteralisent ailleurs afin de valoriser la production scientifique afin de pouvoir travailler agrave distance et en collaboration sur des corpus voici parmi bien drsquoautres les objectifs qui motivent les laboratoires chercheurs et enseignants-chercheurs agrave effectuer ce passage Srsquoajoute aux opeacuterations de numeacuterisation le fait qursquoaujourdrsquohui de plus en plus de donneacutees sont numeacuteriques degraves leur creacuteation

Malgreacute les opportuniteacutes incontestables qursquooffre le numeacuterique il est aussi parfois synonyme de confusion et de propagation de pratiques formats et supports les plus divers et les moins transparents Nombreux sont ceux qui se retrouvent apregraves des efforts humains et financiers parfois consideacuterables avec un corpus numeacute-rique inexploitable quelques anneacutees plus tard seulement parce que les formats ont changeacute ou que les outils de lecture et drsquoexploitation nrsquoexistent plus Souvent aussi des corpus numeacuteriseacutes se reacutevegravelent inexploitables sur des plateformes ou avec des logiciels couramment utiliseacutes dans le monde de la recherche et de lrsquoarchivage numeacuterique

Le passage aux pratiques numeacuteriques nrsquoest ainsi pas automatiquement synonyme de potentiel drsquoexploitation ni drsquoarchivage agrave long terme Encore faut-il que les pratiques numeacuteriques soient en phase avec celles qui sont adopteacutees par les acteurs du paysage Drsquoougrave lrsquoimportance de choisir des formats interopeacuterables crsquoest-agrave-dire des formats qui permettent lrsquoeacutechange des donneacutees et des informations laquo lrsquoobjetraquo devient partageable et diffusable car sa description sur le plan informatique respecte des formats standards ou bien des normes soit encore des reacutefeacuterences internationalement reconnues

Ce guide de bonnes pratiques constitue une premiegravere eacutetape dans lrsquoaccompagnement des chercheurs qui se lancent dans le numeacuterique En srsquointeacuteressant de maniegravere deacutetailleacutee aux formats et en faisant le point sur les pratiques les plus reacutecentes ce guide peut aussi reacutepondre aux besoins de ceux qui souhaitent harmoniser ou mettre agrave niveau leurs corpus numeacuteriques existants Le guide est une reacutealisation de la TGIR Huma-Num agrave laquelle ont collaboreacute diffeacuterents acteurs de la communauteacute des humaniteacutes numeacuteriques Il a eacuteteacute reacutedigeacute sous lrsquoimpulsion de lrsquoInstitut des Sciences Humaines et Sociales du CNRS et du Ministegravere de lrsquoEnseignement Supeacuterieur et de la Recherche

Janvier 2015

4 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

SOMMAIREIntroduction 3

Le projet numeacuterique 7

1 Deacutecider 7

2 Organiser 7

3 Numeacuteriser 8

4 Structurer 9

5 Exploiter 9

6 Diffuser 10

7 Peacuterenniser 10

8 Liste des recommandations 11

Meacutetadonneacutees HTML RDF protocole OAI-PMH 13

1 Meacutetadonneacutees geacuteneacuteraliteacutes 13

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques 14

21 Le Dublin Core 14

22 Le scheacutema METS14

3 HTML 16

4 Le RDF 16

5 Le protocole OAI-PMH 17

6 Les ressources 17

Les bases de donneacutees 19

1 Geacuteneacuteraliteacutes 19

2 Les meacutetadonneacutees 19

5 Les ressources 20

3 Lrsquoentrepocirct 20

4 Liste des recommandations 20

Les donneacutees textuelles 21

1 Les donneacutees 21

2 La numeacuterisation 21

3 Les meacutetadonneacutees 22

4 La TEI (text encoding initiative) 22

5 Liste des recommandations 23

6 Les ressources 23

5GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les donneacutees iconographiques - I les images fixes 25

1 Les donneacutees 25

2 La numeacuterisation 25

21 Le format de fichier 25

22 Paramegravetres de qualiteacute 26

3 Les meacutetadonneacutees 27

31 Meacutetadonneacutees techniques 27

32 Les meacutetadonneacutees techniques les EXIF27

33 Meacutetadonneacutees descriptives 28

34 Les meacutetadonneacutees descriptives les XMP et les IPTC 28

4 Liste des recommandations 29

5 Les ressources 29

Les donneacutees iconographiques - I I Les images animeacutees et les films 31

1 Les donneacutees 31

2 Les conteneurs et les codecs 31

21 Les principaux formats conteneurs videacuteo 31

21 Les principaux codecs videacuteo 33

3 La numeacuterisation 34

4 Les meacutetadonneacutees 34

5 Liste des recommandations 35

6 Les ressources 35

Les donneacutees sonores 36

1 Les donneacutees 36

2 La numeacuterisation 36

3 Les meacutetadonneacutees 37

4 Liste des recommandations 38

5 Les ressources 38

Glossaire 39

7GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LE PROJET NUMEacuteRIQUE

1 Deacutecider

Il srsquoagit ici de collecter les ideacutees de deacutefinir lrsquoobjectif et de preacuteciser tous les aspects et tous les enjeux du projet On recommande lrsquoapplication de la meacutethode QQOQCCP laquo Qui fait Quoi Ougrave Quand Comment Combien Pourquoi raquo qui permet de poser lrsquoensemble des questions neacutecessaires Il importe de reacutepondre agrave chacune de ces questions avec le plus de preacutecisions possibles

Agrave cette eacutetape du projet trois questions importantes sont agrave traiter la question des droits juridiques (qui touchent les donneacutees du projet notamment en matiegravere de diffusion) la question du stockage et la question de lrsquoarchivage

Drsquoautres meacutethodes que la meacutethode QQOQCCP existent On peut citer la meacutethode Agile la meacutethode en V la meacutethode iteacuterative Nous les recommandons non au deacutebut du projet mais plutocirct pour les eacutetapes de reacutealisation des diffeacuterentes phases du projet

Le document final reacutesultant de cette eacutetape est une note drsquointention qui reprend les diffeacuterentes questions de la meacutethode QQOQCCP dans le but de convaincre ses interlocuteurs (financeurs partenaires )

2 Organiser

On preacutepare ici le pilotage du projet Celui-ci passe par la preacuteparation drsquoune note de cadrage qui eacutetablit lrsquoorganisation preacutecise du projet Elle en permet la validation Par la suite il faut construire le cahier des charges fonctionnel Ideacutealement celui-ci doit suivre la norme AFNOR NF X50-151 Enfin il importe drsquoeacutetablir le planning preacutevisionnel du projet et en particulier de ses livrables

Un projet numeacuterique est toujours un projet collectif car il requiert des compeacutetences varieacutees (probleacute-matique de recherche informatique documentation communication etc)

Tout projet numeacuterique demande drsquoadopter une meacutethodologie de projet

Les diffeacuterentes eacutetapes drsquoun projet numeacuterique peuvent ecirctre structureacutees agrave travers les verbes suivants bull Deacutecider bull Organiser bull Numeacuteriser bull Structurer bull Exploiter bull Diffuser

Il faut y ajouter le verbe laquo Peacuterenniser raquo qui rassemble un ensemble de questions qursquoil importe de se poser degraves le deacutebut du projet et qui implique des deacutecisions et des actions pratiquement agrave chaque eacutetape du projet

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 3: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

3GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

INTRODUCTION

Le passage au numeacuterique est devenu une prioriteacute et souvent mecircme une neacuteces-siteacute dans le paysage actuel de la recherche et de sa patrimonialisation Numeacuteriser comme proceacutedeacute de communication et drsquoexploitation de lrsquoinformation numeacuteriser comme proceacutedeacute de conservation de lrsquoinformation Numeacuteriser afin de traiter et drsquoanalyser autrement et plus en profondeur les donneacutees et de creacuteer un patrimoine scientifique pour les geacuteneacuterations agrave venir afin drsquoecirctre en phase avec les pratiques qui se geacuteneacuteralisent ailleurs afin de valoriser la production scientifique afin de pouvoir travailler agrave distance et en collaboration sur des corpus voici parmi bien drsquoautres les objectifs qui motivent les laboratoires chercheurs et enseignants-chercheurs agrave effectuer ce passage Srsquoajoute aux opeacuterations de numeacuterisation le fait qursquoaujourdrsquohui de plus en plus de donneacutees sont numeacuteriques degraves leur creacuteation

Malgreacute les opportuniteacutes incontestables qursquooffre le numeacuterique il est aussi parfois synonyme de confusion et de propagation de pratiques formats et supports les plus divers et les moins transparents Nombreux sont ceux qui se retrouvent apregraves des efforts humains et financiers parfois consideacuterables avec un corpus numeacute-rique inexploitable quelques anneacutees plus tard seulement parce que les formats ont changeacute ou que les outils de lecture et drsquoexploitation nrsquoexistent plus Souvent aussi des corpus numeacuteriseacutes se reacutevegravelent inexploitables sur des plateformes ou avec des logiciels couramment utiliseacutes dans le monde de la recherche et de lrsquoarchivage numeacuterique

Le passage aux pratiques numeacuteriques nrsquoest ainsi pas automatiquement synonyme de potentiel drsquoexploitation ni drsquoarchivage agrave long terme Encore faut-il que les pratiques numeacuteriques soient en phase avec celles qui sont adopteacutees par les acteurs du paysage Drsquoougrave lrsquoimportance de choisir des formats interopeacuterables crsquoest-agrave-dire des formats qui permettent lrsquoeacutechange des donneacutees et des informations laquo lrsquoobjetraquo devient partageable et diffusable car sa description sur le plan informatique respecte des formats standards ou bien des normes soit encore des reacutefeacuterences internationalement reconnues

Ce guide de bonnes pratiques constitue une premiegravere eacutetape dans lrsquoaccompagnement des chercheurs qui se lancent dans le numeacuterique En srsquointeacuteressant de maniegravere deacutetailleacutee aux formats et en faisant le point sur les pratiques les plus reacutecentes ce guide peut aussi reacutepondre aux besoins de ceux qui souhaitent harmoniser ou mettre agrave niveau leurs corpus numeacuteriques existants Le guide est une reacutealisation de la TGIR Huma-Num agrave laquelle ont collaboreacute diffeacuterents acteurs de la communauteacute des humaniteacutes numeacuteriques Il a eacuteteacute reacutedigeacute sous lrsquoimpulsion de lrsquoInstitut des Sciences Humaines et Sociales du CNRS et du Ministegravere de lrsquoEnseignement Supeacuterieur et de la Recherche

Janvier 2015

4 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

SOMMAIREIntroduction 3

Le projet numeacuterique 7

1 Deacutecider 7

2 Organiser 7

3 Numeacuteriser 8

4 Structurer 9

5 Exploiter 9

6 Diffuser 10

7 Peacuterenniser 10

8 Liste des recommandations 11

Meacutetadonneacutees HTML RDF protocole OAI-PMH 13

1 Meacutetadonneacutees geacuteneacuteraliteacutes 13

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques 14

21 Le Dublin Core 14

22 Le scheacutema METS14

3 HTML 16

4 Le RDF 16

5 Le protocole OAI-PMH 17

6 Les ressources 17

Les bases de donneacutees 19

1 Geacuteneacuteraliteacutes 19

2 Les meacutetadonneacutees 19

5 Les ressources 20

3 Lrsquoentrepocirct 20

4 Liste des recommandations 20

Les donneacutees textuelles 21

1 Les donneacutees 21

2 La numeacuterisation 21

3 Les meacutetadonneacutees 22

4 La TEI (text encoding initiative) 22

5 Liste des recommandations 23

6 Les ressources 23

5GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les donneacutees iconographiques - I les images fixes 25

1 Les donneacutees 25

2 La numeacuterisation 25

21 Le format de fichier 25

22 Paramegravetres de qualiteacute 26

3 Les meacutetadonneacutees 27

31 Meacutetadonneacutees techniques 27

32 Les meacutetadonneacutees techniques les EXIF27

33 Meacutetadonneacutees descriptives 28

34 Les meacutetadonneacutees descriptives les XMP et les IPTC 28

4 Liste des recommandations 29

5 Les ressources 29

Les donneacutees iconographiques - I I Les images animeacutees et les films 31

1 Les donneacutees 31

2 Les conteneurs et les codecs 31

21 Les principaux formats conteneurs videacuteo 31

21 Les principaux codecs videacuteo 33

3 La numeacuterisation 34

4 Les meacutetadonneacutees 34

5 Liste des recommandations 35

6 Les ressources 35

Les donneacutees sonores 36

1 Les donneacutees 36

2 La numeacuterisation 36

3 Les meacutetadonneacutees 37

4 Liste des recommandations 38

5 Les ressources 38

Glossaire 39

7GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LE PROJET NUMEacuteRIQUE

1 Deacutecider

Il srsquoagit ici de collecter les ideacutees de deacutefinir lrsquoobjectif et de preacuteciser tous les aspects et tous les enjeux du projet On recommande lrsquoapplication de la meacutethode QQOQCCP laquo Qui fait Quoi Ougrave Quand Comment Combien Pourquoi raquo qui permet de poser lrsquoensemble des questions neacutecessaires Il importe de reacutepondre agrave chacune de ces questions avec le plus de preacutecisions possibles

Agrave cette eacutetape du projet trois questions importantes sont agrave traiter la question des droits juridiques (qui touchent les donneacutees du projet notamment en matiegravere de diffusion) la question du stockage et la question de lrsquoarchivage

Drsquoautres meacutethodes que la meacutethode QQOQCCP existent On peut citer la meacutethode Agile la meacutethode en V la meacutethode iteacuterative Nous les recommandons non au deacutebut du projet mais plutocirct pour les eacutetapes de reacutealisation des diffeacuterentes phases du projet

Le document final reacutesultant de cette eacutetape est une note drsquointention qui reprend les diffeacuterentes questions de la meacutethode QQOQCCP dans le but de convaincre ses interlocuteurs (financeurs partenaires )

2 Organiser

On preacutepare ici le pilotage du projet Celui-ci passe par la preacuteparation drsquoune note de cadrage qui eacutetablit lrsquoorganisation preacutecise du projet Elle en permet la validation Par la suite il faut construire le cahier des charges fonctionnel Ideacutealement celui-ci doit suivre la norme AFNOR NF X50-151 Enfin il importe drsquoeacutetablir le planning preacutevisionnel du projet et en particulier de ses livrables

Un projet numeacuterique est toujours un projet collectif car il requiert des compeacutetences varieacutees (probleacute-matique de recherche informatique documentation communication etc)

Tout projet numeacuterique demande drsquoadopter une meacutethodologie de projet

Les diffeacuterentes eacutetapes drsquoun projet numeacuterique peuvent ecirctre structureacutees agrave travers les verbes suivants bull Deacutecider bull Organiser bull Numeacuteriser bull Structurer bull Exploiter bull Diffuser

Il faut y ajouter le verbe laquo Peacuterenniser raquo qui rassemble un ensemble de questions qursquoil importe de se poser degraves le deacutebut du projet et qui implique des deacutecisions et des actions pratiquement agrave chaque eacutetape du projet

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 4: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

4 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

SOMMAIREIntroduction 3

Le projet numeacuterique 7

1 Deacutecider 7

2 Organiser 7

3 Numeacuteriser 8

4 Structurer 9

5 Exploiter 9

6 Diffuser 10

7 Peacuterenniser 10

8 Liste des recommandations 11

Meacutetadonneacutees HTML RDF protocole OAI-PMH 13

1 Meacutetadonneacutees geacuteneacuteraliteacutes 13

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques 14

21 Le Dublin Core 14

22 Le scheacutema METS14

3 HTML 16

4 Le RDF 16

5 Le protocole OAI-PMH 17

6 Les ressources 17

Les bases de donneacutees 19

1 Geacuteneacuteraliteacutes 19

2 Les meacutetadonneacutees 19

5 Les ressources 20

3 Lrsquoentrepocirct 20

4 Liste des recommandations 20

Les donneacutees textuelles 21

1 Les donneacutees 21

2 La numeacuterisation 21

3 Les meacutetadonneacutees 22

4 La TEI (text encoding initiative) 22

5 Liste des recommandations 23

6 Les ressources 23

5GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les donneacutees iconographiques - I les images fixes 25

1 Les donneacutees 25

2 La numeacuterisation 25

21 Le format de fichier 25

22 Paramegravetres de qualiteacute 26

3 Les meacutetadonneacutees 27

31 Meacutetadonneacutees techniques 27

32 Les meacutetadonneacutees techniques les EXIF27

33 Meacutetadonneacutees descriptives 28

34 Les meacutetadonneacutees descriptives les XMP et les IPTC 28

4 Liste des recommandations 29

5 Les ressources 29

Les donneacutees iconographiques - I I Les images animeacutees et les films 31

1 Les donneacutees 31

2 Les conteneurs et les codecs 31

21 Les principaux formats conteneurs videacuteo 31

21 Les principaux codecs videacuteo 33

3 La numeacuterisation 34

4 Les meacutetadonneacutees 34

5 Liste des recommandations 35

6 Les ressources 35

Les donneacutees sonores 36

1 Les donneacutees 36

2 La numeacuterisation 36

3 Les meacutetadonneacutees 37

4 Liste des recommandations 38

5 Les ressources 38

Glossaire 39

7GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LE PROJET NUMEacuteRIQUE

1 Deacutecider

Il srsquoagit ici de collecter les ideacutees de deacutefinir lrsquoobjectif et de preacuteciser tous les aspects et tous les enjeux du projet On recommande lrsquoapplication de la meacutethode QQOQCCP laquo Qui fait Quoi Ougrave Quand Comment Combien Pourquoi raquo qui permet de poser lrsquoensemble des questions neacutecessaires Il importe de reacutepondre agrave chacune de ces questions avec le plus de preacutecisions possibles

Agrave cette eacutetape du projet trois questions importantes sont agrave traiter la question des droits juridiques (qui touchent les donneacutees du projet notamment en matiegravere de diffusion) la question du stockage et la question de lrsquoarchivage

Drsquoautres meacutethodes que la meacutethode QQOQCCP existent On peut citer la meacutethode Agile la meacutethode en V la meacutethode iteacuterative Nous les recommandons non au deacutebut du projet mais plutocirct pour les eacutetapes de reacutealisation des diffeacuterentes phases du projet

Le document final reacutesultant de cette eacutetape est une note drsquointention qui reprend les diffeacuterentes questions de la meacutethode QQOQCCP dans le but de convaincre ses interlocuteurs (financeurs partenaires )

2 Organiser

On preacutepare ici le pilotage du projet Celui-ci passe par la preacuteparation drsquoune note de cadrage qui eacutetablit lrsquoorganisation preacutecise du projet Elle en permet la validation Par la suite il faut construire le cahier des charges fonctionnel Ideacutealement celui-ci doit suivre la norme AFNOR NF X50-151 Enfin il importe drsquoeacutetablir le planning preacutevisionnel du projet et en particulier de ses livrables

Un projet numeacuterique est toujours un projet collectif car il requiert des compeacutetences varieacutees (probleacute-matique de recherche informatique documentation communication etc)

Tout projet numeacuterique demande drsquoadopter une meacutethodologie de projet

Les diffeacuterentes eacutetapes drsquoun projet numeacuterique peuvent ecirctre structureacutees agrave travers les verbes suivants bull Deacutecider bull Organiser bull Numeacuteriser bull Structurer bull Exploiter bull Diffuser

Il faut y ajouter le verbe laquo Peacuterenniser raquo qui rassemble un ensemble de questions qursquoil importe de se poser degraves le deacutebut du projet et qui implique des deacutecisions et des actions pratiquement agrave chaque eacutetape du projet

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 5: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

5GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les donneacutees iconographiques - I les images fixes 25

1 Les donneacutees 25

2 La numeacuterisation 25

21 Le format de fichier 25

22 Paramegravetres de qualiteacute 26

3 Les meacutetadonneacutees 27

31 Meacutetadonneacutees techniques 27

32 Les meacutetadonneacutees techniques les EXIF27

33 Meacutetadonneacutees descriptives 28

34 Les meacutetadonneacutees descriptives les XMP et les IPTC 28

4 Liste des recommandations 29

5 Les ressources 29

Les donneacutees iconographiques - I I Les images animeacutees et les films 31

1 Les donneacutees 31

2 Les conteneurs et les codecs 31

21 Les principaux formats conteneurs videacuteo 31

21 Les principaux codecs videacuteo 33

3 La numeacuterisation 34

4 Les meacutetadonneacutees 34

5 Liste des recommandations 35

6 Les ressources 35

Les donneacutees sonores 36

1 Les donneacutees 36

2 La numeacuterisation 36

3 Les meacutetadonneacutees 37

4 Liste des recommandations 38

5 Les ressources 38

Glossaire 39

7GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LE PROJET NUMEacuteRIQUE

1 Deacutecider

Il srsquoagit ici de collecter les ideacutees de deacutefinir lrsquoobjectif et de preacuteciser tous les aspects et tous les enjeux du projet On recommande lrsquoapplication de la meacutethode QQOQCCP laquo Qui fait Quoi Ougrave Quand Comment Combien Pourquoi raquo qui permet de poser lrsquoensemble des questions neacutecessaires Il importe de reacutepondre agrave chacune de ces questions avec le plus de preacutecisions possibles

Agrave cette eacutetape du projet trois questions importantes sont agrave traiter la question des droits juridiques (qui touchent les donneacutees du projet notamment en matiegravere de diffusion) la question du stockage et la question de lrsquoarchivage

Drsquoautres meacutethodes que la meacutethode QQOQCCP existent On peut citer la meacutethode Agile la meacutethode en V la meacutethode iteacuterative Nous les recommandons non au deacutebut du projet mais plutocirct pour les eacutetapes de reacutealisation des diffeacuterentes phases du projet

Le document final reacutesultant de cette eacutetape est une note drsquointention qui reprend les diffeacuterentes questions de la meacutethode QQOQCCP dans le but de convaincre ses interlocuteurs (financeurs partenaires )

2 Organiser

On preacutepare ici le pilotage du projet Celui-ci passe par la preacuteparation drsquoune note de cadrage qui eacutetablit lrsquoorganisation preacutecise du projet Elle en permet la validation Par la suite il faut construire le cahier des charges fonctionnel Ideacutealement celui-ci doit suivre la norme AFNOR NF X50-151 Enfin il importe drsquoeacutetablir le planning preacutevisionnel du projet et en particulier de ses livrables

Un projet numeacuterique est toujours un projet collectif car il requiert des compeacutetences varieacutees (probleacute-matique de recherche informatique documentation communication etc)

Tout projet numeacuterique demande drsquoadopter une meacutethodologie de projet

Les diffeacuterentes eacutetapes drsquoun projet numeacuterique peuvent ecirctre structureacutees agrave travers les verbes suivants bull Deacutecider bull Organiser bull Numeacuteriser bull Structurer bull Exploiter bull Diffuser

Il faut y ajouter le verbe laquo Peacuterenniser raquo qui rassemble un ensemble de questions qursquoil importe de se poser degraves le deacutebut du projet et qui implique des deacutecisions et des actions pratiquement agrave chaque eacutetape du projet

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 6: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

7GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LE PROJET NUMEacuteRIQUE

1 Deacutecider

Il srsquoagit ici de collecter les ideacutees de deacutefinir lrsquoobjectif et de preacuteciser tous les aspects et tous les enjeux du projet On recommande lrsquoapplication de la meacutethode QQOQCCP laquo Qui fait Quoi Ougrave Quand Comment Combien Pourquoi raquo qui permet de poser lrsquoensemble des questions neacutecessaires Il importe de reacutepondre agrave chacune de ces questions avec le plus de preacutecisions possibles

Agrave cette eacutetape du projet trois questions importantes sont agrave traiter la question des droits juridiques (qui touchent les donneacutees du projet notamment en matiegravere de diffusion) la question du stockage et la question de lrsquoarchivage

Drsquoautres meacutethodes que la meacutethode QQOQCCP existent On peut citer la meacutethode Agile la meacutethode en V la meacutethode iteacuterative Nous les recommandons non au deacutebut du projet mais plutocirct pour les eacutetapes de reacutealisation des diffeacuterentes phases du projet

Le document final reacutesultant de cette eacutetape est une note drsquointention qui reprend les diffeacuterentes questions de la meacutethode QQOQCCP dans le but de convaincre ses interlocuteurs (financeurs partenaires )

2 Organiser

On preacutepare ici le pilotage du projet Celui-ci passe par la preacuteparation drsquoune note de cadrage qui eacutetablit lrsquoorganisation preacutecise du projet Elle en permet la validation Par la suite il faut construire le cahier des charges fonctionnel Ideacutealement celui-ci doit suivre la norme AFNOR NF X50-151 Enfin il importe drsquoeacutetablir le planning preacutevisionnel du projet et en particulier de ses livrables

Un projet numeacuterique est toujours un projet collectif car il requiert des compeacutetences varieacutees (probleacute-matique de recherche informatique documentation communication etc)

Tout projet numeacuterique demande drsquoadopter une meacutethodologie de projet

Les diffeacuterentes eacutetapes drsquoun projet numeacuterique peuvent ecirctre structureacutees agrave travers les verbes suivants bull Deacutecider bull Organiser bull Numeacuteriser bull Structurer bull Exploiter bull Diffuser

Il faut y ajouter le verbe laquo Peacuterenniser raquo qui rassemble un ensemble de questions qursquoil importe de se poser degraves le deacutebut du projet et qui implique des deacutecisions et des actions pratiquement agrave chaque eacutetape du projet

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 7: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

8 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Numeacuteriser

Numeacuteriser des donneacutees revient agrave bull Eacutetablir les speacutecifications techniques bull Numeacuteriser ou faire numeacuteriser bull Controcircler la qualiteacute des reacutesultats

Plus preacuteciseacutement il srsquoagit de Seacutelectionner les documents agrave traiter (corpus de fait ou creacuteeacute) Points importants coheacuterence du regroupement respect du contenu et des droits

bull Eacutetablir un cahier des charges adapteacute aux speacutecificiteacutes de lrsquoobjet il permet de preacuteciser la demande agrave la personne en charge de la numeacuterisation mais aussi de servir de document laquo tiers raquo lors du controcircle de la qualiteacute

bull Deacutefinir les modes opeacuteratoires (recopie brute corrections utilisation de logiciels avec entraicircne-ment ou non etc)

bull Choisir des formats drsquoenregistrement non proprieacutetaires respectant des normes internation-ales ou bien eacutetant des standards de fait

bull Deacutefinir un plan de nommage des fichiers voir ci-apregraves bull Toujours controcircler la qualiteacute des reacutesultats obtenus (relecture observation attentive etc)

Le cahier des charges devra au besoin preacuteciser les conditions de livraison des originaux ainsi que des copies numeacuteriseacutes les conditions drsquoassurance sur les originaux et les conditions de reacuteutilisation des donneacutees numeacuteriseacutees par le prestataire Il pourra aussi parfois ecirctre utile de preacuteciser le degreacute de confidentialiteacute agrave respecter

Le plan de nommage des fichiers numeacuteriquesUne identification claire des fichiers numeacuteriques doit ecirctre preacutepareacutee agrave la fois en preacutevision du traite-ment et pour en reacutealiser lrsquoinventaire Il y a toujours neacutecessiteacute de fournir un inventaire des fichiers

Il faut utiliser pour chaque fichier un nom unique Cela permet drsquoeacuteviter une confusion bull entre les fichiers et leurs diffeacuterentes versions bull entre les fichiers numeacuteriseacutes et les fichiers de meacutetadonneacutees (cf sect 21)

Prenons lrsquoexemple des donneacutees sonores Voici ce que recommande la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

bull Un nom unique devra ecirctre attribueacute agrave chaque document agrave numeacuteriser Par exemple XX_000001 bull Les diffeacuterentes parties (volumes bobines cassettes numeacutero de la face (cassette) nom de la

piste (CD) etc) doivent ecirctre identifieacutees en utilisant une subdivision du nom unique Par exemple XX_000001_V1_1 ou XX_000001_V1_n si n parties

bull Le nom unique doit toujours ecirctre reporteacute sur le boicirctier (srsquoil y en a un) et sur le support lui-mecircme bull Pour des volumes importants et pour la gestion ulteacuterieure des supports lrsquousage de codes

barres est souhaitable

Quelle que soit la hieacuterarchie choisie de dossiers et sous-dossiers (pour les fichiers numeacuteriseacutes ou pour les fichiers de meacutetadonneacutees) chaque fichier doit avoir un nom unique Pour eacutecrire le nom unique tous les caractegraveres ne sont pas admis

bull Il faut utiliser uniquement les lettres ahellipz et les chiffres 0hellip9 et ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

bull Le signe _ (underscore) est autoriseacute et recommandeacute pour distinguer des entiteacutes au sein du nom du fichier (mais en cas drsquoutilisation sur le web lrsquounderscore peut ecirctre confondu avec le souligne-ment propre au lien hypertexte)

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 8: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

9GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

4 Structurer

Structurer les donneacutees signifie bull Analyser et modeacuteliser bull Choisir des formats bull Les enrichir

Ce qui est deacuteterminant dans les choix de structuration des donneacutees crsquoest lrsquoexploitation qui est viseacutee En drsquoautres termes ce qui doit ecirctre expliciteacute circonscrit discreacutetiseacute est deacutetermineacute en partie par les objectifs du projet Eventuellement il y aura un compromis agrave eacutetablir entre ce que lrsquoon souhaite et le tempsles moyensles outils dont on dispose

Beaucoup de projets numeacuteriques sont fondeacutes sur lrsquoutilisation de meacutetadonneacutees Pour celles-ci il faut choisir des formats interopeacuterables ouverts fondeacutes sur des standards internationaux Il importe donc de connaicirctre les initiatives et de choisir celle(s) qui est(sont) adopteacutees aux objets numeacuteriques traiteacutes

Comme toute information textuelle les meacutetadonneacutees doivent ecirctre encodeacutees en Unicode UTF-81 Ce format garantit lrsquoaffichage de tous les caractegraveres quels qursquoils soient Lrsquoencodage en UnicodeUTF-8 ne couvre que lrsquoaspect encodage des caractegraveres crsquoest-agrave-dire principalement du contenu textuel des meacutetadonneacutees

Sauf cas particuliers les meacutetadonneacutees seront inscrites dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacutee On conservera le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees en gardant le mecircme nom de fichier agrave lrsquoextension pregraves (seuls les trois derniers caractegraveres seront diffeacuterents) Enfin on documentera les cateacutegories utiliseacutees et les ressources produites

Il faut distinguer le codage des cateacutegories de meacutetadonneacutees (standards dublin-core PREMIS OLAC MARC EAD etc) le codage de leur organisation (standard METS) du format utiliseacute pour les eacutecrire (fichiers XML)

5 Exploiter

Lrsquoexploitation des donneacutees srsquoinscrit toujours dans la probleacutematique de recherche ou la probleacutematique documentaire Elle srsquoappuie uniquement sur ce qui aura eacuteteacute structureacute

Exploiter ses donneacutees revient agrave les outiller puis agrave les utiliser et les interpreacuteter On indique ci-dessous diffeacuterentes pistes drsquoexploitations possibles Elles ne sont pas exclusives les unes des autres

a) Ouverture des donneacutees ou mise agrave la disposition de la communauteacute Par exemple bull Mise en place drsquoentrepocircts respectant le protocole OAI-PMH (cf sect 25) bull Mise en place de descriptions archivistiques de fonds (laquo instruments de recherche raquo) respectant

le standard EAD bull Documentation seacutemantique du systegraveme de balisage utiliseacute dans les fonds textuels en format

ODD pour la TEI

1 Unicode est un standard deacuteveloppeacute par le Consortium Unicode et synchroniseacute depuis 1993 sur la norme ISOIEC 10646 Unicode vise agrave donner agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique et ce de maniegravere unifieacutee quelle que soit la plateforme informatique ou le logiciel Cette norme concerne lrsquoencodage des caractegraveres et non leur visualisation qui elle a besoin drsquoune police adapteacutee Le choix drsquoUTF-8 nrsquoa pas ainsi de reacutepercussion sur la police que lrsquoon utilise pour visualiser les donneacutees agrave lrsquoeacutecran Il ne faut pas confon-dre les encodages de lrsquoUnicode (UTF-8 16 32 etc) avec les encodages drsquoautres codes comme ceux de lrsquoASCII et lrsquoISO-88591

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 9: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

10 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

bull Repreacutesentation des donneacutees sous la forme drsquoun graphe RDF (cf sect 24) et leur exposition suivant les principes du laquo web de donneacutees

b) Traitement en ingeacutenierie linguistique bull Mise agrave disposition des reacutesultats drsquoanalyses linguistiques (analyse des formes statistiques etc)

c) Construction de reacuteseaux sociauxd) GeacuteolocalisationEtc

6 Diffuser

Il importe drsquoenvisager agrave travers une strateacutegie eacuteditoriale la forme ou bien les diffeacuterentes formes que vont revecirctir la publication et la valorisation des donneacutees Site web speacutecifique espace partageacute pour une communauteacute particuliegravere ouverture agrave lrsquoensemble de la communauteacute scientifique autant de possibiliteacutes parfois non exclusives qursquoil faut preacuteciser

Barriegravere mobileLes eacutediteurs de donneacutees numeacuteriques ont mis au point la notion de barriegravere mobile lrsquoaccegraves aux donneacutees peut ecirctre diffeacutereacute dans le temps (une ou plusieurs anneacutees) Quel que soit le moment auquel on donnera accegraves aux donneacutees le respect des standards et des normes reconnus internationale-ment demeure un impeacuteratif

7 Peacuterenniser

Il importe tout drsquoabord de deacuteterminer quelle est la dureacutee drsquoutiliteacute des donneacutees pour lrsquoorganisme qui les a produites (courte moyenne ou longue) Au delagrave de cette dureacutee ougrave lrsquoorganisme qui a produit la donneacutee lrsquoutilise (exploitation scientifique par exemple) ou la garde par devers lui pour des raisons juridiques fiscales etc il convient de deacuteterminer si les donneacutees ont un inteacuterecirct historique qui justifie leur conservation deacutefinitive par une institution dont crsquoest la mission

Pendant la peacuteriode drsquoutilisation courante de la donneacutee il faut penser agrave son stockageUne sauvegarde des donneacutees laquo hors de ses murs raquo pour laquelle on veillera agrave ce que les donneacutees soient enregistreacutees de maniegravere reacuteguliegravere (x fois par y heures jours semaines) de mecircme qursquoagrave une sauvegarde sur plusieurs supports stockeacutes sur des sites diffeacuterents repreacutesentent de bonnes pratiques permettant de lutter contre les pertes accidentelles laquo Moins raquo de contraintes pegravesent sur le choix des formats et sur le codage des donneacutees si lrsquoon srsquoen tient strictement agrave du stockage sur du court terme

Par contre si lrsquoon souhaite garantir lrsquoaccegraves agrave ses donneacutees sur le laquo long raquo terme le simple stockage ne suffit pas Il faut alors passer agrave lrsquoarchivage numeacuterique agrave long terme2 ce qui neacutecessite de la gestion de la surveillance et le renouvellement des supports drsquoenregistrement mais aussi lrsquoabsence de formats proprieacutetaires et un bon codage initial des donneacutees

Pour archiver ses donneacutees agrave long terme il faut lagrave encore se conformer aux standards internationaux On recommande le modegravele OAIS (Open Archival Information System) pour la gestion et lrsquoarchivage agrave long terme

2 Lrsquoarchivage agrave long terme doit garantir que les donneacutees bien eacutevidemment agrave la condition que celles-ci respectent un certain nombre de formats seront encore accessibles dans 10 20 30 ans et plus Lire agrave ce propos le dossier consacreacute agrave la conservation des donneacutees httpwwwhuma-numfrsitesdefaultfilesressourcesdocdossier-thematique-mai2014pdf

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 10: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

11GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R1 Appliquer en deacutebut de projet la meacutethode QQOQCCP pour deacutefinir de la maniegravere la plus deacutetailleacutee qui soit tous les aspects du projet numeacuterique

R2 Organiser son projet demande de construire un cahier des charges fonctionnel et drsquoeacutetablir un planning preacutevisionnel

R3 Pour numeacuteriser des donneacutees eacutetablir des speacutecifications techniques choisir eacuteven-tuellement un prestataire controcircler la qualiteacute des reacutesultats

R4 Preacuteparer un plan de nommage Attribuer un nom unique agrave chaque document agrave numeacuteriser Utiliser uniquement les lettres ahellipz les chiffres 0hellip9 eacuteventuellement le signe _ (underscore) Ne jamais utiliser lrsquoespace ni de caractegraveres accentueacutes

R5 Pour lrsquoeacutecriture des meacutetadonneacutees a) se conformer agrave une initiative existante adapteacutee aux speacutecificiteacutes de lrsquoobjetb) eacutecrire les meacutetadonneacutees en utilisant lrsquoUnicode UTF-8c) Sauf cas particuliers inscrire les meacutetadonneacutees dans un fichier diffeacuterent de celui qui contient la donneacutee numeacuteriseacuteed) Toujours conserver le lien entre le fichier de la donneacutee numeacuteriseacutee et le fichier des meacutetadonneacutees qui lui ont eacuteteacute associeacutees (mecircme nom agrave lrsquoextension pregraves)e) Toujours documenter les cateacutegories utiliseacutees et les ressources produites

R6 Exploiter ses donneacutees en respectant les protocoles drsquoeacutechanges interopeacuterables reconnus comme standards sur le plan international

R7 Construire une strateacutegie eacuteditoriale qui offre au moins deux points de vue sur les donneacutees

R8 Mecircme si les donneacutees vont ecirctre soumises agrave une barriegravere mobile les traiter en respectant les standards et les normes reconnus internationalement

R9 Pour archiver de maniegravere peacuterenne des donneacutees se conformer au modegravele OAIS

8 Liste des recommandations

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 11: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

12 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 12: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

13GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MEacuteTADONNEacuteES HTML RDF PROTOCOLE OAI-PMH

1 Meacutetadonneacutees geacuteneacuteraliteacutes

Les meacutetadonneacutees sont des donneacutees qui deacutecrivent drsquoautres donneacutees La notion de meacutetadonneacutee renvoie dans les faits agrave des eacuteleacutements et agrave des notions de nature diffeacuterente

Avant lrsquoegravere du numeacuterique les documents des bibliothegraveques eacutetaient deacutecrits agrave lrsquoaide de notices bibli-ographiques dans lesquelles on identifiait les auteurs les eacutediteurs les titres les dates de parution etc Ces notices eacutetaient utiles tant aux bibliotheacutecaires pour la gestion de leur fonds qursquoaux usagers pour retrouver un ouvrage Agrave ces notices eacutetaient accoleacutes des laquo descripteurs raquo soit des mots-cleacutes chargeacutes de speacutecifier le contenu des documents

Avec lrsquoegravere du numeacuterique les notices se sont informatiseacutees et normaliseacutees Dans le domaine de lrsquoinformatique documentaire les meacutetadonneacutees correspondent maintenant aussi bien aux eacuteleacutements des notices bibliographiques (auteur titre eacutediteur etc) qursquoaux descripteurs (mots-cleacutes) Les docu-ments identifieacutes par les notices sont deacutesormais appeleacutes laquo ressources raquo

En parallegravele depuis plusieurs anneacutees srsquoest deacuteveloppeacute sous lrsquoimpulsion du Web un langage de struc-turation de lrsquoinformation utilisant des balises le XML1 Ce langage permet de deacutecrire un document de speacutecifier drsquoajouter de cateacutegoriser des informations agrave celui-ci On utilise alors une suite de caractegraveres deacutelimiteacutee par des chevrons par exemple ltExemple_balisegt qui encadre une laquo information raquo

Avec le RDF (Resource description framework) soutenu par le W3C (organisme international geacuterant les eacutevolutions du web) le mode de repreacutesentation change Il ne srsquoagit plus ici drsquoannoter drsquoajouter des informations puis de les interpreacuteter mais plutocirct de structurer cette description ndash qui est toujours une annotation interpreacutetative ndash dans un langage qui ne connaicirct qursquoune structure simple le triplet laquo sujet-objet-preacutedicat raquo cette structure pouvant ecirctre repreacutesenteacute par un graphe La repreacutesentation contient en elle-mecircme son propre systegraveme drsquointerpreacutetation (qui est ici fondeacute sur une adaptation de la logique des preacutedicats du 1er ordre)

Par la suite on distinguera bull les meacutetadonneacutees techniques qui sont des meacutetadonneacutees lieacutees agrave la techniciteacute associeacutee agrave la

numeacuterisation de la donneacutee (par exemple le temps drsquoexposition drsquoune photo) bull les meacutetadonneacutees descriptives ou documentaires qui sont des meacutetadonneacutees qui renvoient agrave la

probleacutematique de recherche ou documentaire agrave lrsquoutilisation des donneacutees agrave leur administration etc

bull les meacutetadonneacutees geacuteneacuteriques qui sont des meacutetadonneacutees qui srsquoappliquent agrave nrsquoimporte quel type drsquoobjet numeacuteriseacute

bull le scheacutema qui est un ensemble de balises (rubriques) preacutedeacutefinies

Dans le cas de XML (Extensible Markup Language) la deacutefinition drsquoun scheacutema est assez similaire agrave la deacutefinition des champs dans une table de base de donneacutees XML peut ecirctre consideacutereacute comme lrsquoune des faccedilons de mettre en forme la structuration de lrsquoinformation dans les champs

En sect 22 on deacutecrit des meacutetadonneacutees ou des scheacutemas de meacutetadonneacutees geacuteneacuteriques Les meacutetadon-neacutees dont lrsquoutilisation est speacutecifique agrave un type drsquoobjet numeacuterique seront introduites dans la section qui lui est consacreacutee

1 laquo eXtensible Markup Language raquo (XML) est une recommandation du W3C qui prend sa source dans la norme SGML (ISO 88791986)

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 13: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

14 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques

21 Le Dublin Core

En 1995 agrave Dublin (Ohio) des repreacutesentants issus du monde des bibliothegraveques de lrsquoinformatique et du web se sont reacuteunis pour deacutefinir un noyau commun de meacutetadonneacutees le Dublin Core Metadata Initiative (DCMI) abreacutegeacute souvent en Dublin Core ou encore DC

Le Dublin Core est un ensemble de 15 descripteurs de porteacutee tregraves large et de sens tregraves geacuteneacuterique Certains ont trait au contenu drsquoautres agrave la proprieacuteteacute intellectuelle drsquoautres enfin agrave lrsquoinstanciation Cet ensemble de descripteurs a eacuteteacute normaliseacute au sein de lrsquoISO en 2003 sous le nom drsquoISO Standard 15836-2003

Les 15 descripteurs sont les suivants bull Contributor (diffuseur de la ressource) bull Coverage (couverture geacuteographique ou temporelle de la ressource) bull Creator (auteur de la ressource) bull Date (eacuteveacutenement dans la vie de la ressource) bull Description bull Format (format mime dimension physique dureacutee de la ressource) bull Identifier (identifiant unique de la donneacutees URL DOI ndeg ID etc) bull Language (normaliseacute selon lrsquoISO 639 par exemple) bull Publisher (eacutediteur) bull Relation (lien vers drsquoautres ressources) bull Rights bull Source bull Subject bull Title bull Type (nature descriptive de la donneacutees eacuteveacutenement corpus fonds de chercheurs film image

photo etc cf httpdublincoreorgdocumentsdcmi-typevocabulary)

Ces eacuteleacutements de base peuvent dans certains cas ecirctre insuffisamment preacutecis Il est alors possible drsquoen utiliser drsquoautres Ce sont les qualifieurs (qualifiers) qui preacutecisent lrsquoacception Deux ensembles de qualifieurs ont eacuteteacute proposeacutes

1 Les raffineurs (refinements) qui preacutecisent le sens drsquoun eacuteleacutement Par exemple agrave la place de lrsquoeacuteleacutement laquo Date raquo il est possible drsquoutiliser un de ces raffineurs Created Valid Available Issued Modified DateAccepted DateCopyrighted DateSubmitted

2 Les scheacutemas drsquoencodage et les vocabulaires controcircleacutes Par exemple le scheacutema laquo Point raquo qui permet de deacutefinir les proprieacuteteacutes drsquoun point geacuteographique (coordonneacutees longitude latitude altitude reacutefeacute-rentiel nom)

Le Dublin Core peut servir de base au Dublin Core dit qualifieacute dans lequel il est possible de typer les meacutetadonneacutees en utilisant les types de donneacutees proposeacutes par le DCMI ou ses propres types de donneacutees deacutefinis dans un scheacutema XML

22 Le scheacutema METS

Deacuteveloppeacute agrave lrsquoinitiative de la Digital Library Federation et maintenu par la Library of Congress METS (Metadata Encoding and Transmission Standard) est destineacute agrave faciliter la gestion la preacuteservation et lrsquoeacutechange drsquoobjets numeacuteriques entre plusieurs institutions Le scheacutema METS peut ecirctre utiliseacute dans le

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 14: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

15GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

modegravele OAIS (Open Archival Information System)

Crsquoest un scheacutema de structuration pour lrsquoencodage et la transmission de meacutetadonneacutees lieacutees agrave des objets numeacuteriques textuels ou graphiques Il permet leur caracteacuterisation physique et logique Exprimeacute sous la forme drsquoun scheacutema XML il encapsule dans un mecircme fichier toutes les donneacutees lieacutees agrave cet objet a) Une description de la structure hieacuterarchique de lrsquoobjet b) Les noms et la localisation des fichiers qui le composent c) Lrsquoensemble des meacutetadonneacutees associeacutees aux fichiers (descriptives techniques administratives et structurelles) d) Un jeu de pointeurs permettant de faire un lien entre les diffeacuterents fichiers et eacuteleacutements de meacutetadonneacutees

Un fichier qui respecte le scheacutema XML METS est structureacute en sept sections 1 En-tecircte METS (METS header ltmetsHdrgt) informations sur le document METS lui-mecircme (statut du document date de creacuteation et de derniegravere modification etc)2 Meacutetadonneacutees descriptives (Description Metadata Section ltdmdSecgt) cette section contient les meacutetadonneacutees descriptives de lrsquoobjet principal et eacuteventuellement celles des ressources qui le constituentExemple un fichier METS deacutecrit un fonds drsquoestampes On peut agrave la fois deacutecrire le fonds dans une section de meacutetadonneacutees descriptives et avoir autant de sections qursquoil y a drsquoestampesCes meacutetadonneacutees descriptives peuvent ecirctre internes ou externes au documentLes meacutetadonneacutees internes sont encapsuleacutees gracircce agrave lrsquoeacuteleacutement conteneur ltmdWrapgt Pour les meacuteta-donneacutees externes on utilise lrsquoeacuteleacutement ltdmdSecgt qui fournit une URI permettant de reacutecupeacuterer ces meacutetadonneacutees externes3 Meacutetadonneacutees administratives (Administrative Metadata Section ltamdSecgt) cette section regroupe les meacutetadonneacutees techniques les meacutetadonneacutees de gestion des droits les meacutetadonneacutees concernant lrsquoobjet original (source analogique dont lrsquoobjet numeacuterique est deacuteriveacute) ainsi que les meacuteta-donneacutees deacutecrivant les relations entre lrsquoobjet original et lrsquoobjet numeacuterique et le processus de transfor-mation Elles peuvent ecirctre externes au document ou y ecirctre encapsuleacutees4 Section des fichiers (File Section ltfileSecgt) cette section permet drsquoindiquer le nom et la localisa-tion de chaque fichier Elle comprend un ou plusieurs eacuteleacutements ltfileGrpgt qui permettent de rassem-bler des fichiers par groupe de mecircme nature et subdiviser les fichiers par version de lrsquoobjet5 Carte de structure (Structural Map ltstructMapgt) la carte de structure indique la hieacuterarchie physique ou logique des objets et permet de naviguer dans le document Gracircce au systegraveme de poin-teurs elle permet de relier chaque eacuteleacutement de cette structure aux fichiers et aux meacutetadonneacutees qui srsquoy rapportent6 Liens structurels (Structural Map Linking ltstructLinkgt) cette section permet drsquoindiquer lrsquoexistence drsquohyperliens entre diffeacuterents eacuteleacutements de la carte de structure7 Comportement (Behaviour section ltbehaviourSecgt) cette section associe les exeacutecutables destineacutes au traitement et agrave lrsquoexeacutecution de lrsquoobjet

METS seacutepare les diffeacuterents types de meacutetadonneacutees ce qui permet drsquoorganiser et de relier les objets deacutecrits dans diffeacuterentes sections indeacutependamment de la structure globale retenue Les diffeacuterentes sections qui correspondent agrave un mecircme objet sont relieacutees par un systegraveme drsquoidentifiants et de reacutefeacute-rences aux identifiants

Par ailleurs il propose un systegraveme drsquoenveloppes (mdWrap) qui permettent de renseigner les meacuteta-donneacutees descriptives ou administratives dans le format XML le plus adapteacute il est possible de deacutecrire lrsquoobjet principal et les objets qui le constituent dans diffeacuterents formats de meacutetadonneacutees existants Ce systegraveme offre ainsi une grande souplesse pour utiliser les formats de meacutetadonneacutees les mieux adapteacutes agrave ses besoins

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 15: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

16 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 HTML

Pour afficher des contenus sur un site Web HTML (Hypertext Markup Language) peut constituer une solution minimale tout agrave fait utile Crsquoest un format standard interopeacuterable deacuteriveacute de SGML (Standard Generalized Markup Language) Il est constitueacute drsquoun ensemble de balises qui rendent compte drsquoun certain nombre drsquoaspects formels du texte (titre paragraphe attributs de police de caractegraveres etc)

Un fichier HTML est constitueacute drsquoun en-tecircte et drsquoun corps Lrsquoen-tecircte rassemble les informations lieacutees au document notamment son titre et les diffeacuterentes meacutetadonneacutees que lrsquoon aura entreacutees Le corps repreacutesente ce qui est afficheacute Le W3C deacuteveloppe actuellement le HTML 5 cinquiegraveme eacutevolution du langage incluant des fonctions multimeacutedia directement disponibles dans le code (streaming audio et videacuteo par exemple) mais la compatibiliteacute avec lrsquoensemble des navigateurs nrsquoest pas complegravete

4 Le RDF

Mis au point au W3C dans le cadre des activiteacutes du Web seacutemantique le modegravele RDF est un modegravele de repreacutesentation des donneacutees Ce nrsquoest pas un scheacutema de meacutetadonneacutees Il permet de deacutecrire de maniegravere formelle tout type de donneacutees afin drsquoen faciliter lrsquoexploitation et le traitement automatique

Le modegravele de repreacutesentation de donneacutees RDF repose sur trois concepts 1 ressource tout objet (livre personne billet de blog etc) deacutecrit en RDF est une ressource identifieacutee et nommeacutee par une URI (Uniform Resource Identifier)2 proprieacuteteacute qualiteacute particulariteacute relation speacutecifique pouvant ecirctre appliqueacutee agrave la ressource pour la deacutecrire3 objet valeur de la proprieacuteteacute cela peut ecirctre une autre ressource exprimeacutee par une URI ou un litteacuteral (un litteacuteral est une chaicircne de caractegraveres dont on peut speacutecifier eacuteventuellement la langue)

Toute donneacutee est ainsi deacutecrite par ce type de deacuteclaration simple composeacutee drsquoun sujet (ressource) drsquoun preacutedicat (proprieacuteteacute) et drsquoun objet Le sujet le preacutedicat et lrsquoobjet forment ce qursquoon appelle un triplet RDF

On indique ci-dessous quelle est la repreacutesentation en RDF de la phrase suivante le site web de la TGIR Huma-Num a pour mot-cleacute laquo digital humanities raquo

bull Sujet (ressource) le site web de la TGIR Huma-Num = httpwwwhuma-numfr bull Preacutedicat (proprieacuteteacute) mot-cleacute = httppurlorgdctermssubject bull Objet laquo digital humanities raquo = laquo digital humanities raquo

Un ensemble de triplets relieacutes entre eux constitue un graphe RDF il est composeacute de diffeacuterents noeuds correspondant aux sujets et aux objets des triplets

Diffeacuterents vocabulaires peuvent ecirctre utiliseacutes pour qualifier des donneacutees en RDF bull RDFS (RDF Schema) bull OWL (Web Ontology Language) bull Dublin Core bull etc

Plusieurs syntaxes sont eacutegalement possibles pour formaliser du RDF bull XML bull N3 bull N-triples bull Turtle bull RDFa (syntaxe utiliseacutee pour la description des donneacutees drsquoune page web)

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 16: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

17GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

De nombreux langages de requecirctes permettant drsquointerroger des graphes RDF sont eacutegalement disponibles mais le langage drsquointerrogation SPARQL (qui est recommandeacute par le W3C) devient preacutedominant

5 Le protocole OAI-PMH

LrsquoOAI-PMH (Open Archive Initiative - Protocol for Metadata Harvesting) est un protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct numeacuterique Il a eacuteteacute mis au point en 1999 par lrsquoOpen Archives Initiative pour faciliter lrsquoeacutechange et la visibiliteacute des donneacutees stockeacutees dans les archives ouvertes (des entrepocircts drsquoarticles scientifiques mis agrave disposition par les chercheurs eux-mecircmes) Il srsquoest peu agrave peu diffuseacute dans drsquoautres domaines du fait de sa simpliciteacute et de la disponibiliteacute de nombreux outils

Ce protocole est particuliegraverement utile dans le cas des bases de donneacutees Si drsquoun cocircteacute les donneacutees contenues dans ces bases peuvent ecirctre afficheacutees dynamiquement dans des pages web faire lrsquoobjet de requecirctes particuliegraveres etc il est toujours souhaitable de les dupliquer et de les rassembler dans un entrepocirct Quand cet entrepocirct est muni de meacutetadonneacutees respectant le protocole OAI-PMH on assure lrsquointeropeacuterabiliteacute et par suite le moissonnage par des moteurs de recherche

Le protocole OAI-PMH implique ainsi deux acteurs - Le fournisseur de donneacutees (data provider) qui expose gracircce agrave une interface Web speacutecifique les meacutetadonneacutees des diffeacuterents enregistrements contenus dans son entrepocirct- Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepocircts en utilisant les interfaces exposeacutees par le fournisseur de donneacutees afin drsquooffrir aux utilisateurs des interfaces de recherche ou de navigation

La plateforme ISIDORE (httprechercheisidorefr) initieacutee par Huma-Num comme drsquoautres moteurs de recherche1 pourront ainsi moissonner les meacutetadonneacutees exposeacutees selon le standard OAI-PMH

Dans un entrepocirct OAI-PMH chaque ressource stockeacutee correspond agrave une notice ou encore laquo enreg-istrement raquo (ou laquo record raquo) Chaque notice ou enregistrement est obligatoirement deacutecrit agrave lrsquoaide de meacutetadonneacutees respectant a minima le Dublin Core simple Il est possible de deacutecrire les meacutetadonneacutees en plus du Dublin Core simple agrave lrsquoaide de vocabulaires plus riches DC Terms MODS OLAC etc

Ces enregistrements peuvent ecirctre rassembleacutes en diffeacuterents ensembles (laquo set raquo) et un enregis-trement peut appartenir agrave plusieurs ensembles Les diffeacuterents ensembles peuvent ecirctre organiseacutes hieacuterarchiquement

Par exemple on peut avoir des objets particuliers (des descriptions de photographies) qui sont regroupeacutes dans un ensembleset (toutes les photographies drsquoun photographe particulier)

Les diffeacuterents formats de meacutetadonneacutees utiliseacutes par lrsquoentrepocirct celles publieacutees en Dublin Core simple comme les autres sont accessibles au moissonneur gracircce agrave une requecircte speacutecifique

6 Les ressources

Dublin Core httpdublincoreorg

Dublin Core - Informations sur les 15 descripteurs httpdublincoreorgdocumentsdces

METS httpwwwlocgovstandardsmets

METS - Scheacutemas http wwwlocgovstandardsmetsmets-schemadocshtml

METS - Liste drsquooutils deacutedieacutes http wwwlocgovstandardsmetsmets-toolshtml

1 OAIster (httpwwwoclcorgoaister) Driver-Community (httpwwwdrivercommunityeu) etc

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 17: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

18 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

MODS httpwwwlocgovstandardsmods

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

RDF httpwwww3orgRDF

RDF - Liste drsquooutils deacutedieacutes et classeacutes par cateacutegories httpwwww3org2001swwikiCategoryTool

Unicode httpwwwunicodeorg

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 18: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

19GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES BASES DE DONNEacuteES

1 Geacuteneacuteraliteacutes

Une base de donneacutees du point de vue des humaniteacutes numeacuteriques doit ecirctre consideacutereacutee comme un reacuteservoir organiseacute de donneacutees dont on affiche une ou plusieurs laquo vues raquo agrave un instant T

Les laquo vues raquo peuvent ecirctre constitueacutees par les donneacutees laquo brutes raquo etou par les meacutetadonneacutees qui y ont eacuteteacute associeacutees Les vues sont afficheacutees par diffeacuterents moyens

bull via une eacutedition eacutelectronique statique par exemple un fichier en format pdf bull via une eacutedition en flux drsquoinformation bull via une interface web de recherche

Dans les deux derniers cas on parle drsquoeacutedition dynamique des donneacutees

Avec le numeacuterique et lrsquoobsolescence des formats la dureacutee plus courte des projets de recherche une reacuteflexion approfondie doit ecirctre conduite degraves lors qursquoon souhaite mettre agrave disposition dans un avenir plus ou moins proche ses donneacutees agrave lrsquoensemble de la communauteacute

La reacuteflexion doit donc inclure AU TOUT DEBUT DU PROJET un travail permettant drsquoavoir une ideacutee claire sur la peacuterennisation des donneacutees que lrsquoon traite Dans un tel cadre lrsquoeacutedition drsquoune base de donneacutees ne peut se limiter agrave lrsquoeacutedition drsquoun formulaire de recherche et agrave lrsquoeacutelaboration drsquoune maquette graphique

Lrsquoapplication drsquoune meacutethodologie de projets lieacutee aux objets numeacuteriques est ici aussi neacutecessaire et il faudra veiller particuliegraverement

bull agrave lrsquoutilisation de standards internationaux pour le codage des donneacutees bull agrave lrsquoutilisation de formats laquo ouverts raquo

Il existe bien eacutevidemment drsquoautres bases de donneacutees qui nrsquoont pas vocation agrave ecirctre eacutediteacutees des bases de donneacutees laquo personnelles raquo pour organiser la recherche en train de se faire Cependant il importe de noter que bon nombre de ces projets eacutevoluent tregraves souvent vers des projets drsquoeacutedition et de mise agrave disposition des donneacutees agrave lrsquoensemble de la communauteacute

Dans ce cas quand on a choisi au deacutepart un format proprieacutetaire (qui se justifiait donc dans le cadre du projet de deacutepart) tregraves souvent le chercheur doit refaire dans un autre format ce qui a deacutejagrave eacuteteacute fait Cet investissement consideacutereacute sous un angle strictement technique est souvent jugeacute trop oneacutereux et ininteacuteressant La conseacutequence en est que des donneacutees seront effectivement mises agrave disposition de la communauteacute maishellip pour un temps a priori tregraves limiteacute Et la peacuterennisation des donneacutees ne sera en aucun cas assureacutee

Aussi on recommande de choisir des formats ouverts (non proprieacutetaires) respectant des standards internationaux y compris pour les bases de donneacutees laquo personnelles raquo

2 Les meacutetadonneacutees

Une base de donneacutees ayant vocation agrave stocker et agrave organiser des donneacutees de diffeacuterentes natures (taille format etc) on se reportera aux chapitres consacreacutes aux diffeacuterents types de donneacutees

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 19: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

20 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Lrsquoentrepocirct

Des donneacutees numeacuteriseacutees peuvent ecirctre manipuleacutees agrave travers une base de donneacutees compatible par exemple avec le langage de requecirctes SQL Cependant pour que cette base de donneacutees puisse ecirctre moissonnable par des moteurs de recherche on recommande de transformer ces bases de donneacutees en entrepocirct de donneacutees

Cela entraicircne de nouvelles tacircches deacutefinir les objets que lrsquoon va consideacuterer comme des laquo ressources raquo de lrsquoentrepocirct (cf sect 25) eacutetablir une correspondance entre des champs de la base et des rubriques du Dublin Core et eacuteventuellement drsquoautres scheacutemas de meacutetadonneacutees impleacutementation des fonctions utiles au protocole OAI-PMH etc)

Lrsquoentrepocirct de donneacutees doit ecirctre construit en respectant le protocole OAI-PMH (cf sect 25) Agrave chaque eacuteleacutement de la base de donneacutees il faudra associer des meacutetadonneacutees qui seront exprimeacutees en Dublin Core simple soit un jeu de 15 meacutetadonneacutees suppleacutementaires

4 Liste des recommandations

R10 Pour les bases de donneacutees y compris les bases de donneacutees laquo personnelles raquo choisir des formats ouverts reconnus internationalement

R11 Transformer sa base de donneacutees en entrepocirct de donneacutees

R12 Pour un entrepocirct de donneacutees utiliser le protocole OAI-PMH et entrer les meacuteta-donneacutees en utilisant le Dublin Core simple

5 Les ressources

OAI-PMH httpwwwopenarchivesorgOAIopenarchivesprotocolhtml

Open Archives Initiative httpwwwopenarchivesorg

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 20: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

21GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

1 Les donneacutees

Les donneacutees textuelles recouvrent aussi bien des textes laquo bruts raquo que des textes structureacutes et ce quelle que soit leur structure formelle narrative etc romans poegravemes en vers piegraveces de theacuteacirctre interviews transcriptions de conversations lettres listes de mots dictionnaires etc Ces textes peuvent ecirctre inteacuteressants aussi bien du point de vue de leur contenu que du point de vue des aspects linguistiques qursquoils comportent

2 La numeacuterisation

Mise en place drsquoune chaicircne de traitementOn met en place une chaicircne de traitement qui doit ecirctre adapteacutee agrave chaque format En effet on ne numeacuterise pas de la mecircme maniegravere un manuscrit meacutedieacuteval une collection drsquoouvrages relieacutes etc

CaptationOn effectue la captation du texte via une laquo image fixe raquo En drsquoautres termes on numeacuterise en format image la page drsquoun ouvrage la feuille drsquoun manuscrit etc Pour plus drsquoinformations on se reportera agrave la section 5

Application drsquoun logiciel de reconnaissance optique de caractegraveres logiciel OCR oceacuterisationSelon les besoins on peut utiliser un logiciel de reconnaissance automatique de caractegraveres Ce programme permet de transformer le contenu de lrsquoimage en un texte eacuteditableLrsquo laquo oceacuterisation raquo est pertinente

bull quand on a de gros volumes de donneacutees agrave traiter bull si la qualiteacute de lrsquooriginal le permet bull si la langue des donneacutees textuelles est reconnue par le logiciel OCR bull dans le cas drsquoune eacutecriture manuscrite si celle-ci est laquo facilement raquo deacutechiffrable

Il existe des programmes OCR comportant des modules drsquoentraicircnement On peut alors tester et entraicircner le logiciel sur une petite partie du corpus puis deacutecider en fonction des reacutesultats de lrsquoutiliser sur lrsquoensemble du corpus

LES DONNEacuteES TEXTUELLES

Attention

Dans tous les cas crsquoest-agrave-dire quels que soient les volumes traiteacutes le logiciel OCR retenu (avec ou sans entraicircnement) relire attentivement le reacutesultat de lrsquolaquo oceacuterisa-tion raquo

Le format laquo texte seul raquo avec lrsquoencodage UTF-8Pour du texte sans mise en page il est recommandeacute drsquoutiliser le format laquo texte-seul raquo avec lrsquoencodage UTF-8

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 21: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

22 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Il existe de nombreuses maniegraveres drsquoexploiter et drsquoafficher des donneacutees textuelles simple exposi-tion dans un environnement de site web qualification sophistiqueacutee des diffeacuterents eacuteleacutements des laquo textes raquo analyse automatique du corpus extraction de donneacutees etc De plus les mecircmes donneacutees textuelles peuvent ecirctre exploiteacutees de diffeacuterentes faccedilons Tout deacutepend de la probleacutematique de recherche des reacutesultats auxquels on souhaite arriver des reacutesultats que lrsquoon souhaite exposer etc

Si lrsquoexploitation des donneacutees recourt agrave des meacutetadonneacutees il faut impeacuterativement bull Choisir pour les meacutetadonneacutees un format structureacute et construit bull Accoler agrave ce format un modegravele de donneacutees etou une documentation sur les diffeacuterentes cateacute-

gories creacuteeacutees

Le modegravele de donneacutees etou la documentation des diffeacuterentes cateacutegories sont essentiels car ils garantissent le fait que les donneacutees pourront encore ecirctre exploiteacutees eacuteventuellement par drsquoautres dans les anneacutees qui viennent

Le modegravele de donneacutees le plus couramment utiliseacute est le format XML qui est un standard inter-national Les meacutetadonneacutees exprimeacutees dans ce format suivent un scheacutema preacutedeacutefini qui deacutefinit les regravegles concernant lrsquousage des balises

Parmi les modegraveles de donneacutees respectant le format XML on trouve bull Metadata Encoding and Transmission Standard (METS) bull Hypertext Markup Language (HTML) bull Text Encoding Initiative (TEI)

Pour METS et HTML on se reportera au sect 22 et au sect 3 On preacutesente ci-dessous la TEI modegravele que lrsquoon recommande quand on souhaite structurer (et par la suite analyser exploiter exposer etc) des donneacutees textuelles

4 La TEI (text encoding initiative)

La TEI a eacuteteacute lanceacutee sur le plan international comme projet de recherche en 1987 Depuis 2000 sa gestion et son eacutevolution sont supporteacutees par un consortium agrave but non lucratif Un Conseil Technique TEI est chargeacute de lrsquoameacutelioration du modegravele et de ses aspects techniques

La TEI fournit un modegravele tregraves riche de composants pour tous les types de textes On peut ainsi choisir ceux qui seront pertinents dans le cadre du projet scientifique Ces composants devront ecirctre articuleacutes dans un scheacutema

Plus souples qursquoun scheacutema XML classique les laquo TEI Guidelines raquo qui en sont agrave leur cinquiegraveme version (P5)1 proposent un ensemble de recommandations particuliegraveres rassembleacutees dans des modules distincts Elles comprennent essentiellement des indications sur la structure seacutemantique du contenu textuel et une documentation formelle des balisages employeacutes Ces recommandations peuvent ecirctre adapteacutees en fonction de besoins particuliers

Le systegraveme est largement utiliseacute en sciences humaines et sociales ougrave une communauteacute tregraves large et active se charge de son eacutevolution et de son exploitation pour lrsquoeacutedition des sources primaires (manu-scrits documents historiques etc) les ressources lexicales et linguistiques (dictionnaires corpus etc) les textes litteacuteraires et politiques etc

1 Voir httpwwwtei-corgGuidelines

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 22: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

23GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R13 Pour garantir le bon codage de tous les caractegraveres choisir le codage UTF-8

R14 Pour la structuration des donneacutees textuelles utiliser la TEI Suivre les laquo TEI Guidelines raquo les adapter agrave son corpus et documenter ses choix

6 Les ressources

Centre de ressources numeacuteriques CNTRL (Centre national de ressources textuelles et lexicales) httpwwwcnrtlfr

Centre de ressources numeacuteriques TELMA (Traitement eacutelectronique des manuscrits et des archives) httpwwwcn-telmafr

METS httpwwwlocgovstandardsmets

TEI httpwwwtei-corg

5 Liste des recommandations

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 23: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

24 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 24: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

25GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I - LES IMAGES FIXES

1 Les donneacutees

Les donneacutees iconographiques - images fixes recouvrent aussi bien bull des photographies diapositives neacutegatifs tirages positifs photos numeacuteriques bull des documents visuels fixes documents 2D numeacuteriseacutes illustrations plans croquis dessins

cartes anciennes ou plus reacutecentes (agrave lrsquoexclusion des cartes construites automatiquement agrave partir de coordonneacutees et donneacutees geacuteographiques)

Elles rassemblent donc des donneacutees nativement numeacuteriques et des donneacutees non numeacuteriques au deacutepart et que lrsquoon aura numeacuteriseacutees

Images matricielles et images vectoriellesSur un plan technique on distingue

bull les images matricielles ou laquo bitmap raquo ou laquo raster raquo bull les images vectorielles laquo images orienteacutees objet raquo

Les images matricielles prennent la forme drsquoune grille - ou matrice - ougrave chaque laquo eacuteleacutement drsquoimage raquo (pixel) a un emplacement unique dans la matrice et une valeur de couleur indeacutependante chacune de ces valeurs peut ecirctre modifieacutee indeacutependamment

Les images vectorielles fournissent un ensemble drsquoinstructions matheacutematiques utiliseacutees par un programme de dessin pour construire une image

Des logiciels tel que Photoshop ou Gimp creacuteent et lisent en regravegle geacuteneacuterale des images matricielles alors qursquoIllustrator creacutee et lit des images dites vectorielles Les images vectorielles peuvent ecirctre converties en images matricielles Lrsquoinverse nrsquoest que difficilement possible et implique le plus souvent la reprise du dessin agrave la main dans un eacutediteur

2 La numeacuterisation

En geacuteneacuteral le processus de numeacuterisation geacutenegravere une image matricielle les images vectorielles eacutetant le plus souvent le produit drsquoun logiciel de dessin

Les diffeacuterents choix qui doivent srsquoopeacuterer lors de la numeacuterisation sont fonction du document de son format du rendu tout comme de lrsquousage ulteacuterieur que lrsquoon souhaite faire ensuite du fichier

Pour les images matricielles deux eacuteleacutements doivent ecirctre pris en consideacuteration le format de fichier et les paramegravetres de qualiteacute De maniegravere geacuteneacuterale les images doivent ecirctre creacuteeacutees agrave la meilleure reacutesolu-tion possible et agrave la profondeur de bits la plus eacuteleveacutee possible mais en veillant agrave ce que les fichiers obtenus soient pratiques et maniables en fonction des utilisations envisageacutees

21 Le format de fichier

Les images matricielles peuvent ecirctre creacuteeacutees et enregistreacutees sous lrsquoun des formats suivants Tagged Image File Format (TIFF) Portable Network Graphics (PNG) Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEGSPIFF)

Il importe par ailleurs de creacuteer toujours deux jeux de donneacutees lrsquoun sera utiliseacute pour la conservation

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 25: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

26 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

et lrsquoarchivage lrsquoautre sera exploiteacute dans le cadre du web Dans le premier cas la numeacuterisation devra ecirctre effectueacutee sans compression donc sans perte On recommande alors le format TIFF Dans le second cas il pourra y avoir compression agrave la condition cependant que la qualiteacute reste maximale On recommande alors le format JPEG

Il est possible de creacuteer le premier jeu au format TIFF puis drsquoutiliser un logiciel comme mogrify (httpwwwimagemagickorg) pour creacuteer un second jeu drsquoimages

22 Paramegravetres de qualiteacute

La seacutelection des paramegravetres de qualiteacute lors de la numeacuterisation drsquoune ressource est deacutetermineacutee par la taille de lrsquooriginal la quantiteacute de deacutetails preacutesents dans lrsquooriginal et les utilisations preacutevues de lrsquoimage numeacuterique Doivent ecirctre prises en compte

a) La reacutesolution spatialeLa reacutesolution spatiale eacutetablit la freacutequence avec laquelle des eacutechantillons de lrsquooriginal sont captureacutes par le dispositif de numeacuterisation Elle est exprimeacutee sous la forme drsquoun nombre drsquoeacutechantillons par pouce (spi) ou plus communeacutement sous la forme de pixels par pouce (ppp dans lrsquoimage numeacuterique qui en reacutesulte) Il srsquoagit lagrave de la densiteacute drsquoinformation enregistreacutee par uniteacute de surface Plus cette densiteacute est haute plus lrsquoimage numeacuteriseacutee sera de bonne qualiteacute La densiteacute pour les pages web est normale-ment de 72 ppp Lrsquoimpression se sert normalement de densiteacute oscillant entre 300 et 600 ppp

b) La reacutesolution des couleurs ou profondeur de bitsLe nombre de couleurs (ou de niveaux de luminositeacutegris) disponibles pour repreacutesenter diffeacuterentes couleurs (ou tons de gris) dans lrsquooriginal est exprimeacute en nombre de bits Par exemple une reacutesolution de couleurs de 8 bits signifie que 256 couleurs diffeacuterentes sont disponibles

Le choix de la profondeur de bits deacutepend du support de deacutepart numeacuteriser une diapositive de 35mm exige une reacutesolution plus eacuteleveacutee que celle drsquoune lithographie de 6x4 car la diapositive est plus petite et plus deacutetailleacutee Si lrsquoune des utilisations de lrsquoimage drsquoune aquarelle requiert de pouvoir analyser drsquoinfimes deacutetails de coups de pinceaux la reacutesolution doit ecirctre plus eacuteleveacutee que pour le seul affichage de lrsquoimage agrave lrsquoeacutecran

Attention

Plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus le fichier sera lourd agrave manipuler Cependant plus la qualiteacute de lrsquoimage numeacuteriseacutee est grande plus lrsquoimage pourra ecirctre agrandie sans que lrsquoon perde en qualiteacute visuelle

Agrave titre drsquoexemple une reacutesolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits agrave eacutechelle de niveaux de gris devraient ecirctre envisageacutees pour les impressions photographiques Une reacutesolution de 2400 ppp devrait ecirctre appliqueacutee pour des diapositives de 35 mm afin de capturer la plus grande densiteacute drsquoinformations

Dans certains cas par exemple lors de lrsquoutilisation drsquoappareils photo numeacuteriques de moindre qualiteacute les images peuvent ecirctre stockeacutees sous un format JPEGSPIFF comme alternative au format TIFF Les images seront alors plus petites et de plus basse qualiteacute De telles images peuvent ecirctre utiles pour la preacutesentation de photographies drsquoeacuteveacutenements pour un site internet Mais lrsquoutilisation de tels appareils photos nrsquoest pas recommandeacutee pour une numeacuterisation agrave grande eacutechelle

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 26: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

27GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 Les meacutetadonneacutees

Sans meacutetadonneacutees une image numeacuterique est vierge de toute information Il est impossible de deacuteter-miner quel en a eacuteteacute le contexte de production (auteur lieu date etc) et de ce fait lrsquoimage reste inex-ploitable Il est donc neacutecessaire drsquointeacutegrer dans le document un certain nombre drsquoinformations ndash des meacutetadonneacutees - qui pourront ensuite ecirctre exploiteacutees dans la chaicircne de production en aval (reacutecupeacutereacutees lors de la creacuteation de bases de donneacutees moissonneacutees par des moteurs de recherche etc)

31 Meacutetadonneacutees techniques

Pour les photos numeacuteriques un certain nombre de meacutetadonneacutees sont automatiquement geacuteneacutereacutees par les appareils photographiques eux-mecircmes et contenues dans le fichier image lui-mecircme Ce sont ce qursquoon appelle des meacutetadonneacutees techniques Elles concernent les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques Ces meacutetadonneacutees peuvent ecirctre afficheacutees eacutediteacutees ou extraites gracircce agrave des logiciels libres

Ces meacutetadonneacutees nrsquoont pas vocation agrave ecirctre transformeacutees certains eacuteleacutements pouvant mecircme ecirctre endommageacutes en cas de modification Crsquoest pourquoi on recommande drsquoeacutetablir un autre jeu de meacuteta-donneacutees Ce seront des meacutetadonneacutees descriptives

32 Les meacutetadonneacutees techniques les EXIF

EXIF est une speacutecification de format de fichier pour les images utiliseacutees par les appareils photographiques numeacuteriques Elle a eacuteteacute eacutetablie par le Japan Electronic Industry Development Association (JEIDA) La derniegravere version 23 a eacuteteacute publieacutee en avril 2010

Le format EXIF bien que nrsquoeacutetant pas eacutetabli par une organisation internationale de standardisation reste un format incontournable puisque la majoriteacute des constructeurs drsquoappareils photographiques numeacuteriques lrsquoutilise Il peut ecirctre eacutegalement exprimeacute selon le standard MIX en XML

Il permet le stockage drsquoun large eacuteventail drsquoinformations techniques concernant les paramegravetres de prise de vue et les reacuteglages des appareils photographiques numeacuteriques lors de la capture numeacuterique

bull date et heure de la prise de vue bull reacuteglage de lrsquoappareil (marque modegravele de lrsquoappareil mais aussi drsquoautres informations comme la

vitesse drsquoobturation la longue de focale la sensibiliteacute etc) bull informations geacuteographiques provenant drsquoun eacuteventuel systegraveme GPC connecteacute agrave lrsquoappareil

Ces donneacutees sont fournies automatiquement par lrsquoappareil photographique numeacuterique et sont contenues dans le fichier image lui-mecircme

Liste des principaux champs EXIF bull Tag name description bull MakerNote donneacutees constructeur bull File Size taille du fichier bull Mime Type type MIME du fichier (ex imagejpeg) bull ExposureTime temps drsquoexposition en secondes bull FocalLength distance focale en millimegravetres bull ExifImageWidth dimensions de lrsquoimage bull ExifImageLength bull X-Resolution reacutesolution de lrsquoimage bull Y-Resolution bull Date and Time (Original) date et heure de lrsquooriginal bull DateTimeDigitized date et heure de numeacuterisation bull Tags Relating to GPS toutes les donneacutees relatives aux coordonneacutees GPS

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 27: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

28 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Plusieurs logiciels permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees EXIF Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView etc

33 Meacutetadonneacutees descriptives

Dans tous les cas (images numeacuteriseacutees images nativement numeacuteriques) il importe drsquoindiquer des meacutetadonneacutees descriptives Sous le terme de meacutetadonneacutees descriptives on rassemble des meacuteta-donneacutees de type technique (cf ci-dessus) mais aussi des meacutetadonneacutees de type documentaire ciblant le contenu du document

De maniegravere geacuteneacuterale les meacutetadonneacutees descriptives sont indiqueacutees dans un autre fichier que celui du fichier de lrsquoimage qui a le mecircme nom que celui du fichier de lrsquoimage agrave lrsquoextension pregraves

34 Les meacutetadonneacutees descriptives les XMP et les IPTC

bull XMP (Extensible Metadata Platform)Le format de meacutetadonneacutees XMP a eacuteteacute lanceacute par la socieacuteteacute Adobe en 2001 Adobe possegravede donc cette marque et en controcircle les speacutecifications

Ce format structure de lrsquoinformation et permet de lrsquoenregistrer sous la forme drsquoun fichier XML qui peut ecirctre inclus dans lrsquoimage (ce nrsquoest pas ce que nous recommandons) ou bien stockeacute agrave part Il utilise une expression en RDF simplifieacute de champs totalement parameacutetrables et adaptables agrave des besoins particuliers Le format XMP est compatible avec le format IPTC via le format drsquoIPTC-Core (voir ci-dessous)

bull IPTCIIMEacutelaboreacute par le monde de la presse et des agences photographiques dans les anneacutees 1990 via lrsquoInternational Press Telecommunications Council (IPTC)1 pour leurs besoins speacutecifiques drsquoeacutechange drsquoimages et drsquoinformations le format IPTCIIM (IIM pour Information Interchange Model) permet drsquoencapsuler les informations agrave propos du document Les meacutetadonneacutees souvent utiliseacutees sont le nom de lrsquoauteur ou du photographe des informations sur le copyright et les descriptions Srsquoil est principalement utiliseacute pour les images de presse il peut aussi ecirctre appliqueacute agrave drsquoautres types de docu-ments tels que le texte ou drsquoautres meacutedias

bull IPTC-CoreDans sa derniegravere version lrsquoIPTC a adopteacute le format XMP Le format de meacutetadonneacutees IPTC-Core redeacutefinit ainsi en XMP les meacutetadonneacutees IPTCIIM et offre la possibiliteacute drsquoajouter aux champs IPTC standards de nouveaux champs IPTC-Core nrsquoest pas une norme ouverte mais un standard de fait

Il existe plusieurs logiciels qui permettent drsquoafficher drsquoeacutediter et drsquoextraire les meacutetadonneacutees XMP IPTCIIM et IPCT-Core Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView etc

En parallegravele on recommande de compleacuteter la description du document en utilisant le Dublin Core (cf sect 221) Les meacutetadonneacutees seront stockeacutees dans un fichier seacutepareacute de format XML dont le nom sera identique agrave celui du fichier de lrsquoimage agrave lrsquoextension pregraves NomDuFichierDelImagexml

1 LrsquoInternational Press Telecommunications Council (IPTC) est une organisation internationale creacuteeacutee par les agences de presse en 1965 Sa mission est drsquoeacutetablir et de maintenir un standard normaliseacute de stockage des meacute-tadonneacutees relatives aux images de presse pour en faciliter lrsquoeacutechange

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 28: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

29GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R15 Reacutealiser au moins deux jeux de donneacutees - pour la conservation et lrsquoarchivage le jeu de donneacutees sera numeacuteriseacute sous une forme non comprimeacutee sans traitement suppleacutementaire en haute reacutesolution au format TIFF - pour une exploitation sur le Web le jeu de donneacutees sera numeacuteriseacute au format JPEG en qualiteacute maximale

R16 Toujours reacutealiser plusieurs jeux de meacutetadonneacutees Pour les meacutetadonneacutees tech-niques utiliser EXIF pour les meacutetadonneacutees descriptives utiliser IPTC-Core

R17 Utiliser le Dublin Core pour compleacuteter la description du document iconographique

R18 Stocker les meacutetadonneacutees descriptives dans un fichier portant le mecircme nom que le fichier de lrsquoimage agrave lrsquoextension pregraves

4 Liste des recommandations

5 Les ressources

Dublin Core httpdublincoreorg httpdublincoreorgdocumentsdcmi-terms

Didacticiel drsquoimagerie numeacuterique de Cornell University httpwwwlibrarycornelledupreserva-tiontutorialfrenchcontentshtml

EXIF httpwwwexiforg

IPTC httpwwwiptcorg

IPTC - Meacutetadonneacutees httpwwwiptcorgcmssiteindexhtmljsessionid=a6fFGl6cnmYechannel=CH0089

Recommandations MINERVA httpwwwminervaeuropeorginteroperabilitydigitisationguide-lineshtm

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 29: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

30 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 30: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

31GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES ICONOGRAPHIQUES

I I - LES IMAGES ANIMEacuteES ET LES FILMS

1 Les donneacutees

Les donneacutees consideacutereacutees ici sont des supports videacuteos ou bien des films argentiques Pour les supports videacuteos il srsquoagit de

bull Bande 2 Pouce Quadruplex bull Bande frac12 Pouce bull Videacuteo Cassette frac34 Pouce bull Videacuteo Cassette frac12 Pouce laquo substandard raquo bull Videacuteo Cassette frac12 Pouce professionnelle bull Videacuteo Cassette 8 mm bull Videacuteo Cassette frac14 Pouce bull Videacuteodisque

Pour les films argentiques il srsquoagit de bull 8 mm Super 8 mm 95 mm bull 16 mm bull 35 mm

2 Les conteneurs et les codecs

Les donneacutees multimeacutedias (audiovisuellessonores) numeacuteriques font appel agrave deux notions techniques

bull Codec (codeurdeacutecodeur) programme permettant drsquoencoder agrave la capture puis de deacutecoder agrave la lecture les donneacutees Il permet eacutegalement de compresser etou deacutecompresser ce signal Il ne doit pas cependant ecirctre confondu avec le proceacutedeacute de compressiondeacutecompression mecircme srsquoil permet de reacutealiser agrave la fois lrsquoencodage et la compression Il est le plus souvent utiliseacute comme algorithme de compression pour reacuteduire la taille drsquoun flux (videacuteoaudio)

bull Conteneur fichier laquo enveloppe raquo contenant des donneacutees destineacutees agrave ecirctre archiveacutees et les informations relatives agrave lrsquointerpreacutetation de ces donneacutees Il peut contenir divers types de formats ce qui permet de geacuterer les diffeacuterents flux audio etou videacuteo codeacutes agrave lrsquoaide de codecs ainsi que drsquoautres types de donneacutees chapitrage soustitres meacutetadonneacutees description des flux contenus etc

21 Les principaux formats conteneurs videacuteo

bull AVI (Audio Video Interleave)Conteneur multimeacutedia de Microsoft pour le systegraveme Windows Il supporte divers algorithmes de compression et de deacutecompression et tous les codecs associeacutes

bull ASF (Advanced Streaming Format)Conteneur multimeacutedia Microsoft utiliseacute dans la suite logicielle Windows Media Il permet la diffusion

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 31: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

32 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

en continu (streaming) il supporte la haute deacutefinition et fournit un module de gestion des droits (DRM)

bull 3GPConteneur multimedia deacutefini par 3GPP Il a eacuteteacute conccedilu pour diminuer le stockage des fichiers en facilitant la lecture de contenu multimeacutedia sur les reacuteseaux sans fil pour les teacuteleacutephones mobiles de troisiegraveme geacuteneacuteration (3G)

bull FLV (Flash Video)Conteneur multimedia deacuteveloppeacute par Adobe Systems Crsquoest le format de reacutefeacuterence pour diffuser des videacuteos sur le web via le lecteur Adobe Flash Player

bull MKV (Matroska Video)Conteneur multimeacutedia libre Le format MKV permet de regrouper dans un mecircme fichier plusieurs pistes videacuteo (DivX H264 realVideo Theora VP8 XviD etc) et audio (AAC AC3 DTS FLAC MP2 MP3 Vorbis etc) ainsi que des sous-titres et chapitres (SRT ASS SSA USF etc) Il supporte pratiquement tous les flux multimeacutedias existants et permet de reacutealiser des fonctions de chapitrage de creacuteer des menus de faire des recherches dans le fichier de seacutelectionner une source sonore ou bien encore drsquoadjoindre une piegravece jointe

bull MPEG-2 (Moving Pictures Experts Group)Norme deacutesignant le systegraveme de codage videacuteo et audio la combinaison et la meacutethode de compression pour la transmission sur les reacuteseaux de teacuteleacutevision numeacuterique Cette norme speacutecifie le format de films distribueacutes sous format DVD ou SVCD Elle integravegre eacutegalement deux formats conteneurs le MPEG-TS et le MPEG-PS- MPEG-TS (Transport Stream) format conteneur permettant la transmission de flux multiplexeacute utiliseacute notamment pour diffuser la teacuteleacutevision numeacuterique- MPEG-PS (Program Stream) format conteneur supportant le multiplexage videacuteo audio et utiliseacute pour le stockage sur DVD

bull MP4 (ISOIEC 14496-14)Conteneur multimeacutedia issu de la norme MPEG-4 MPEG-4 ASP MPEG-4 AVC (videacuteo) et AAC (audio) Il supporte tous les types de contenus multimeacutedia (plusieurs pistes son videacuteo sous-titres etc) et des contenus avanceacutes (laquo Rich Media raquo ou BIFS (BInary Format for Scenes) menus de type DVD graphisme 2D3D etc) Il est eacutegalement distribuable en streaming

bull M4VFormat conteneur deacuteveloppeacute par Apple pour les contenus iTunes et les peacuteripheacuteriques videacuteo de la marque (iPod iPad et PlayStation) Ce format est baseacute sur la norme MPEG-4 avec le codec videacuteo AVC

bull OGG MeacutediaConteneur multimeacutedia libre et ouvert de la fondation Xiphorg Il permet au sein drsquoun mecircme fichier de geacuterer un flux videacuteo et plusieurs pistes audio Il integravegre les sous-titres et le chapitrage Flux videacuteos supporteacutes Theora Xvid ou DivX et audio OGG Vorbis MP3 WAV ACC FLAC WAV

bull QuickTimeEnvironnement de deacuteveloppement multimeacutedia deacuteveloppeacute par Apple deacutesignant agrave la fois un codec videacuteo un codec audio et un conteneur Le conteneur permet de geacuterer plusieurs pistes videacuteo (anima-tion graphique 3D etc) audio et texte (sous-titres) Chaque piste contient une piste meacutedia (stream) permettant la diffusion en temps reacuteel via Internet Quicktime supporte de nombreux formats audio et videacuteo formats audio (WAV AACMIDI etc) et videacuteo (DV H261 H263 H264 MPEG-2 MPEG-4)

bull WebMFormat multimeacutedia sous licence libre deacuteveloppeacute par Google Il est composeacute drsquoun conteneur deacuteriveacute de Matroska Video (MKV) drsquoun codec videacuteo VP8 et du codec audio libre OGG Vorbis Il est destineacute agrave faire fonctionner de maniegravere native les contenus multimeacutedias sur le Web notamment avec HTML5

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 32: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

33GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

qui permet gracircce aux balises ltvideogt et ltaudiogt de geacuterer les videacuteos sans recourir agrave un autre lecteur Il est supporteacute par Google Chrome Mozilla Firefox 40 et Opeacutera Il existe deacutesormais un plug-in WebM pour Internet Explorer 9 La socieacuteteacute Adobe a par ailleurs indiqueacute que Flash supportera le format WebM

21 Les principaux codecs videacuteo

bull DivXCodec videacuteo proprieacutetaire et fermeacute de DivX Inc Il a eacuteteacute conccedilu agrave partir de MPEG-4 part2 (MPEG-4 a eacuteteacute modifieacute pour pouvoir compresser le son au format MP3) Il permet ainsidrsquoobtenir des videacuteos compresseacutees tregraves peu volumineuses stockeacutees dans les fichiers AVILa septiegraveme eacutedition de sa suite logicielle comprend un nouveau codec de compression et de deacutecompression un convertisseur de formats et un lecteur Il srsquoappuie deacutesormais sur la norme de codage videacuteo H264 (MPEG-4 Part 10) et le codec audio AAC lui aussi deacutefini dans la norme MPEG-4 Lrsquointeacutegration des normes de codage MPEG-4 permet au codec DivX drsquoecirctre compatible avec les videacuteos HD cette derniegravere eacutetant utiliseacutee pour le stockage Blu-ray HD DVD etc Il reconnaicirct aussi le conteneur Matroska (MKV) permettant la gestion de plusieurs flux videacuteo et audio

bull H264 (MPEG-4 AVC Advanced Video Coding)Codec deacuteveloppeacute par le groupe MPEG et eacutediteacute par lrsquoUIT-T (Union Internationale des Teacuteleacutecommunications) Il offre de multiples techniques permettant drsquoameacuteliorer le taux de compres-sion par rapport au MPEG-2 et une meilleure qualiteacute drsquoaffichage Il est eacutegalement adapteacute agrave une tregraves grande varieacuteteacute de reacuteseaux et de systegravemes TNT VOD Blu-ray teacuteleacutephonie mobile (iPhone iPad etc) et streaming

bull MJ2 Codec - Motion JPEG 2000Codec videacuteo compressant chaque image au format JPEG 2000 Il permet drsquoeffectuer un codage sans perte notamment pour la compression spatiale Il peut donc ecirctre utiliseacute comme format de conservation

bull TheoraCodec videacuteo libre et ouvert de la fondation Xiphorg Crsquoest lrsquoun des composants du format conteneur OGG Il est fondeacute sur le codec VP3 deacuteveloppeacute par On2 technologies (socieacuteteacute racheteacutee par Google) et open-source depuis 2002

bull VP8Codec videacuteo libre de Google (deacuteveloppeacute initialement par On2 Technologies socieacuteteacute racheteacutee par Google) utiliseacute dans le format WebM Ce codec est largement utiliseacute dans HTML5 et supporteacute par de nombreux navigateurs

bull WMV (Windows Media Video)Codecs videacuteos proprieacutetaires deacuteveloppeacutes par Microsoft Le dernier codec WMV 9-VC1 srsquoappuie sur le codec VC-1 normaliseacute par la SMPTE (Society of Motion Picture and Television Engineer) et deacuteveloppeacute par Microsoft Concurrent du codec H264 de MPEG-4 il est destineacute agrave ecirctre employeacute pour la haute deacutefinition (HD) HD Blu-ray et HD-DVD

bull XviDLe format XviD est une impleacutementation OpenSource du codec Divx Il repose eacutegalement sur la norme de codage MPEG-4

bull X264Codec libre sous licence publique permettant de coder des flux videacuteo en H264

3 La numeacuterisation

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 33: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

34 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quand on preacutepare le corpus il importe de deacuteterminer bull La datation des donneacutees bull La nature des donneacutees

- Extraits de films eacutemissions- Films complets- Rushes

Il srsquoagit de points importants qui vont entraicircner des structurations diffeacuterentes du corpus

Faire attention agrave la dangerositeacute de certains mateacuteriauxIl faut connaicirctre la composition des films argentiques En effet les films nitrate de cellulose qui peuvent srsquoauto-enflammer sont agrave identifier avec la plus grande preacutecaution Voici ce que preacuteconise la BNF dans son document Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques

laquo Une analyse visuelle et olfactive (syndrome du vinaigre) de la boicircte et de son contenu permettent de se faire une ideacutee de lrsquoeacutetat de conservation du document poussiegravere moisissures eacutetat des eacutetiquettes et de leur colle ratures synonymes drsquoune reacuteutilisation drsquoun support enregistrable sont autant drsquoindices de problegravemes eacuteventuels et de la neacutecessiteacute drsquoun deacutepoussieacuterage ou drsquoun nettoyage voire plus avant lecture On prendra garde eacutegalement aux dangers inheacuterents agrave certains supports comme les films nitrate de cellulose susceptibles de srsquoauto-enflammer En cas de doutes et afin drsquoeacuteviter tout risque de contamination croiseacutee il devra ecirctre fait appel agrave un speacutecialiste pour un diag-nostic preacutecis raquo

Lors de la numeacuterisation il convient de produire une version de conservation ET une version de diffu-sion Pour plus de deacutetails on se reportera aux guides de la BNF et de la TGIR Huma-Num citeacutes plus bas

4 Les meacutetadonneacutees

Pour les meacutetadonneacutees on peut utiliser la norme MPEG-7 Crsquoest une norme ISO eacutelaboreacutee par le MPEG (Moving Picture Experts Group - Groupe drsquoexperts sur les images animeacutees) Elle permet de deacutecrire les caracteacuteristiques de contenu audio et videacuteo de telle sorte que les utilisateurs puissent rechercher parcourir et extraire ce contenu de maniegravere effective et efficace Elle combine

bull des meacutetadonneacutees techniques sur le fichier bull des meacutetadonneacutees documentaires (titre creacuteateur droits renseignements sur les personnes les

objets et les eacuteveacutenements repreacutesenteacutes dans le fichier multimeacutedia etc)

Cette norme reste cependant difficile agrave impleacutementer Crsquoest pourquoi tout comme pour les images fixes on recommande la structuration des meacutetadonneacutees agrave lrsquoaide du Dublin Core (cf sect 221) Les meacutetadonneacutees seront enregistreacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 34: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

35GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

R18 Reacutealiser au moins deux versions numeacuteriseacutees lrsquoune pour la conservation lrsquoautre pour la diffusion

R20 Pour les meacutetadonneacutees utiliser le Dublin Core Les meacutetadonneacutees sont enregis-treacutees dans un fichier XML seacutepareacute portant le mecircme nom que le fichier du document audiovisuel agrave lrsquoextension pregraves

6 Les ressources

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles et filmiques BNF httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

Guide meacutethodologique pour le choix de formats numeacuteriques peacuterennes dans un contexte de donneacutees orales et visuelles httpwwwhuma-numfrressourcesguides

Institut national de lrsquoaudiovisuel (INA) httpwwwinafr

Logiciel drsquoannotation de films Ligne de Temps de lrsquoIRI httpwwwiricentrepompidoufrfratelierhtml

5 Liste des recommandations

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 35: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

36 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 36: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

37GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

LES DONNEacuteES SONORES

1 Les donneacutees

Par donneacutees sonores on entend lrsquoensemble des donneacutees audio enregistrement de parole de conver-sations ou de musique Elles peuvent ecirctre consideacutereacutees du point de vue aussi bien de leur contenu que du traitement linguistique dont elles peuvent faire lrsquoobjet

Parmi les supports les plus couramment rencontreacutes dans les fonds drsquoarchives les bibliothegraveques les museacutees ou les autres services culturels on trouve 1

bull le cylindre bull le disque laquo 78 tours raquo bull le disque agrave gravure directe bull le disque microsillon bull la bande magneacutetique bull la cassette bull la micro cassette bull le DAT (Digital Audio Tape) bull le miniDisc bull le CD audio (Compact Disc)

La nature du contenu et la typologie des supports sont en eacutetroite relation avec le contexte de leur production Lrsquousage de tel ou tel support ne preacutesage cependant en rien du caractegravere unique et de lrsquoimportance du contenu

1 La liste est issue du guide de numeacuterisation eacutediteacute par la BNF

Attention

Lrsquoeacutevaluation de la qualiteacute des supports (de leur boicircte et de leur contenu) est primor- diale avant drsquoentreprendre leur lecture et de srsquoengager dans un projet de numeacuterisa-tion

2 La numeacuterisation

Il convient de distinguer les donneacutees sonores analogiques et les donneacutees sonores nativement numeacuteriques

Pour un document analogique afin de permettre une exploitation la plus riche possible en termes drsquoinformation il sera important de rechercher les niveaux les plus eacuteleveacutes en matiegravere de quantifica-tion et de freacutequence drsquoeacutechantillonnage

Pour un document nativement numeacuterique il nrsquoest pas neacutecessaire de le copier dans un format de qualiteacute supeacuterieure agrave celui drsquoorigine

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 37: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

38 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Quelle que soit lrsquoorigine du document (analogique ou nativement numeacuterique) qursquoil srsquoagisse de conser-vation diffusion ou de restauration il importe de suivre les recommandations techniques associeacutees agrave chaque type drsquoopeacuteration

Pour la conservation bull Numeacuterisation sans compression bull Format de fichier WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus bull Copie laquo droite raquo absence de traitement

Pour choisir le convertisseur analogique numeacuterique faire preacutealablement des tests

Pour la diffusion sur le web bull Conversion sous forme compresseacutee (au format MP3 OGG ou autre) agrave partir de la version pour

archive ou de la version laquo restaureacutee raquo si elle existe bull Deacutebit agrave ajuster en fonction du mode de diffusion envisageacute

Pour la restauration bull Agrave partir de la copie laquo droite raquo non compresseacutee application de divers traitements pour une

restauration la plus lineacuteaire possible (reacuteduction des bruits de surface reacuteduction de souffle de bruit de sifflement filtrages divershellip) En outre des interventions ponctuelles (rayures laquo trou de son raquohellip) peuvent ecirctre neacutecessaires

bull Format de fichier laquo normaliseacute raquo WAV ou BWF bull Quantification 16 24 bits ou plus bull Freacutequence drsquoeacutechantillonnage 441 48 96 192 kHz ou plus

Il faut distinguer la restauration du support (bandes collantes cassures etc) de la restauration du contenu

Pour la conservation et la diffusion il importe de faire plusieurs jeux de numeacuterisation

3 Les meacutetadonneacutees

Les meacutetadonneacutees associeacutees aux documents sonores peuvent ecirctre reacutecupeacutereacutees de maniegravere automa-tique (lors de la numeacuterisation) elles sont sinon indiqueacutees manuellement

Comme pour les autres types de donneacutees traiteacutees dans ce guide il est essentiel que les meacutetadon-neacutees soient renseigneacutees selon des normes et des standards reconnus Crsquoest la probleacutematique de recherche et les objectifs du projet qui conduisent agrave se deacuteterminer par rapport aux diffeacuterents formats possibles

Plusieurs scheacutemas sont disponibles pour exposer les meacutetadonneacutees On peut utiliser des scheacutemas geacuteneacuteriques (cf sect 22)

Pour une exploitation linguistique on suivra les recommandations de lrsquoOpen Language Archive Community (OLAC) qui est une organisation internationale dont lrsquoobjectif est le partage et la diffu-sion de ressources de nature linguistique Celle-ci recommande lrsquoutilisation du Dublin Core qualifieacute auquel ont eacuteteacute ajouteacutes 5 attributs dont les valeurs sont lieacutees agrave des vocabulaires controcircleacutes Il srsquoagit de

1 lrsquoattribut laquo language raquo ajouteacute aux eacuteleacutements DC laquo subject raquo et laquo language raquo et dont la valeur doit ecirctre prise dans le catalogue Ethnologue (httpwwwethnologuecom) devenu depuis la nouvelle norme ISO-639 drsquoabreacuteviation des langues sur 3 caractegraveres

2 lrsquoattribut laquo linguistic-field raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo subject raquo Il doit prendre sa valeur dans une liste fermeacutee (phonetics phonology pragmatics psycholinguisticshellip)

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 38: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

39GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

3 lrsquoattribut laquo discourse-type raquo ajouteacute aux eacuteleacutements DC laquo type raquo et laquo subject raquo agrave choisir dans une liste fermeacutee (drama formulaic_discourse interactive_discourselanguage_play oratory narrative procedural_discourse report singing unintelligible_speech)

4 lrsquoattribut laquo linguistic-data-type raquo ajouteacute agrave lrsquoeacuteleacutement DC laquo type raquo agrave choisir dans une liste fermeacutee (lexicon primary_text language_description)

5 lrsquoattribut laquo role raquo peut ecirctre ajouteacute aux eacuteleacutements laquo contributor raquo et laquo creator raquo Il doit prendre sa valeur dans une liste fermeacutee (recorder researcher singer speaker transcriber translatorhellip)Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

Le fichier rassemblant les meacutetadonneacutees doit ecirctre stockeacute de maniegravere seacutepareacutee Crsquoest un fichier de format XML dont le nom sera identique agrave celui du fichier sonore agrave lrsquoextension pregraves

4 Liste des recommandations

R19 Numeacuteriser un document analogique au niveau le plus eacuteleveacute en matiegravere de quantification et de freacutequence drsquoeacutechantillonnage

R20 Formater un document nativement numeacuterique en choisissant un format dequaliteacute eacutegal agrave celui drsquoorigine

R21 Pour la conservation et la diffusion preacutevoir plusieurs jeux de numeacuterisation

R22 Pour une exploitation linguistique renseigner les meacutetadonneacutees dans le formatOLAC

R23 Les meacutetadonneacutees sont enregistreacutees dans un fichier XML seacutepareacute portant lemecircme nom que le fichier sonore agrave lrsquoextension pregraves

5 Les ressources

Centre de ressources numeacuteriques pour la description de lrsquooral bull Aix httpcrdofrbull Paris httpcrdorisccnrsfrexistcrdo

Corpus Oraux Guide des bonnes pratiques O Baude (dir) PUO 2006httpwwwdglfculturegouvfrrecherchecorpus_paroleCorpus_Oraux_GBP202006_version_imprimeepdfCV=5584amptype1=Ouvrage

Eacutecrire un cahier des charges de numeacuterisation de collections sonores audiovisuelles etfilmiques BNF aoucirct 2009 httpwwwculturegouvfrculturemrtnumerisationfrtechniquedocumentscahier_charges_numerisationpdf

OLAC httpwwwlanguage-archivesorg

Projet TELEMETA httptelemetaorg

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 39: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

40 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 40: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

41GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

GLOSSAIRE

AttributEn langage XML un attribut apporte des informations sur lrsquoeacuteleacutement qui le contient Le nom des attributs les eacuteleacutements qui les contiennent et le type de valeurs que les attributs peuvent contenir peuvent ecirctre preacuteciseacutes dans des scheacutemas (scheacutemas XML DTD relaxng etc)Ex ltelement type= ldquoexemplerdquogt Ici lrsquoattribut laquo type raquo est renseigneacute par la valeur laquo exemple raquo qui preacutecise le nom de la balise ltelementgt

BaliseUne balise est un eacuteleacutement fondamental des langages drsquoencodage Elle fonctionne comme un marqueur syntaxique Une balise permet drsquoidentifier et de qualifier des contenus Par exemple une balise lttitlegt deacutesigne un titre Le nom drsquoune balise est formellement eacutecrit entre deux chevrons Les balises fonctionnent par paire une balise ouvrante et une balise fermanteEx lttitlegtLa geacuteographie du notaire languedocienlttitlegt

CompressionCompresser une information numeacuterique permet drsquoen reacuteduire la taille drsquoougrave bull un gain drsquoespace bull une reacuteduction de lrsquoinfrastructure inheacuterente (volume drsquoune baie de stockagedrsquoarchivage ou de consommation eacutelectrique etc) bull une reacuteduction du temps de transfert lors de teacuteleacutechargementsEn ce qui concerne les sources orales ou visuelles la compression pourra cependant entraicircner lrsquoaugmentation du temps de traitement pour la lecture qui est en geacuteneacuteral compenseacutee par de plus faibles volumes agrave traiterLes compressions peuvent ecirctre a) sans perte lrsquoopeacuteration est dite laquo reacuteversible raquo Le document produit apregraves compression puis deacutecompression est identique au document original b) avec pertes dans ce cas la fideacuteliteacute de lrsquoeacutecoute et de la visualisation drsquoune seacutequence audiovisuelle peut ecirctre plus ou moins alteacutereacutee selon le laquo codec raquo choisiLa compression sans perte est ideacuteale pour lrsquoarchivage agrave long terme au gain de place srsquoajoute la fideacuteliteacute de la restitutionPour les images numeacuteriques chaque pixel est deacutefini par une seacuterie drsquoinformations digitales plus il y a drsquoinformations plus lrsquoimage est de bonne qualiteacute mais plus le fichier est lourd Le laquo codec raquo geacuteneacuterale-ment utiliseacute pour compresser les images et en reacuteduire le poids est le JPEG

Dublin CoreCrsquoest une norme internationale tregraves souvent employeacutee pour la description et lrsquoeacutechange de meacutetadon-neacutees Son langage simplifieacute (15 balises ou laquo descripteurs raquo) permet de faciliter lrsquoeacutechange de meacuteta-donneacutees geacuteneacuteriques et lrsquointeropeacuterabiliteacute entre diffeacuterents projets

EXIF (Exchangeable Image File)Format de meacutetadonneacutees images Les meacutetadonneacutees EXIF sont geacuteneacutereacutees automatiquement par les appareils de prise de vue numeacuteriques Selon les fabricants on retrouve agrave peu pregraves les mecircmes types drsquoinformations concernant la prise de vue (date heure diaphragme vitesse focal avec ou sans flash)

Format informatiqueUn format informatique est une convention pour repreacutesenter une donneacutee sous forme numeacuterique Il peut ecirctre speacutecifieacute ouvert normaliseacute standardiseacute ou proprieacutetaire

Format normaliseacute ou standardiseacuteUn format est normaliseacute ou standardiseacute quand sa description est adopteacutee par un organisme de

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 41: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

42 GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

normalisation ou de standardisation Parmi ces organismes dans le domaine des technologies de lrsquoinformation on citera bull AFNOR ndash Association franccedilaise de normalisation ndash http wwwafnororgbull ISO ndash Organisation Internationale de normalisation ndash httpwwwisoorgbull OASIS ndash Organization for the Advancement of Structured Information Standards ndashhttpwwwoasis-openorgbull W3C ndash World Wide Web Consortium ndash httpwwwww3org

Format ouvertLrsquoarticle 4 de la loi franccedilaise ndeg2004-575 du 21 juin 2004 pour la confiance dans lrsquoeacuteconomie numeacute-rique deacutefinit un format ouvert laquo on entend par standard ouvert tout protocole de communication drsquointerconnexion ou drsquoeacutechange et tout format de donneacutees interopeacuterable et dont les speacutecifications techniques sont publiques et sansrestriction drsquoaccegraves ni de mise en oeuvre raquoUn format ouvert est leacutegalement exempteacute de droits drsquoutilisation et sa description est publique Il est alors compreacutehensible et interopeacuterable Il est compreacutehensible car sa description ou speacutecification est publique tout le monde peut alors prendre connaissance de la maniegravere dont les informations sont organiseacutees au niveau de ce format Il est alors possible agrave partir de cette connaissance de creacuteer une varieacuteteacute de programmes ou drsquoeacutequipements qui lrsquoexploitent On dit drsquoun tel format qursquoil est interopeacute-rable Les notions de format ouvert et de format libre sont tregraves proches Un format sera qualiteacute de libre uniquement si aucune restriction juridique ne lui est applicable Un format qui nrsquoest pas laquo ouvert raquo est naturellement dit laquo fermeacute raquo

Format proprieacutetaire

Un format est dit proprieacutetaire si son cadre drsquoutilisation est controcirclable par une personne ou une entiteacute juridique Ce droit peut srsquoeacutetablir par exemple via le droit drsquoauteur le brevet ou le copyright Cependant mecircme si lrsquoutilisation du format est controcirclable cela ne signifie pas qursquoelle soit obliga-toirement controcircleacutee Ainsi le format PDF est ouvert car ses speacutecifications sont libres drsquoaccegraves et que son proprieacutetaire Adobe Systems socieacuteteacute de droit priveacute autorise des programmes tiers agrave reacuteutiliser son format Ce format est donc ouvert mecircme srsquoil est proprieacutetaire Ces deux notions ne sont pas anti-nomiques Le terme proprieacutetaire est souvent et abusivement employeacute pour deacutesigner un format dont lrsquoutilisation est fortement restreinte par les droits que possegravede son proprieacutetaire Si tel est le cas ndash et si la speacutecification nrsquoest mecircme pas consultable ndash on parle de format fermeacute Un format qui nrsquoest pas laquo proprieacutetaire raquo est un format dit laquo libre raquo

Format speacutecifieacuteUn format est dit speacutecifieacute lorsqursquoil est suffisamment deacutecrit pour en deacutevelopper une impleacutementation complegravete La speacutecification est souvent trouveacutee sous la forme drsquoun fichier au format PDF ou TEXT en une ou plusieurs langues Elle contient des informations qui neacutecessitent le plus souvent une bonne connaissance en informatique Il nrsquoy a pas drsquoadresse particuliegravere regroupant toutes les speacutecifica-tions Elles se trouvent le plus souvent sur le site internet du proprieacutetaire du format ou sur celui de lrsquoorganisme qui a eacutediteacute une norme agrave son sujet

HTML (Hyper Text Mark-Up Language)Langage de balisage qui permet drsquoeacutecrire de lrsquohypertexte et de structurer seacutemantiquement le contenu de pages web Il contient un nombre fixe de balises

InteropeacuterabiliteacuteDes ressources numeacuteriques sont dites interopeacuterables quand elles sont deacutecrites et exposeacutees agrave lrsquoaide de formats standardiseacutes ou normaliseacutes Elles peuvent alors ecirctre rechercheacutees identifieacutees exposeacutees partageacutees reacuteutiliseacutees etc

IPTC (International Press Telecommunications Council)Consortium reacuteunissant les principales agences de presses et photographiques dont la principale activiteacute consiste agrave deacutevelopper et agrave maintenir des standards permettant lrsquoeacutechanges des donneacutees Il a notamment mis au point le format IPTCIIM (pour Information Interchange Model) Ce format de meacutetadonneacutees documentaires est speacutecifique aux images

JPEG (Joint Photographic Experts Groups)Neacute de la fusion en 1986 de plusieurs groupes de professionnels de lrsquoindustrie de lrsquoimage ce groupe agrave

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 42: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

43GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

donneacute son nom agrave une norme ouverte de compression drsquoimages numeacuteriques le JPEG Crsquoest un format de compression agrave perte (il eacutelimine donc des informations) mais son taux de compression est reacuteglable ce qui permet un bon compromis entre le taux de compression et la qualiteacute de lrsquoimage compresseacutee

MeacutetadonneacuteeUne meacutetadonneacutee est une donneacutee servant agrave deacutefinir ou agrave deacutecrire une autre donneacutee qui repreacutesente le document numeacuterique reacutesultant de la transformation de la source premiegravere Les meacutetadonneacutees sont agrave la base des techniques du web seacutemantique Elles doivent donc ecirctre reacutedigeacutees en tenant compte des standards car ce sont elles qui permettent lrsquoaccegraves aux donneacutees et qui garantissent lrsquointeropeacuterabiliteacute

METS (Metadata Encoding and Transmission Standard)Scheacutema XML permettant la description drsquoobjets numeacuteriques Il est particuliegraverement destineacute aux eacutechanges entre institutions patrimoniales et est conforme aux recommandations de lrsquoOAIS (Open Archival Information System) Ce scheacutema est maintenu actuellement par la Bibliothegraveque du Congregraves

NumeacuterisationAu sens le plus reacutepandu la numeacuterisation est la conversion drsquoun signal (videacuteo image audio caractegravere drsquoimprimerie impulsion etc) en une suite de nombres permettant de repreacutesenter cet objet en infor-matique ou en eacutelectronique numeacuterique

OAIS (Open Archival Information System)Modegravele conceptuel destineacute agrave la gestion agrave lrsquoarchivage et agrave la preacuteservation agrave long terme des docu-ments numeacuteriques Crsquoest une norme ISO (reacutefeacuterence 14721) Il permet de deacutecrire les fonctions les responsabiliteacutes et lrsquoorganisation drsquoun systegraveme qui souhaite preacuteserver de lrsquoinformation

OAI-PMH (Open Archives Initiative ndash Protocol for Metadata Harvesting)Protocole standard interopeacuterable qui permet drsquoavoir accegraves aux meacutetadonneacutees drsquoun entrepocirct de donneacutees numeacuteriques

RDF (Resource Description Framework)Crsquoest un modegravele de repreacutesentation de donneacutees qui relie des triplets (sujet-preacutedicatobjet) dans un graphe Il permet de deacutecrire de faccedilon formelle des ressources web et leurs meacutetadonneacutees et des traiter informatiquement Deacuteveloppeacute par le W3C RDF est le langage de base du web seacutemantique

TEI (Text Encoding Initiative)Il srsquoagit drsquoun langage XML permettant de structurer des donneacutees et des meacutetadonneacutees textuelles Crsquoest un systegraveme de modeacutelisation textuelle permettant la construction des scheacutemas XML pour la structuration des donneacutees et des meacutetadonneacutees textuelles tregraves reacutepandu dans le domaine scientifique

UnicodeNorme visant agrave donner de maniegravere unifieacutee agrave tout caractegravere de nrsquoimporte quel systegraveme drsquoeacutecriture un nom et un identifiant numeacuterique

W3C (World Wide Web Consortium)Organisme de standardisation fondeacute en octobre 1994 par Tim Berners-Lee (principal inventeur du web) Le consortium est chargeacute de promouvoir la compatibiliteacute des technologiques du web Il a eacuteteacute fondeacute au MITLCS (Massachusetts Institute of TechnologyLaboratory for Computer Science) avec le soutien de lrsquoorganisme de deacutefense ameacutericain DARPA et la Commission europeacuteenne

XML (Extensible Markup Language)Langage de balisage extensible Crsquoest un langage qui permet de structurer sous forme drsquoarborescence les donneacutees Agrave la diffeacuterence du langage HTML dont le nombre de balises est fixe le langage XML peut accueillir autant de nouvelles balises que neacutecessaire

XMP (eXtensible Metadata Platform)Format de meacutetadonneacutees documentaires particuliegraverement utiliseacute pour les images

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire
Page 43: Les guides de bonnes pratiques - Huma-Num · GUIDES DE BONNES PRATIQUES / LE GUIDE DES BONNES PRATIQUES NUMÉRIQUES / JANIER 2015 7 LE PROJET NUMÉRIQUE 1. Décider Il s’agit ici

45GUIDES DE BONNES PRATIQUES LE GUIDE DES BONNES PRATIQUES NUMEacuteRIQUES JANVIER 2015

Les guides de bonnes pratiques sont reacutealiseacutes par le pocircle communication de la TGIR Huma-Num

Retrouvez toute lrsquoactualiteacute drsquoHuma-Num sur httpwwwhuma-numfr

httphumanumhypothesesorg

copy FM

SH -

Paris

201

3

  • Introduction
  • Le projet numeacuterique
    • 1 Deacutecider
    • 2 Organiser
    • 3 Numeacuteriser
    • 4 Structurer
    • 5 Exploiter
    • 6 Diffuser
    • 7 Peacuterenniser
    • 8 Liste des recommandations
      • Meacutetadonneacutees HTML RDF protocole OAI-PMH
        • 1 Meacutetadonneacutees geacuteneacuteraliteacutes
        • 2 Meacutetadonneacutees et scheacutemas geacuteneacuteriques
          • 21 Le Dublin Core
          • 22 Le scheacutema METS
            • 3 HTML
            • 4 Le RDF
            • 5 Le protocole OAI-PMH
            • 6 Les ressources
              • Les bases de donneacutees
                • 1 Geacuteneacuteraliteacutes
                • 2 Les meacutetadonneacutees
                • 5 Les ressources
                • 3 Lrsquoentrepocirct
                • 4 Liste des recommandations
                  • Les donneacutees textuelles
                    • 1 Les donneacutees
                    • 2 La numeacuterisation
                    • 3 Les meacutetadonneacutees
                    • 4 La TEI (text encoding initiative)
                    • 5 Liste des recommandations
                    • 6 Les ressources
                      • Les donneacutees iconographiques
                      • I - les images fixes
                        • 1 Les donneacutees
                        • 2 La numeacuterisation
                          • 21 Le format de fichier
                          • 22 Paramegravetres de qualiteacute
                            • 3 Les meacutetadonneacutees
                              • 31 Meacutetadonneacutees techniques
                              • 32 Les meacutetadonneacutees techniques les EXIF
                              • 33 Meacutetadonneacutees descriptives
                              • 34 Les meacutetadonneacutees descriptives les XMP et les IPTC
                                • 4 Liste des recommandations
                                • 5 Les ressources
                                  • Les donneacutees iconographiques
                                  • I I - Les images animeacutees et les films
                                    • 1 Les donneacutees
                                    • 2 Les conteneurs et les codecs
                                      • 21 Les principaux formats conteneurs videacuteo
                                      • 21 Les principaux codecs videacuteo
                                        • 3 La numeacuterisation
                                        • 4 Les meacutetadonneacutees
                                        • 5 Liste des recommandations
                                        • 6 Les ressources
                                          • Les donneacutees sonores
                                            • 1 Les donneacutees
                                            • 2 La numeacuterisation
                                            • 3 Les meacutetadonneacutees
                                            • 4 Liste des recommandations
                                            • 5 Les ressources
                                              • Glossaire