View
2.535
Download
4
Category
Preview:
Citation preview
1/56
Des métadonnées pour les images numériquesdu patrimoine culturel
Lundi 13 octobre 2014, matinée d'étude INHA
http://culturevisuelle.org/dejavu
Le standard de métadonnées XMP[Extensible Metadata Platform]
et son applicabilité au patrimoine culturelPatrick Peccatte
InformaticienChercheur associé au Laboratoire d'histoire visuelle contemporaine
(Lhivic/EHESS)
peccatte@softexperience.com
Twitter: @ppeccatte
Facebook: patrick.peccatte
Google+: Patrick PeccatteFlickr: patrickpeccatte et photosnormandie
Tumblr: dubruitausignal.tumblr.com
2/56
XMP et son applicabilitéau domaine culturel - objectifs
Décrire la technologie XMP, ses avantages et limitations Ce n'est pas l'exposé d'une implémentation particulière de
XMP dans le domaine patrimonial... ... mais plutôt quelques remarques sur la perspective d'une
(éventuelle) future implémentation de ce genre Montrer que XMP ne doit pas être oublié dans le "paysage"
des métadonnées appliquées au patrimoine culturel
3/56
XMP et son applicabilitéau domaine culturel - Sommaire
Rappel sur les métadonnées internes et les métadonnées externes
Rappel sur les métadonnées Exif (+ géolocalisation) et les métadonnées IPTC/IIM
Rappel sur RDF et XMP La transition du standard IPTC/IIM vers XMP
(IPTC Core et IPTC Extension) Vocabulaires contrôlés Applicabilité au patrimoine culturel
(CIDOC CRM et VRA Core) Interface utilisateur (custom panels)
4/56
wenzday01/FlickrCreative Commons
Il était une fois...L'album de photos
Métadonnéesdes images:une histoireancienneet bien connue
5/56
lizjones112/FlickrCreative Commons
on ajoutait des légendesaux photos...
6/56
Yume Photo/FlickrCreative Commons
mais attentionau déclassement...
7/56
Guanatos Gwyn/FlickrCreative Commons
la solution ?la légende au verso métadonnées internes
8/56
Mario Groleau/FlickrCreative Commons
Permettait au photographed’ajouter des informations
écrites sur le film
Un ancêtre desmétadonnées internes:le système Autographicde Kodak (vers 1930)
9/56
Mario Groleau/FlickrCreative Commons
Photo légendée selon le procédéAutographic (Nico Redlich, 1931).
Trois-Rivières, Canada
10/56
Où sont les métadonnées ?Dans une base de données ou un fichier indépendant associé
aux données (sidecar file).Les métadonnées sont externes aux ressources.
Titre principal: El Greco, Begräbnis des Conde de OrgazDescription: El Greco, Domenikos Theotokopoulos, dit ; 1541-1614. .- 'L'Enterrement du comte d'Orgaz', v. 1586. (Saint Augustin et saint Etienne enterrent Don Gonzalo Ruyz de Toledo, Conde de Orgáz, mort en 1327). Huile sur toile, H. 4,60 ; L. 3,60. Tolède, église Santo Tomé. Année de l'évènement: 1586. Année de l'oeuvre: 1586.Mots-clés: 16E SIECLE; AME; ANGE; ART; ART ESPAGNOL; CHRIST; ENTERREMENT; ESPAGNE; GRECO, LE; HUILE SUR TOILE; INHUMATION; MANIERISME; MORT; ORGAZ, DON GONZALO RUYZ; PEINTURE; PERSONNE; ROYAUME DES CIEUX; SAINT AUGUSTIN D'HIPPONE; SAINT ETIENNE; SAINT JEAN-BAPTISTE; TABLEAU; TOLEDE; VIERGE MARIE; DEESIS, vertical
Fichier El Greco.docFichier El Greco.jpg
11/56
Où sont les métadonnées ?
Dans les données elles-mêmes.Les métadonnées sont internes, "embarquées" dans les ressources numériques.
Les informations EXIF (et GPS) et IPTC/IIM des images numériques sont des métadonnéesinternes
Les métadonnées XMP peuvent êtresoit internes, soit externes
12/56
Fichier image numérique
Où sont les métadonnées ?
Exif IPTC/IIM
GPS
Autres informations...
XMP XMP
Vignetteintégrée
informationsexternesexplicites
exploitationcopie externe
contexte depublication
(sans métadonnées)
13/56
Où sont les métadonnées ? (suite)
Avantage des métadonnées internes :l'échange est facilité; la ressource numérique transporte avec elle ses propres métadonnées lorsqu'elle est téléchargée, copiée, renommée, compactée, etc.
Inconvénient des métadonnées internes :il est nécessaire de copier les métadonnées dans une base de données pour exploiter une grande collection de ressources numériques.
14/56
Pour lire les métadonnées internes des images, pas besoin d'outils onéreux ou compliqués
● En local : il existe des outils gratuits, par exemple XnView
● Sur le Web, il n'est même pas nécessaire de télécharger l'image, utiliser Jeffrey's Exif Viewer http://regex.info/exif.cgi
Exemple: Image de Wikimedia Commonshttp://commons.wikimedia.org/wiki/File:Statue_Berthold-Brecht-Platz_(Mitte)_Berthold_Brecht.jpg
Lire les métadonnées internes des images
15/56
http://upload.wikimedia.org/wikipedia/commons/f/f9/Statue_Berthold-Brecht-Platz_(Mitte)_Berthold_Brecht.jpg
16/56
http://regex.info/exif.cgi appliqué sur l'image
Métadonnées textuelles
Coordonnées GPS
Vignetteintégrée
17/56
Une métadonnée n'est pas obligatoirement textuelle
Une vignette intégrée peut (parfois)fournir beaucoup d'informations.
C'est une métadonnée...
Métadonnées textuelles
Vignetteintégrée
18/56
Métadonnées et images – EXIF EXIF est une abréviation de EXchangeable Image File. Ce format définit les
informations d'ordre technique contenues dans les fichiers des images.Ce sont donc des métadonnées de type interne.
Le format EXIF a été développé en octobre 1995 par le JEIDA(Japan Electronic Industry Development Association).La version 2.0 date de novembre 1997, la révision 2.1 de juin 1998 et la révision 2.2 d'avril 2002.
Ce n'est pas un standard, mais il est supporté par tous les fabricants d'APN (avec des variantes propriétaires)
Les informations EXIF concernent les paramètres de prise de vue et lesréglages de l'appareil au moment de la capture numérique :
✔ fabricant et modèle de l'appareil✔ hauteur et largeur de l'image✔ date et heure de la prise de vue✔ orientation✔ résolution, temps d'exposition, ouverture✔ présence d'un flash✔ coordonnées GPS✔ etc. [30 éléments environ]
19/56
Métadonnées et images – IPTC/IIM
L'IPTC (International Press and Telecommunications Council) est une organisation internationale créée en 1965 pour développer et promouvoir des standards d'échange de données à destination de la presse.
En association avec la NAA (Newspaper Association of America), l'IPTC a défini en 1991 un modèle global de données appelé IIM (Information Interchange Model), dont la dernière version (4.1) date de Juillet 1999.
Ce modèle a servi de base à la société Adobe pour définir dans son logiciel Photoshop les informations associées à une image, ce qui est communément appelé métadonnées IPTC (ou champs ou informations ou en-têtes [headers] IPTC).
L'IPTC/IIM est constitué de 33 métadonnées de type interne, c'est-à-dire enregistrées à l'intérieur des fichiers images.
20/56
RDF – Resource Description Framework
RDF est un moyen d'encoder, échanger et réutiliser des métadonnées structurées
Développé par le W3C(Recommandation en 1999)
RDF peut s'exprimer à l'aide d'un langage XML RDF ne précise pas la sémantique des
ressources décrites par les différentescommunautés d'utilisateurs de métadonnées
✔ RDF est un cadre [framework] de description des ressources pour n'importe quel domaine d'application
RDF est un langage extensible
21/56
XMP – Extensible Metadata Platform
Créé par Adobe (septembre 2001) Utilise une version simple de RDF
(Resource Description Framework) Standard ISO depuis mars 2012: ISO 16684-1:2012
(ce n'est donc plus une technologie spécifiquement Adobe)
22/56
XMP – Extensible Metadata Platform
Comme RDF, XMP est un cadre de description XMP utilise le schéma Dublin Core comme fondation
(préfixe de l'espace de noms XML: dc:) dc est étendu par d'autres schémas
✔ Core Schema✔ PDF✔ Photoshop✔ Media Management Schema✔ Rights Management Schema
23/56
XMP – Extensible Metadata PlatformLes espaces de noms XMP sont des conteneursLes champs appartiennent à des espaces de noms
Source: Fotoware
24/56
Les espaces de noms permettent d'éviter les collisions
Source: Fotoware
XMP – Extensible Metadata Platform
25/56
Un mécanisme d'aliasing permet de mettre en correspondance des métadonnéesdéfinies dans plusieurs schémas indépendants (référencés par des espaces de noms XMLdifférents)✔ Par exemple, pdf:Author et dc:Creator sont équivalents.
La métadonnée correspondante est stockée une seule fois.
XMP est extensible - l'utilisateur peut définir ses propres schémas de métadonnées
XMP – Extensible Metadata Platform
26/56
Types de données XMP
Les valeurs possibles pour les métadonnées XMP peuvent être :✔ Une valeur booléenne
✔ Une chaîne de caractères
✔ Une date
✔ Un entier
✔ Un nombre réel
✔ Une valeur choisie parmi un vocabulaire de valeurs possibles (un choix)
✔ Une valeur choisi parmi plusieurs vocabulaires (un choix étendu)
Les valeurs peuvent aussi être structurées✔ Une séquence de valeurs ordonnées (container rdf:seq)
✔ Une séquence de valeurs non ordonnées (container rdf:bag)
✔ Un ensemble de valeurs alternatives (container rdf:alt)
✔ Une structure de champs nommés, chacun d'entre eux pouvant être une propriété
XMP – Extensible Metadata Platform
27/56
XMP définit un mécanisme appelé XMP Packet permettant d'encapsuler les métadonnées XMP dans les fichiers des applications.Les métadonnées XMP sont alors internes.
La technique XMP Packet est définie pour les formats suivants:JPEG, TIFF, GIF, PNG, HTML, PDF, XML/SVG, PDF, AI, EPS
Un fichier JPEG - par exemple - contenant un XMP Packet doit pouvoir être traité sans changement par les applications ne supportant pas XMP
XMP – Extensible Metadata Platform
28/56
XMP Packet permet d'accéder aux métadonnées en lecture et écriture même en l'absenced'applications capables de comprendre le format de fichier
Lorsque ce n'est pas possible d'implémenter XMP Packet dans un format de fichierpropriétaire, les métadonnées XMP peuvent être stockées dans un fichier séparé (sidecar file).Les métadonnées XMP sont alors externes.
XMP – Extensible Metadata Platform
29/56
Perspectives ouvertes par XMPEn quoi XMP est-il plus performant que l'IPTC/IIM ?
Adapté aux légendesmultilingues
Inadapté aux légendesmultilingues
XMPIPTC/IIM
Extensible et évolutifStatique
Extensibilité documentée (Namespaces)
Extensibilité non documentée (champs non standards)
Types de données et types structurés
Pas de types de données
Pas de problèmes d'accents (codage Unicode)
Problèmes d'accents
Lisible (XML)Binaire (non facilement lisible)
30/56
Ne pas utiliser des outils non XMPaprès avoir travaillé avec des outils XMP
Bien connaître les outils utilisésdans les workflows complexes
IPTC n°120: ChatonsXMP dc:description: Chatons
Indexation avec un outil XMP
IPTC n°120: Deux chatonsXMP dc:description: Chatons
Modification à l'aide d'un outil uniquement IPTC/IIM (non XMP)
IPTC n°120: Deux chatonsXMP dc:description: Chatons
Retour à un outil XMP
31/56
La transition du standard IPTC/IIM vers XMPIPTC Photo Metadata
IPTC Photo Metadata est une initiative de l'IPTC qui regroupe deux schémas XMP :IPTC Core (1.2, juin 2014)IPTC Extension (1.1, juin 2009)
But définir des éléments de métadonnées dans le but de proposer une correspondance non ambiguë et une transition en douceur depuis les métadonnées IPTC/IIM (dit legacy) vers une technologie XMP
32/56
Autres schémas XMP dans le domaine del'image numérique
IPTC Photo Metadata est l'une des initiatives les plus marquantes utilisant XMP. Mais il en existe d'autres, voir aussi:
PACA [Picture Archive Council of America] metadata standarts for distributors
BAPLA [British Association of Picture Librairies and Agencies] Metadata panel
UseplusInitiative pour standardiser la description des droits d'usage
Astronomy Visualization Metadata StandardDescription des objets astronomiques
Darwin CoreNomenclature pour la description de la biodiversité
DICOM [Digital Imaging and Communications in Medicine]
VRA Core [Visual Resources Association]
33/56
La transition du standard IPTC/IIM vers XMPIPTC Photo Metadata
IPTC Core reprend sous forme XMP la plupart des métadonnées de l'IIM (mais pas toutes)
✔ IIM Contact n'est pas repris tel quel
IPTC Core comporte aussi des métadonnées supplémentaires par rapport à l'IIM :
✔ Structure Contact : nom, adresse, téléphone, etc.
✔ Localisation (seuls Pays, Code Pays, Ville existent en IIM)
✔ NewsCodes : sujet, scène, genre
34/56
La transition du standard IPTC/IIM vers XMPIPTC Photo Metadata
Les NewsCodes
Code sujet : spécifie un ou plusieurs Sujets de la taxonomie« Subject-News Codes » IPTC pour catégoriser le contenu. Chaque Sujet est représenté par une chaîne de 8 caractères dans une liste non triée.
Code scène : décrit la scène d’un contenu photographique.Spécifie une ou plusieurs expressions de « Scene-NewsCodes » d’IPTC. Chaque Scène est représentée par une chaîne de 6caractères dans une liste non triée.
Code genre : décrit le genre intellectuel de la photographie(analyse, opinion, interview, résumé, etc).Chaque genre est représenté par une chaîne de caractères en anglais.
35/56
La transition du standard IPTC/IIM vers XMPNewsCodes – exemple: Subject Code
Taxonomies, vocabulaires contrôlésPas aussi évolué que des ontologies
36/56
La transition du standard IPTC/IIM vers XMPNewsCodes – exemple: Subject Code
<?xml version="1.0" encoding="UTF-8"?><rdf:RDF xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:owl="http://www.w3.org/2002/07/owl#">
<rdf:Description rdf:about="http://cv.iptc.org/newscodes/subjectcode/"><rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#ConceptScheme"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/01000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/02000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/03000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/04000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/05000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/06000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/07000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/08000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/09000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/10000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/11000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/12000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/13000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/14000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/15000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/16000000"/><skos:hasTopConcept rdf:resource="http://cv.iptc.org/newscodes/subjectcode/17000000"/>
</rdf:Description><rdf:Description rdf:about="http://cv.iptc.org/newscodes/subjectcode/01000000">
<rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/><skos:prefLabel xml:lang="fr">Arts, culture, et spectacles</skos:prefLabel><skos:definition xml:lang="fr">Tout ce qui est relatif à la création d'œuvres, au développement des facultés intellectuelles,
et à leur représentation publique </skos:definition><skos:inScheme rdf:resource="http://cv.iptc.org/newscodes/subjectcode/"/><!--Broader Relationships--><!--Narrower
Relationships--><skos:narrower><rdf:Description rdf:about="http://cv.iptc.org/newscodes/subjectcode/01001000">
<rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/></rdf:Description>
</skos:narrower>
SKOSSimple Knowledge
Organization System
pas OWLWeb Ontology Language
37/56
La transition du standard IPTC/IIM vers XMPIPTC Photo Metadata
IPTC Extension
Structuration XMP plus complexe
Distingue entre la Localisation de la prise de vue et laLocalisation du sujet photographié
Gestion des droits : Copyright Owner, Copyright Owner Name, etc.
Informations concernant le modèle photographié :Model Age, Minor Model Age Disclosure, etc.
Informations concernant la propriété des "contenus"photographiés
Informations concernant l'œuvre ou l'objet figurant sur l'image :Artwork or Object in the Image
38/56
La transition du standard IPTC/IIM vers XMPExemple d'interface utilisateur
Photometadata Toolkit (custom panels)
V. Manso/FlickrCreative Commons
39/56
La transition du standard IPTC/IIM vers XMPPhotometadata Toolkit (custom panels)
Développementen Adobe Flex
(Framework Flash)
40/56
La transition du standard IPTC/IIM vers XMPPhotometadata Toolkit (custom panels - suite)
41/56
La transition du standard IPTC/IIM vers XMPPhotometadata Toolkit - fragment XMP généré
<?xpacket begin='' id='W5M0MpCehiHzreSzNTczkc9d'?><x:xmpmeta xmlns:x='adobe:ns:meta/' x:xmptk='Image::ExifTool 9.28'><rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
<rdf:Description rdf:about='' xmlns:Iptc4xmpCore='http://iptc.org/std/Iptc4xmpCore/1.0/xmlns/'> <Iptc4xmpCore:CountryCode>FR</Iptc4xmpCore:CountryCode> <Iptc4xmpCore:CreatorContactInfo rdf:parseType='Resource'> <Iptc4xmpCore:CiUrlWork>www.kalissimo.com</Iptc4xmpCore:CiUrlWork> </Iptc4xmpCore:CreatorContactInfo> <Iptc4xmpCore:IntellectualGenre>Daybook</Iptc4xmpCore:IntellectualGenre> <Iptc4xmpCore:Location>Musée d'Orsay</Iptc4xmpCore:Location> <Iptc4xmpCore:Scene> <rdf:Bag> <rdf:li>010300</rdf:li> <rdf:li>011700</rdf:li> </rdf:Bag> </Iptc4xmpCore:Scene> <Iptc4xmpCore:SubjectCode> <rdf:Bag> <rdf:li>01002000</rdf:li> <rdf:li>01000000</rdf:li> <rdf:li>01015000</rdf:li> <rdf:li>08000000</rdf:li> <rdf:li>08005000</rdf:li> <rdf:li>08005005</rdf:li> </rdf:Bag> </Iptc4xmpCore:SubjectCode> </rdf:Description>
42/56
Parallèle XMP et CIDOC CRM
● XMP est un cadre d'expression de métadonnées, CIDOC CRM est un modèle sémantique [Conceptual Reference Model du CIDOC (ICOM's International Committee for Documentation), ICOM= International Council of Museums]
● CIDOC CRM définit la sémantique de base de l'information dans le domaine du patrimoine culturel en termes d'ontologies formelles
● Comme XMP, CIDOC CRM ne précise pas de terminologie apparaissant généralement sous forme de données dans les structures de données
● Le CRM Core définit les relations caractéristiques pour l'utilisation d'une terminologie contrôlée selon les entrées de vocabulaires contrôlés. Cela n'existe pas en XMP.
● Comme en XMP, il est important que les associations de vocabulaires de domaine soient traitées par les identificateurs du vocabulaire plutôt que de simplement utiliser des dénominations en texte libre
● Dans le domaine du patrimoine culturel plusieurs vocabulaires de domaine sont largement utilisés, comme COMPRIS AAT, English Heritage, ICI, ICONCLASS et SHIC.
● En dehors du domaine du patrimoine culturel, il existe une grande variété de vocabulaires qui peuvent être utilisés, tels les IPTC NewsCodes
43/56
CIDOC CRM – Exemple 1
44/56
CIDOC CRM – Exemple 1fragment de code 1 (CRM Core pas XMP)
45/56
CIDOC CRM – Exemple 1fragment de code 2 (CRM Core pas XMP)
- structures complexes - usage intensif de vocabulaires contrôlés
Difficile à exprimer en XMPsans simplifications drastiques
46/56
CIDOC CRM - Exemple 2
47/56
CIDOC CRM – Exemple 2fragment de code (CRM Core pas XMP)
- structuration plus simple - utilisation de IPTC NewsCodes
Semblable à IPTC Extension (XMP)
48/56
VRA Core (Visual Resources Association)
● VRA est une association multidisciplinaire dont l'objectif est la gestion des images dans les domaines de l'éducation, du patrimoine et des entreprises.Elle produit des programmes éducatifs et des standards: Cataloguing Cultural Objects (CCO) en association avec la Fondation Getty, VRA Core.
● Les membres de la VRA sont principalement des institutions américaines et canadiennes.
● Le VRA Core est un standard de données permettant à la fois la description des œuvres de la culture visuelle et des images qui documentent ces œuvres
● Le standard est hébergé par le Network Development and MARC Standards Office de la Library of Congress (LC) en partenariat avec la Visual Resources Association.
● http://www.loc.gov/standards/vracore/
49/56
VRA Core - Exempledescription d'un objet et de sa photo
50/56
VRA Core - Exemplefragment de code XML
Structures...
51/56
Il est théoriquement possible d'inclure des métadonnées VRA Core dans une structure IPTC Extension Artwork
Mais la plupart des logiciels ignorent cette possibilité de XMP et suppriment le code VRA Core d'extension lors des mises à jour de métadonnées
D'où la nécessité de développer une implémentation de VRA Core en XMP en dehors du code IPTC Extension
VRA Core – custom panelPrincipes (1)
52/56
● Transposition du code VRA/XML en code RDF/XMP
● "Aplatissement" des structures
VRA Core – custom panelPrincipes (2)
53/56
VRA Core – custom panel
54/56
VRA Core – custom panel (suite)
55/56
XMP et patrimoine culturel
Le codage RDF/XMP spécifique aux objets ou images du patrimoine culturel ne doit pas être inclus dans un codage IPTC Extension Artwork
Ce codage RDF/XMP doit être "aplati"(pas de structures autres que les structures XMP de base)
Définir les vocabulaires contrôlés utilisés à partir des ontologies
Définir des interfaces utilisateurs aussi simples que possibles:- custom panels Adobe (sans possibilité d'utiliser les vocabulaires contrôlés)- autres outils (exemple : Camera Bits Photo Mechanic)- mais aussi frontal ExifTool et autres outils open source
Mais surtout:constituer un groupe, une communauté, une association
56/56
Merci pour votre attention
Recommended