Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
05/12/2014
1
Plateformes de données en SHS Infrastructures et outils, évolutions
récentes et perspectives
Avec des métadonnées : pourquoi, comment ?
ANF, Réseau Isore, Paris, 4 décembre 2014
Catherine Morel-PairInist-CNRS, service Edition numérique et Numé[email protected]
Mis à disposition sous Licence Creative Commons
1 - Métadonnées ? Des données décrivant, représentant les données
Permet la recherche d’information, l’intelligibilité, l’usage et la gestion des données Par les lecteurs humains et les machines
Des ensembles d’éléments structurés “nom d’élément + valeur” : Titre, créateur, contributeur, format, relation … + valeur
Des éléments issus de vocabulaires standards Indispensable pour mutualiser, échanger, et réutiliser les données – “interopérabilité” Dublin Core, MODS, IPTC, EXIF … FOAF …
Encodés dans une syntaxe spécifique Semi-structurée : TIT : [mon titre] - 200$a[mon titre] Structuré e: <title>mon titre</title> (norme d’échange XML)
Des savoir-faire au coeur des métiers IST Catalogues, bases de données bibliographiques … souvent collaboratifs Standards ISBD, *MaRC … modélisation FRBR, et RDA Utilisation de “référentiels” : vocabulaires contrôlés, codes de classement, notices
d’autorité, et modèles d’écriture Homogénéisation des valeurs : très important !
05/12/2014
2
Bibliothèques numériques, “entrepôts de données” et métadonnées
Des ressources et des métadonnées (au moins un “catalogue” interrogeable des contenus), des compétences et des outils
Orientation plutôt patrimoniale | administrative | scientifique Pour s’informer / se former / réutiliser …
Types et formats des documents variés Texte déjà publié, ou non … son … image … multimédia
Modèles de diffusion : accès réservé | en libre accès | mixte Archives ouvertes – interrogation fédérée par le protocole OAI-PMH :
“Moissonnage de métadonnées ” portails d’accès unifié multi-sources
… Entrepôts/plateformes de données de la recherche Des corpus et objets souvent complexes, très divers en types, formats,
cycle de vie, outils associés nouveaux usages dynamiques Déposés sur un site local ou de mutualisation - thématique, institutionnel Référencés dans des portails d’accès unifié
Via les métadonnées … OAI-PMH souvent Une section des plans de gestion des données (DMP) : “Métadonnées
(et standards, ou : documentation” …)
Un médiateur de la valorisation (curation) des données
Haricots Bonduelle
Contient du sodiumDate limite 2010-10-10
Distribué par X
Décrire le contenu “intellectuel”
Décrire les caractéristiques techniques des fichiers
Décrire les droits de propriété et d’usage
Décrire des liens = des collections
Interopérabilité
Migrations et Pérennité
05/12/2014
3
A fonctions diverses standards divers - pratiques diverses
Objectifs, objets et acteurs Bibliothèque, documentation,
archives NTIC, industrie et commerce … Laboratoires de recherche
Complexité variable D’un standard généraliste,
Dublin Core à des standards plus spécifiques
DDI, EAD, IPTC …
Types des valeurs des éléments Texte, contrôlé ou modélisé / libre Autre : vignettes, représentation
graphique …
Créées Manuellement Automatiquement Par transformation
Localisation Embarquées
dans laressource
ou externesAutre fichier
métad
métad
indispensable pourrechercher, gérer
2 – Un standard central Dublin Core
Dublin Core Metadata Initiative, 1995 http://dublincore.org
“Pallier les insuffisances des métadonnées HTML” pour donner une sémantique au Web[…] et améliorer la découverte des ressources
Par un standard généraliste Une “description bibliographique simplifiée” … pour tout type de ressource, de producteur
Très utilisé pour mutualiser dans un monde ouvert Consensus international et inter-professionnel Standard principal de tous les gestionnaires de bibliothèques numériques “Ticket d’entrée” pour la mutualisation des archives ouvertes par OAI-PMH Vocabulaire reconnu du “Web de Données” …
Mais parfois insuffisant pour représenter finement certainesdonnées dans un univers dédié, pour des utilisateurs et applications spécifiques Recherche multi-critères pointue, propriétés techniques,
archivage pérenne …
05/12/2014
4
http://ganesha.fr/index.php?post/2008/03/31/Dublin-Core
DC simple : 15 élémentsISO 15836-2003
DC qualifié et étendu
instructional method
accrualMediumaccrualPeriodicityaccrualPolicy
Provenance
Les gestionnaires de bibliothèques numériques et les plateformes généralistes de dépôt et publication de données intègrent tous Dublin Core
(Yoolib)
(Omeka)
05/12/2014
5
Au-delà du standard Dublin Core …
Des “profils d’application” de Dublin Core adaptés aux besoins et usages … et documentés Extensions : ajout d’éléments issus d’un autre standard ou
locaux, et d’attributs précisant le sens d’un l’élément Contraintes sur éléments, référentiels des valeurs …
Standard OLAC en linguistique, métadonnées de DataCite, de Dryad …
Des standards plus complexes pour des contextes et informations spécifiques Matériel d’étude, processus d’acquisition et de traitement, qualité des
données ? Evolutivité des contenus et des formats ? Organisation logique et physique des ensembles de fichiers, liens ? Contexte du projet, rôle des différents acteurs, questions éthiques ? Spécifications pour les réutilisations : outils associés, droits … ? … Archivage pérenne ?
3 – Quelques standards
Pérennisation
Descriptifs du contenu intellectuel
De structure
De droits
Techniques
Bib-doc : MARC-XML, MODS Archivistique : EADImage : IPTCNouveautés : RSS, Atom
Licences Creative Commons, Open data Commons …
METS, DIDL, OAI-ORE
Image : EXIF
Tous + PREMIS+ Identification ’’pérenne’’ :systèmes Handle, DOI, ARK …
Dublin Core
… Selon fonctions
Objets numériques
05/12/2014
6
Selon type de ressource
Domaines de recherche
Linguistique : OLAC, IMDI, IsoCatEtudes et enquêtes : DDI, SDMXGéo* : ISO 19115 et profils appli
…Sc. Evolution : Darwin Core
Ecologie : EML …
Types
Image : IPTC, EXIFMultimédia : MPEG 4, 21
Métadonnées TEI …
Contributeurs
Référentiels et Id auteurs : IdRef, VIAF, ORCID, ISNI
Contexte Web : vCards, FOAF …
Autres référentiels
Notices d’autorité classiques + orientation web de donnéesEvénements : hCalendar, Géoloc : geonames, KML … Sujets : thesaurus et
ontologies
Objets numériques
Dublin Core pour les données de recherche Quelques exemples
Dans des entrepôts de données Créés avec des outils de publication supportant divers formats de données :
DSpace, FEDORA, Omeka, Yoolib, GreenStone … Entrepôts mutualisés de dépôt-exposition de données : Nakala, Dryad, Zenodo … Entrepôts d’enregistrements sonores (et vidéo)
Plateforme CoCoON - CRDO Archives sonores du CREM avec Telemeta, en complément d’autres standards spécifiques
Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI)
Pour les portails d’accès unifié à des sources diverses via leurs métadonnées : Isidore, Crévilles …
Dublin Core en XML est le “ticket d’entrée” dans le protocole OAI-PMH de moissonnage des archives ouvertes scientifiques … Si un entrepôt de données se veut ouvert, il doit exposer des métadonnées XML
accessibles pour l’ OAI-PMH : Dublin Core en XML au minimum Parfois associé à d’autres mécanismes de collecte des métadonnées
05/12/2014
7
Plateforme de dépôt-exposition de données SHS, TGE Huma-Num
Dublin Core
qualifié
OLAC, profil d’application de
Dublin Coredans CoCOn
Notice d’une ressource
Affichage navigateur
Syntaxe XML pour le protocole OAI-PMH
Elts ‘dc:xxx’ + ‘olac:role’, ‘code’’ …
05/12/2014
8
DataCite
Un “profil d’application” Dublin Core- Activer le DOI implique de déposer ces métadonnées chez DataCite- Exports divers : XML, RDF, txt
NB : autres systèmes d’identifiants !
Autres standards
DDI : description accompagnant études et enquêtes Deux exemples
05/12/2014
9
Valorisation de l’histoire des fonds et de l’organisation associée Des “instruments de recherche” navigables, des descriptions aux différents
niveaux, moteur et index de recherche … vers des documents numériques
1 – PANDOR, MSH Dijon Portail - EAD (Archives) + autres Outil Pleade + autres en amont Trois types d’accès - exposition OAI Structuration des corpus
pour fouille de données
2 - AOMS - CN2SV, 2006 : collections d’images Contexte “centres de compétences CNRS” SHS pour
données textuelles, orales, manuscrits et images : un besoin des laboratoires Conseil et réalisation
Des standards de métadonnées // usages Pleade et une chaîne d’outils évolutive
EAD, Encoded Archival Description … et quelques autres
Etude de cas “précurseur”Chaîne de traitement de fonds d’images - CN2SV
‘Emballage’ METS
Entrepôt OAI-PMHDC- XML
MODS
AjoutMétasdonnées
IPTC
embarquéesou
tableau
…
Fichier EAD
archivage
diffusion
NavigateursMoteurs
classiques
KML
cartes
Data centerModèle OAIS
Export Intégration
Numérisation
05/12/2014
10
4 - Comment mutualiser les richesses de sites hétérogènes ?
Métadonnées et interopérabilité des données
Protocole OAI-PMH
Moissonnage de métadonnées portails
Mutualisation des services culturels et patrimoniaux
Portails del’information publique
Autres protocoles d’échange (API …)
Mutualisation des archives ouvertes scientifiques
Principes Standards et outils du “web de données”
Vers un graphe global de données liées
Bibliothèques numériques
métadonnéesEntrepôts de données
Décrire le contenu “intellectuel”
Décrire les caractéristiques techniques des fichiers
Décrire les droits de propriété et d’usage
Décrire des liens = des collections
05/12/2014
11
4a - Le protocole OAI-PMH “ le pouvoir de la simplicité ”
… Un contexte stratégique, le mouvement du libre accès aux résultats scientifiques – Open Access “OA” Revues en libre accès Archives ouvertes – Open Archive Initiative “OAI”
Quelle interopérabilité pour ces “archives ouvertes” Protocole OAI-PMH, 2001
Protocole de “moissonnage” (harvesting) des métadonnées des archives ouvertes
http + 6 verbes de requête + métadonnées, minimum Dublin Core simple en XML collecte des métadonnées Portails d’accès unifié, interrogation fédérée consultation des ressources dans l’archive d’origine
… Protocole simple et ouvert … succès et nouveaux usages Plateformes de revues OA Patrimoine-culture, ressources pédagogiques, données publiques … … Et en // de plus en plus : données de recherche
OAI-PMH : accès mutualisé à plus de 50 millions de ressources / métadonnées standard
Fichier XML-DC, extrait
05/12/2014
12
ISIDORE, portail d’ accès unifié aux publications et données de recherche en
SHS
http://www.rechercheisidore.fr/
Accès Collections et objets site AOMS - CN2SV
Source : Comment contribuer à Isidore avec ses données numériques ?
05/12/2014
13
4b - Web sémantique, web de données ?
Passer d’un Web de documents pour lecteurs humains Peu compréhensible par les machines
X formats (souvent propriétaires), bases de données : silos fermés Documents composites mais sans relief : lien non typés
… à un web de données interprétables par les machines - “sémantique” libérées des cadres de publication formels
Ouvertes aux machines Reliées entre elles de façon explicite
… Pour générer d’autres données par “mash-up”, déductions logiques (inférence)
Une idée dès 1994 Mondes de la connaissance, web, bib-doc …
Une mise en oeuvre : LOD, Linked Open Data Premières réalisations : 2004
/
Dans le protocole d’échange du web, http :- Une grammaire : des données exprimées par des triples (sujet – prédicat – objet) : RDF- Des vocabulaires/ontologies/référentiels pour renseigner les triples : sujet, objet = “autorités”
concepts, personnes, lieux … et prédicats (propriétés, ex : Dublin Core) … écrits en RDF- Des URI (adresses http) pour représenter ces “choses” des référentiels
- Des mécanismes pour relier les URI de divers référentiels : même concept ou proximité- un langage de requête, des inférences
http://data.bnf.fr/11899161/eugene_delacroix/
http://data.bnf.fr/11907966/victor_hugo/
http://mied.org/ontologie/auteur
http://mied.org/lieu/Paris
http://mied;org/oeuvre/liberte_...
http://mied.org/person/eugene_delacroix
Autre représentation
Web de donnéesPiliers
05/12/2014
14
Métadonnées et standards du web de données ?
Des vocabulaires d’éléments / ontologies relativement standardisés comme ”prédicat” des triples DC, BIBO, FOAF et SIOC, Creative Commons, geo*, OAI-ORE …
… Pour exprimer les mêmes informations que celles nécessaires à l’affichage des éléments des notices Extraites d’une base de données … Juste une expression différente …
Modèle du triple : “URI_ressource dcterms:creator URI_auteur” Triples = objets indépendants, d’un contexte notice et d’un silo applicatif
Rôle des documentalistes dans la modélisation et le choix des ontologies
Deux possibilités d’écriture RDF brut dans des fichiers et entrepôts spécifiques à côté des pages navigateur RDFa dans les pages HTML pour navigateur, parmi les autres éléments HTML
… “90 % du travail est fait” Des outils informatiques pour les 10% “restants” – projet multi-métiers
Métadonnées représentant une ressource dans Isidore : Lecteur humain … et RDF
05/12/2014
15
La “glu” commence à prendre… Infrastructures “Digital Humanities” France, Europe
Source : Des infrastructures de recherche au service des digital humanities
BnF
Europeana
Pandore, Archives du CREM, autres plateformes
5 – En pratique …Critères d’un choix
Dans le cadre d’un projet sur des données : contexte, objectifs … et moyens … avec ligne éditoriale sens
Type (et format) des données, outil de production et diffusion Domaine scientifique et pratiques de la communauté …
Des réflexions, des acteurs, des exemples, des outils … un chemin balisé
Objectifs et cycle de vie des données évolution des métadonnées D’ un environnement local de production-exposition
Vers un entrepôt, thématique international, national et/ou Nakala ? Vers un portail d’accès unifié comme Isidore (ou CLARIN) ? Vers l’archivage pérenne ?
Formats des [données et] métadonnées compatibles Intérêt d’une syntaxe interopérable : XML notamment
Standard d’échange + transformations multiples par mécanisme XSL
05/12/2014
16
Créer et exploiter des métadonnées
Quand ? Dès que possible : proximité = effort moindre, meilleure qualité
Comment ? Intervention purement humaine - “formulaire de saisie” Automatisation, partielle au moins ?
Souvent des métadonnées “quelque part” Des outils très variés selon les besoins et compétences
Acquisition : exports, extractions … Traitement : transformation vers standards, curation Exposition : navigateur - OAI, RSS, RDF … et usages
Intégrés aux outils de gestion des données ou modulaires … tout est possible ou presque …
Qui ? Equipe chercheur-documentaliste-informaticien Compétences et connaissances complémentaires …et évolutives Enrichissement mutuel – hybridation des métiers
Pour en savoir plus
Huma-Num, notamment “partages d’expériences” et “ressources”
Digital Curation Center, Metadata Standards, General research metadata et SSH metadata
Standards de métadonnées, extensions, outils, études de cas
05/12/2014
17
Merci de votre attention
“Les métadonnées sont la colonne vertébrale de la curation numérique” Digital Curation Center, UK “Metadata is critical to the effective deployment of many digital library
environments such as open archives, e-learning environments and semantic Web applications”
“Big Content Needs More Metadata ”, Gartner Group
“ Celui qui maîtrise les métadonnées sera le maître du monde”Fabien Gandon, Séminaire IST Inria, 1-5 octobre 2012, Carnac, Le document numérique à l'heure du web de données
… new job dans une évolution métier …