17
05/12/2014 1 Plateformes de données en SHS Infrastructures et outils, évolutions récentes et perspectives Avec des métadonnées : pourquoi, comment ? ANF, Réseau Isore, Paris, 4 décembre 2014 Catherine Morel-Pair Inist-CNRS, service Edition numérique et Numérisation [email protected] Mis à disposition sous Licence Creative Commons 1 - Métadonnées ? Des données décrivant, représentant les données Permet la recherche d’information, l’intelligibilité, l’usage et la gestion des données Par les lecteurs humains et les machines Des ensembles d’éléments structurés nom d’élément + valeur” : Titre, créateur, contributeur, format, relation … + valeur Des éléments issus de vocabulaires standards Indispensable pour mutualiser, échanger, et réutiliser les données – “interopérabilité” Dublin Core, MODS, IPTC, EXIF … FOAF … Encodés dans une syntaxe spécifique Semi-structurée : TIT : [mon titre] - 200$a[mon titre] Structuré e: <title>mon titre</title> (norme d’échange XML) Des savoir-faire au coeur des métiers IST Catalogues, bases de données bibliographiques … souvent collaboratifs Standards ISBD, *MaRC … modélisation FRBR, et RDA Utilisation de “référentiels” : vocabulaires contrôlés, codes de classement, notices d’autorité, et modèles d’écriture Homogénéisation des valeurs : très important !

2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

1

Plateformes de données en SHS Infrastructures et outils, évolutions

récentes et perspectives

Avec des métadonnées : pourquoi, comment ?

ANF, Réseau Isore, Paris, 4 décembre 2014

Catherine Morel-PairInist-CNRS, service Edition numérique et Numé[email protected]

Mis à disposition sous Licence Creative Commons

1 - Métadonnées ? Des données décrivant, représentant les données

Permet la recherche d’information, l’intelligibilité, l’usage et la gestion des données Par les lecteurs humains et les machines

Des ensembles d’éléments structurés “nom d’élément + valeur” : Titre, créateur, contributeur, format, relation … + valeur

Des éléments issus de vocabulaires standards Indispensable pour mutualiser, échanger, et réutiliser les données – “interopérabilité” Dublin Core, MODS, IPTC, EXIF … FOAF …

Encodés dans une syntaxe spécifique Semi-structurée : TIT : [mon titre] - 200$a[mon titre] Structuré e: <title>mon titre</title> (norme d’échange XML)

Des savoir-faire au coeur des métiers IST Catalogues, bases de données bibliographiques … souvent collaboratifs Standards ISBD, *MaRC … modélisation FRBR, et RDA Utilisation de “référentiels” : vocabulaires contrôlés, codes de classement, notices

d’autorité, et modèles d’écriture Homogénéisation des valeurs : très important !

Page 2: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

2

Bibliothèques numériques, “entrepôts de données” et métadonnées

Des ressources et des métadonnées (au moins un “catalogue” interrogeable des contenus), des compétences et des outils

Orientation plutôt patrimoniale | administrative | scientifique Pour s’informer / se former / réutiliser …

Types et formats des documents variés Texte déjà publié, ou non … son … image … multimédia

Modèles de diffusion : accès réservé | en libre accès | mixte Archives ouvertes – interrogation fédérée par le protocole OAI-PMH :

“Moissonnage de métadonnées ” portails d’accès unifié multi-sources

… Entrepôts/plateformes de données de la recherche Des corpus et objets souvent complexes, très divers en types, formats,

cycle de vie, outils associés nouveaux usages dynamiques Déposés sur un site local ou de mutualisation - thématique, institutionnel Référencés dans des portails d’accès unifié

Via les métadonnées … OAI-PMH souvent Une section des plans de gestion des données (DMP) : “Métadonnées

(et standards, ou : documentation” …)

Un médiateur de la valorisation (curation) des données

Haricots Bonduelle

Contient du sodiumDate limite 2010-10-10

Distribué par X

Décrire le contenu “intellectuel”

Décrire les caractéristiques techniques des fichiers

Décrire les droits de propriété et d’usage

Décrire des liens = des collections

Interopérabilité

Migrations et Pérennité

Page 3: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

3

A fonctions diverses standards divers - pratiques diverses

Objectifs, objets et acteurs Bibliothèque, documentation,

archives NTIC, industrie et commerce … Laboratoires de recherche

Complexité variable D’un standard généraliste,

Dublin Core à des standards plus spécifiques

DDI, EAD, IPTC …

Types des valeurs des éléments Texte, contrôlé ou modélisé / libre Autre : vignettes, représentation

graphique …

Créées Manuellement Automatiquement Par transformation

Localisation Embarquées

dans laressource

ou externesAutre fichier

métad

métad

indispensable pourrechercher, gérer

2 – Un standard central Dublin Core

Dublin Core Metadata Initiative, 1995 http://dublincore.org

“Pallier les insuffisances des métadonnées HTML” pour donner une sémantique au Web[…] et améliorer la découverte des ressources

Par un standard généraliste Une “description bibliographique simplifiée” … pour tout type de ressource, de producteur

Très utilisé pour mutualiser dans un monde ouvert Consensus international et inter-professionnel Standard principal de tous les gestionnaires de bibliothèques numériques “Ticket d’entrée” pour la mutualisation des archives ouvertes par OAI-PMH Vocabulaire reconnu du “Web de Données” …

Mais parfois insuffisant pour représenter finement certainesdonnées dans un univers dédié, pour des utilisateurs et applications spécifiques Recherche multi-critères pointue, propriétés techniques,

archivage pérenne …

Page 4: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

4

http://ganesha.fr/index.php?post/2008/03/31/Dublin-Core

DC simple : 15 élémentsISO 15836-2003

DC qualifié et étendu

instructional method

accrualMediumaccrualPeriodicityaccrualPolicy

Provenance

Les gestionnaires de bibliothèques numériques et les plateformes généralistes de dépôt et publication de données intègrent tous Dublin Core

(Yoolib)

(Omeka)

Page 5: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

5

Au-delà du standard Dublin Core …

Des “profils d’application” de Dublin Core adaptés aux besoins et usages … et documentés Extensions : ajout d’éléments issus d’un autre standard ou

locaux, et d’attributs précisant le sens d’un l’élément Contraintes sur éléments, référentiels des valeurs …

Standard OLAC en linguistique, métadonnées de DataCite, de Dryad …

Des standards plus complexes pour des contextes et informations spécifiques Matériel d’étude, processus d’acquisition et de traitement, qualité des

données ? Evolutivité des contenus et des formats ? Organisation logique et physique des ensembles de fichiers, liens ? Contexte du projet, rôle des différents acteurs, questions éthiques ? Spécifications pour les réutilisations : outils associés, droits … ? … Archivage pérenne ?

3 – Quelques standards

Pérennisation

Descriptifs du contenu intellectuel

De structure

De droits

Techniques

Bib-doc : MARC-XML, MODS Archivistique : EADImage : IPTCNouveautés : RSS, Atom

Licences Creative Commons, Open data Commons …

METS, DIDL, OAI-ORE

Image : EXIF

Tous + PREMIS+ Identification ’’pérenne’’ :systèmes Handle, DOI, ARK …

Dublin Core

… Selon fonctions

Objets numériques

Page 6: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

6

Selon type de ressource

Domaines de recherche

Linguistique : OLAC, IMDI, IsoCatEtudes et enquêtes : DDI, SDMXGéo* : ISO 19115 et profils appli

…Sc. Evolution : Darwin Core

Ecologie : EML …

Types

Image : IPTC, EXIFMultimédia : MPEG 4, 21

Métadonnées TEI …

Contributeurs

Référentiels et Id auteurs : IdRef, VIAF, ORCID, ISNI

Contexte Web : vCards, FOAF …

Autres référentiels

Notices d’autorité classiques + orientation web de donnéesEvénements : hCalendar, Géoloc : geonames, KML … Sujets : thesaurus et

ontologies

Objets numériques

Dublin Core pour les données de recherche Quelques exemples

Dans des entrepôts de données Créés avec des outils de publication supportant divers formats de données :

DSpace, FEDORA, Omeka, Yoolib, GreenStone … Entrepôts mutualisés de dépôt-exposition de données : Nakala, Dryad, Zenodo … Entrepôts d’enregistrements sonores (et vidéo)

Plateforme CoCoON - CRDO Archives sonores du CREM avec Telemeta, en complément d’autres standards spécifiques

Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI)

Pour les portails d’accès unifié à des sources diverses via leurs métadonnées : Isidore, Crévilles …

Dublin Core en XML est le “ticket d’entrée” dans le protocole OAI-PMH de moissonnage des archives ouvertes scientifiques … Si un entrepôt de données se veut ouvert, il doit exposer des métadonnées XML

accessibles pour l’ OAI-PMH : Dublin Core en XML au minimum Parfois associé à d’autres mécanismes de collecte des métadonnées

Page 7: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

7

Plateforme de dépôt-exposition de données SHS, TGE Huma-Num

Dublin Core

qualifié

OLAC, profil d’application de

Dublin Coredans CoCOn

Notice d’une ressource

Affichage navigateur

Syntaxe XML pour le protocole OAI-PMH

Elts ‘dc:xxx’ + ‘olac:role’, ‘code’’ …

Page 8: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

8

DataCite

Un “profil d’application” Dublin Core- Activer le DOI implique de déposer ces métadonnées chez DataCite- Exports divers : XML, RDF, txt

NB : autres systèmes d’identifiants !

Autres standards

DDI : description accompagnant études et enquêtes Deux exemples

Page 9: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

9

Valorisation de l’histoire des fonds et de l’organisation associée Des “instruments de recherche” navigables, des descriptions aux différents

niveaux, moteur et index de recherche … vers des documents numériques

1 – PANDOR, MSH Dijon Portail - EAD (Archives) + autres Outil Pleade + autres en amont Trois types d’accès - exposition OAI Structuration des corpus

pour fouille de données

2 - AOMS - CN2SV, 2006 : collections d’images Contexte “centres de compétences CNRS” SHS pour

données textuelles, orales, manuscrits et images : un besoin des laboratoires Conseil et réalisation

Des standards de métadonnées // usages Pleade et une chaîne d’outils évolutive

EAD, Encoded Archival Description … et quelques autres

Etude de cas “précurseur”Chaîne de traitement de fonds d’images - CN2SV

‘Emballage’ METS

Entrepôt OAI-PMHDC- XML

MODS

AjoutMétasdonnées

IPTC

embarquéesou

tableau

Fichier EAD

archivage

diffusion

NavigateursMoteurs

classiques

KML

cartes

Data centerModèle OAIS

Export Intégration

Numérisation

Page 10: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

10

4 - Comment mutualiser les richesses de sites hétérogènes ?

Métadonnées et interopérabilité des données

Protocole OAI-PMH

Moissonnage de métadonnées portails

Mutualisation des services culturels et patrimoniaux

Portails del’information publique

Autres protocoles d’échange (API …)

Mutualisation des archives ouvertes scientifiques

Principes Standards et outils du “web de données”

Vers un graphe global de données liées

Bibliothèques numériques

métadonnéesEntrepôts de données

Décrire le contenu “intellectuel”

Décrire les caractéristiques techniques des fichiers

Décrire les droits de propriété et d’usage

Décrire des liens = des collections

Page 11: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

11

4a - Le protocole OAI-PMH “ le pouvoir de la simplicité ”

… Un contexte stratégique, le mouvement du libre accès aux résultats scientifiques – Open Access “OA” Revues en libre accès Archives ouvertes – Open Archive Initiative “OAI”

Quelle interopérabilité pour ces “archives ouvertes” Protocole OAI-PMH, 2001

Protocole de “moissonnage” (harvesting) des métadonnées des archives ouvertes

http + 6 verbes de requête + métadonnées, minimum Dublin Core simple en XML collecte des métadonnées Portails d’accès unifié, interrogation fédérée consultation des ressources dans l’archive d’origine

… Protocole simple et ouvert … succès et nouveaux usages Plateformes de revues OA Patrimoine-culture, ressources pédagogiques, données publiques … … Et en // de plus en plus : données de recherche

OAI-PMH : accès mutualisé à plus de 50 millions de ressources / métadonnées standard

Fichier XML-DC, extrait

Page 12: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

12

ISIDORE, portail d’ accès unifié aux publications et données de recherche en

SHS

http://www.rechercheisidore.fr/

Accès Collections et objets site AOMS - CN2SV

Source : Comment contribuer à Isidore avec ses données numériques ?

Page 13: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

13

4b - Web sémantique, web de données ?

Passer d’un Web de documents pour lecteurs humains Peu compréhensible par les machines

X formats (souvent propriétaires), bases de données : silos fermés Documents composites mais sans relief : lien non typés

… à un web de données interprétables par les machines - “sémantique” libérées des cadres de publication formels

Ouvertes aux machines Reliées entre elles de façon explicite

… Pour générer d’autres données par “mash-up”, déductions logiques (inférence)

Une idée dès 1994 Mondes de la connaissance, web, bib-doc …

Une mise en oeuvre : LOD, Linked Open Data Premières réalisations : 2004

/

Dans le protocole d’échange du web, http :- Une grammaire : des données exprimées par des triples (sujet – prédicat – objet) : RDF- Des vocabulaires/ontologies/référentiels pour renseigner les triples : sujet, objet = “autorités”

concepts, personnes, lieux … et prédicats (propriétés, ex : Dublin Core) … écrits en RDF- Des URI (adresses http) pour représenter ces “choses” des référentiels

- Des mécanismes pour relier les URI de divers référentiels : même concept ou proximité- un langage de requête, des inférences

http://data.bnf.fr/11899161/eugene_delacroix/

http://data.bnf.fr/11907966/victor_hugo/

http://mied.org/ontologie/auteur

http://mied.org/lieu/Paris

http://mied;org/oeuvre/liberte_...

http://mied.org/person/eugene_delacroix

Autre représentation

Web de donnéesPiliers

Page 14: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

14

Métadonnées et standards du web de données ?

Des vocabulaires d’éléments / ontologies relativement standardisés comme ”prédicat” des triples DC, BIBO, FOAF et SIOC, Creative Commons, geo*, OAI-ORE …

… Pour exprimer les mêmes informations que celles nécessaires à l’affichage des éléments des notices Extraites d’une base de données … Juste une expression différente …

Modèle du triple : “URI_ressource dcterms:creator URI_auteur” Triples = objets indépendants, d’un contexte notice et d’un silo applicatif

Rôle des documentalistes dans la modélisation et le choix des ontologies

Deux possibilités d’écriture RDF brut dans des fichiers et entrepôts spécifiques à côté des pages navigateur RDFa dans les pages HTML pour navigateur, parmi les autres éléments HTML

… “90 % du travail est fait” Des outils informatiques pour les 10% “restants” – projet multi-métiers

Métadonnées représentant une ressource dans Isidore : Lecteur humain … et RDF

Page 15: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

15

La “glu” commence à prendre… Infrastructures “Digital Humanities” France, Europe

Source : Des infrastructures de recherche au service des digital humanities

BnF

Europeana

Pandore, Archives du CREM, autres plateformes

5 – En pratique …Critères d’un choix

Dans le cadre d’un projet sur des données : contexte, objectifs … et moyens … avec ligne éditoriale sens

Type (et format) des données, outil de production et diffusion Domaine scientifique et pratiques de la communauté …

Des réflexions, des acteurs, des exemples, des outils … un chemin balisé

Objectifs et cycle de vie des données évolution des métadonnées D’ un environnement local de production-exposition

Vers un entrepôt, thématique international, national et/ou Nakala ? Vers un portail d’accès unifié comme Isidore (ou CLARIN) ? Vers l’archivage pérenne ?

Formats des [données et] métadonnées compatibles Intérêt d’une syntaxe interopérable : XML notamment

Standard d’échange + transformations multiples par mécanisme XSL

Page 16: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

16

Créer et exploiter des métadonnées

Quand ? Dès que possible : proximité = effort moindre, meilleure qualité

Comment ? Intervention purement humaine - “formulaire de saisie” Automatisation, partielle au moins ?

Souvent des métadonnées “quelque part” Des outils très variés selon les besoins et compétences

Acquisition : exports, extractions … Traitement : transformation vers standards, curation Exposition : navigateur - OAI, RSS, RDF … et usages

Intégrés aux outils de gestion des données ou modulaires … tout est possible ou presque …

Qui ? Equipe chercheur-documentaliste-informaticien Compétences et connaissances complémentaires …et évolutives Enrichissement mutuel – hybridation des métiers

Pour en savoir plus

Huma-Num, notamment “partages d’expériences” et “ressources”

Digital Curation Center, Metadata Standards, General research metadata et SSH metadata

Standards de métadonnées, extensions, outils, études de cas

Page 17: 2014-12-04 ANF metadonnees CMorel · Pour les métadonnées de DataCite, système d’identifiant pérenne (DOI) Pour les portails d’accès unifié à des sources diverses via leurs

05/12/2014

17

Merci de votre attention

“Les métadonnées sont la colonne vertébrale de la curation numérique” Digital Curation Center, UK “Metadata is critical to the effective deployment of many digital library

environments such as open archives, e-learning environments and semantic Web applications”

“Big Content Needs More Metadata ”, Gartner Group

“ Celui qui maîtrise les métadonnées sera le maître du monde”Fabien Gandon, Séminaire IST Inria, 1-5 octobre 2012, Carnac, Le document numérique à l'heure du web de données

… new job dans une évolution métier …