47
Le Thésaurus pour l'indexation des archives locales et le Web de données INHA 9 février 2015 Alice Motte (Service interministériel des Archives de France)

Le Thésaurus pour l'indexation des archives locales et le Web de données, INHA, 9 février 2015

Embed Size (px)

Citation preview

Le Thésaurus pour l'indexation des archives locales et le Web de

données

INHA

9 février 2015

Alice Motte (Service interministériel des Archives de France)

Sommaire de l'intervention

Rappel sur la pratique et les enjeux de l'indexation des instruments de recherche des fonds d'archives ;

Nouveaux enjeux de la diffusion numérique : la transposition du Thésaurus du SIAF pour le web sémantique

Structuration informatique ;

Évolutions ;

Perspectives.

Première partie

Rappel sur la pratique et les enjeux de l'indexation des instruments de recherche des fonds d'archives

L’indexation : quelques définitions (1/3)

→ Fait partie intégrante de la description archivistique.

La description archivistique correspond au travail d’analyse des documents d'archives et d’élaboration des instruments de recherche (papier ou électroniques).

Elle se compose de trois éléments :description du producteur et des éléments de contexte nécessaires à la compréhension du fonds ;

identification des unités documentaires, décrites et classées selon un plan de classement ;

indexation des unités documentaires.

L’indexation : quelques définitions (2/3)

Opération destinée à représenter par les éléments d’un langage documentaire ou naturel des données résultant de l’analyse du contenu d’un document ou du document lui-même.

Clefs d'accès et de connaissance complémentaires des fonds décrits dans les instruments de recherche.

Une grande diversité possible de types d'indexation.

→ Exemple des index imprimés en fin de volume : entrées thématiques, géographiques, etc. permettant une utilisation différente de l'instrument de recherche.

L’indexation : quelques définitions (3/3)→ Un ensemble de choix archivistiques à faire selon leur pertinence !

Le choix du type ou des types d'indexation à pratiquer ;

Le choix d'un vocabulaire : un vocabulaire normalisé est indispensable à la cohérence de l’indexation (référentiels SIAF, normes AFNOR) ;

Le choix du degré de finesse et du niveau de précision ;

Rapport coût/bénéfice de l’indexation manuelle !

Raisonnement instrument de recherche / fonds dans leur globalité.

Un encadrement réglementaire progressif→ Textes publiés par la Direction des Archives de France.

Circulaire AD 63-31 du 22 juillet 1963. Les index alphabétiques des fonds d’archives et de leurs inventaires.

Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives contemporaines. Indexation. Instruments de recherche.

Instruction DITN/RES/2005/006 du 30 septembre 2005. Publication électronique des instruments de recherche.

** Note d'information DITN/RES/2007/008 du 30 juillet 2007. Indexation, état de la question.

Les enjeux de l'indexationUne place renouvelée dans le contexte de leur exploitation informatique ;

→ Les termes d'indexation deviennent des clefs d'accès à l'information, utilisés dans des moteurs de recherche avancée.

Mise en place de fonctionnalités de recherches dans les instruments de recherche et les images numérisées : ciblage des recherches (listes, filtres, rebonds), autocomplétion...

Logique de décloisonnement des fonds ;

Les termes d'indexation constituent aussi des métadonnées exploitables dans le cadre du web sémantique.

AD LozèreRecherche dans les listes de termes d'indexation :présentation alphabétique, moteur de recherche interne

AD Val d'OiseRecherche dans les listes de termes d'indexation :présentation arborescente, moteur de recherche interne, filtres

AD VarUtilisation de l'indexation géographique pour créer un mode de sélection cartographique des critères de recherche

AD Hautes-PyrénéesConstruction d'un moteur de recherche à facettes à partir de l'indexation → Mode de recherche par affinage progressif des critères

Portail Grand MémorialConvergence des indexations de plusieurs services d'archives pour alimenter un moteur de recherche unique dans les registres matricules.→ Interopérabilité et partage des termes d'indexation

Un historique du Thésaurus du SIAF (1/2)

Thésaurus W. Vocabulaires normalisés pour la description et l'indexation des archives administratives locales contemporaines :

1re éd. 1987, refontes en 1989 et 1997, mise à jour des listes « Actions administratives » et « Typologies » en 2000

Utilisation obligatoire pour tous les services d’archives territoriaux :

Circulaire AD 76-6 du 31 décembre 1979

Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives contemporaines. Indexation. Instruments de recherche

Un historique du Thésaurus du SIAF (2/2)→ Importante refonte en 2008-2009 : actualisation et conception d'un thésaurus diachronique.

Janvier 2008 : constitution d’un groupe de travail chargé de refondre les différentes adaptations du Thésaurus W élaborés par des services d’archives ;

Novembre 2008-février 2009 : appel à commentaires auprès du réseau ;

Mars-juin 2009 : prise en compte des commentaires ;

Juin 2009 : publication par l'instruction DITN/RES/2009/006 du Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines.

Qu'est-ce qu'un thésaurus ?

Liste de concepts représentés par des termes normalisés (descripteurs), reliés par des relations sémantiques hiérarchiques, associatives ou d’équivalence

Langage artificiel, cherche à lever toute ambiguïté

Sert à réduire la variabilité des notions exprimées en langage naturel

Les relations aident à s’assurer du sens du concept et de son adéquation pour l’énoncé d’un sujet

→ Structure arborescente.

Termes autorisés (préférentiels) et termes non autorisés (« termes interdits », non préférentiels).

Quels types de relations trouve-t-on dans un thésaurus ?

Hiérarchie :

Termes génériques (TG) = concepts principaux en référence aux autres termes et au domaine considéré

Termes spécifiques (TS) = concepts particuliers à l'intérieur du champ sémantique d'un terme générique

Association :

Termes associés (TA)

Équivalence :

Termes équivalents (EP / EM) = variantes des termes spécifiques, et non descripteurs = termes non retenus pour représenter une notion, renvoie à un ou plusieurs descripteurs (synonymie)

Indexation des matières

Utilisation du Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines, 2009, édité et maintenu par les Archives de France.

Couvre tous les domaines d'intervention des producteurs d'archives.

Présentation du Thésaurus matière du SIAF

2509 termes préférentiels et non préférentiels ;

Thésaurus monolingue et mono-hiérarchique ;

4 niveaux de hiérarchisation : les descripteurs sont des termes génériques (TG) aux trois premiers niveaux et des termes spécifiques (TS) au quatrième. « Cinquième niveau » ;

Relations hiérarchiques (TG et TS), relations d’association (TA), relations par synonymie (EP, EM) ;

S'accompagne de trois listes d'autorité (contexte, actions, typologie).

Extrait du Thésaurus : les relations entre les termes

1. ADMINISTRATION

1.5. POLICE

MAINTIEN DE L’ORDRE18

EP ordre public

EP rétablissement de l ’ordre

TA CEREMONIE PUBLIQUE (9.4) ; MANIFESTATION DE PROTESTATION (9.4) ; MANIFESTATION SPORTIVE (11.2) ;

REUNION PUBLIQUE (9.4) ; VISITE OFFICIELLE (9.4)

18 Il s’agit ici du maintien et du rétablissement de l’ordre.18 Il s’agit ici du maintien et du rétablissement de l’ordre.

Seconde partie

Nouveaux enjeux de la diffusion numérique : la transposition du Thésaurus du SIAF pour le web sémantique.

Le thésaurus jusqu'en 2008

Les limites● Absence de formalisme directement exploitable par une machine

– Le formalisme utilisé (fichiers doc, pdf) a pour seule vocation d'être lu par un opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation.

● La tâche d'indexation étant assistée par un logiciel, des ressaisies du thésaurus sont nécessaires

– Comment éviter des saisies directes avec risques de divergences ?– Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans

les outils n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi délicates et coûteuses.

Édition thématique PDF du thésaurus-matières

Les besoins

Faciliter la mise en œuvre du thésaurus pour les tâches d'indexation

Faciliter la mise en œuvre du thésaurus pour les tâches de recherche

Garantir la permanence des indexations alors même que le thésaurus évolue

Faciliter la gestion du thésaurus● Évolutions (propositions, versions, mises à jour...)

● Accès / Requêtes / Publications

Choix d'un formalisme

Exprimer toutes les notions déjà présentes (termes, relations, annotations, etc.)

Apporter une aide à l'édition et la publication

Outils normatifs● Norme ISO 2788:1986 « Principes directeurs pour l'établissement et le

développement de thésaurus monolingues »– Pose les concepts de terme, relations sémantiques, etc. mais ne propose pas de

formalisme d'expression pour sa mise en œuvre. – En 2008 : en cours de révision

● SKOS « Simple Knowledge Organization System » – Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au

W3C mais aboutit en 2009 à une recommandation.

Présentation synthétique de SKOS (1/2)

Simple Knowledge Organization System● Pour décrire des vocabulaires simples de type thésaurus, classifications, listes,

taxonomies.

● SKOS permet de décrire des organisations de concepts pour former des vocabulaires. Cette description est faite avec le langage RDF, format fondamental du web sémantique, qui va permettre d'associer aux concepts des propriétés (dont le terme)

– RDF définit un graphe à base de triplets (sujet → prédicat → objet)● Le sujet représente la ressource à décrire ;● Le prédicat représente un type de propriété de la ressource ;● L'objet représente la valeur de la propriété.

Présentation synthétique de SKOS (2/2)

Les ressources du thésaurus sont des concepts identifiables par des URI que l'on souhaite durables et traçables.

Les propriétés principales des concepts sont :● Les termes ou labels (propriétés prefLabel, altLabel)

● Les relations entre concepts :– Relations hiérarchiques (spécifique vs. Générique, skos:narrower/skos:broader)– Relations d'association (relatedTerm)– Les annotations (définitions, notes)

● Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)

La phase de reprise des données : conversion du Thésaurus en SKOS

Les termes distincts font l'objet de définition de concepts :● Identifiés dans un premier temps par des URL ;● Puis dans un deuxième temps par des ARK.

Les termes préférentiels deviennent des « prefLabel » et les termes non préférentiels des « altLabel » ;

Les domaines et rubriques donnent naissance à des relations bijectives entre concepts (spécifique / générique) ;

Les associations sémantiques d'un terme à des termes d'une autre branche deviennent des relations d'association ;

Les définitions et autres notes deviennent des annotations.

Méthode de travail et outils utilisésLa dernière révision du Thésaurus s'est notamment faite dans le format SKOS :

● Chargé dans l'application ThManager (mais ancienne version de SKOS) ;

● Chargé dans l'application Protege (mais peu conviviale et/ou peu maîtrisée) ;

● Manipulation directes dans un éditeur XML (oXygen, peu convivial mais plus maîtrisé) ;

● Utilisation de scripts pour vérifier la cohérence du thésaurus ;

● Transformations XSL pour produire les anciens états publiés (classement thématique, classement alphabétique).

Édition avec ThManager

Édition avec oXygen

La conception d'un outil de publicationCommande en 2010 (http://data.culture.fr/thesaurus/)

● D'un outil de publication du référentiel

– Pour tirer le meilleur parti du modèle « web de données »● Des URI de concepts déréférençables. Négociation de contenu pour

délivrer – soit une page web présentant le concept (en HTML pour

un client humain) – soit une définition formelle du concept (en RDF/XML

pour un client machine).● Les triplets sont stockés dans une base de données (tripleStore RDF

Sesame)● Une interrogation de ces données est possible par des requêtes SPARQL

Consultation d'un concept du Thésaurus (accès « opérateur humain »)

Consultation d'un concept du

Thésaurus (accès

« opérateur informatique », code SKOS-

XML)

Exemple du module Thésaurus du logiciel Arkhéïa

Exemple d'un autre outil logiciel : solution Ligéo

L'intégration de l'outil du SIAF dans un contexte plus large : le programme HADOC du MCC

Mise en ligne de l'outil de publication :

- Dans un premier temps sur le portail archivesdefrance ;

- Après l'inscription dans le programme HADOC du MCC (« Harmonisation de la production des DOnnées Culturelles »), élargissement du périmètre de l'outil du SIAF à tous les vocabulaires du MCC ;

Les objectifs, plus larges, du programme HADOC :→ Harmoniser la production de données culturelles, selon 3 axes de travail : harmoniser les données (définition de modèles de description et de référentiels communs), promouvoir les normes et standards, harmoniser les processus de production (notamment en mettant en pratique des outils logiciels communs).

La réflexion de HADOC sur l'ensemble des vocabulaires du MCC

Souhait de mettre en œuvre un environnement logiciel de gestion commun des vocabulaires scientifiques et techniques

● « L’objectif est de passer d'une approche où les vocabulaires contrôlés des différents métiers restent avant tout au service de la production de ressources documentaires dans un domaine ou une application, à la création d'un Référentiel terminologique unifié permettant d'offrir aux usagers un accès unique et cohérent aux ressources terminologiques produites par le Ministère et d'en démultiplier les usages » (Katell Briatte, chef du programme HADOC)

L'outil de production de vocabulaires GINCO

Les évolutions de l'outil de consultation dans le cadre de HADOC

Évolutions de l’outil de consultation ● Aménagement en vue de l’intégration d’autres vocabulaires contrôlés du

MCC (services du patrimoine et de l’architecture) ;

● Affichage d’informations spécifiques sur la page de présentation de chaque référentiel ;

● Affichage des concepts (propriétés SKOS, langues) ;

● Affichage des alignements avec d’autres vocabulaires ;

● Transformation des identifiants de concepts en identifiants pérennes de type ARK ;

● Ajout d’une fonction de recherche simple.

Fonctionnalité de recherche simple

Expérimentation sur les alignements (1/3)

DBPedia est un référentiel qui bouge beaucoup, souvent et qui est le produit de la réflexion d'une communauté

● Pour la publication, quelques triplets concernant les concepts alignés avaient été extraits pour alimenter notre propre triple-store (les propriétés : terme, description, pageWeb)

– permet l'indépendance et enrichit la description.

● Avec le temps on observe des décalages entre les informations extraites et celles présentes dans DBPedia ; on peut :

– soit passer à des interrogations dynamiques– soit mettre à jour régulièrement.

Expérimentation sur les alignements (2/3)des identifiants qui n'existent pas (ou n'existent plus)

des identifiants qui n'ont plus d'autre propriété qu'une redirection vers un autre concept (wikiPageRedirects) dont la mise en oeuvre est transparente pour l'utilisateur humain.

des propriétés ambiguës ou peu fiables. Concepts à plusieurs termes

● "Avortement" et "Interruption volontaire de grossesse"

● "Siècle des lumières" "Aufklärung"ou "Travail" et "Work". Dans le rdf de dbpedia les valeurs "Aufklärung " et "Work" sont indiquées comme exprimées en français.

● "Cirque" et "La famille Morallès"

Expérimentation sur les alignements (3/3)

Conclusions● L'alignement demande à être réexaminé régulièrement ;

● L'extraction d'informations est difficilement automatisable ;

● Demande une relecture par un expert métier.

Perspectives

L'usage initial est un thésaurus pour l'indexation ;

Le projet était destiné au départ à répondre à un besoin spécifique (fournir aux services le thésaurus dans une forme structurée réutilisable), mais a permis d'aller plus loin ;

Le travail d'explicitation des relations sémantiques, d'exposition des données en RDF permet d'envisager d'autres réutilisations du Thésaurus par d'autres communautés ;

Cette évolution va peut être susciter d'autres usages hors du domaine de l'indexation des descriptions archivistiques.

Exemples de nouveaux usagesPossibilité de s’appuyer sur le thésaurus pour qualifier des données tiers et donc construire des applications web riches :

Projet ISIDORE : utilisation de la liste « Contexte historique » pour accrocher les notices ISIDORE à des périodes historiques ;

Enrichissement par la TGIR Humanum de la liste « Contexte historique » avec des termes en anglais et en espagnol.

L'utilisation partagée de vocabulaires communs crée de l'interopérabilité sans développement supplémentaire :

Le Thésaurus archives étant aligné sur RAMEAU, il serait possible de relier une ressource archivistique et un livre de bibliothèque à travers les deux référentiels et les liens qu'ils partagent.