46
ISO DIS 25964-1 Thésaurus pour la recherche documentaire Sylvie Dalbin http://claimid.com/sylviedalbin À partir d’un document de travail du CG46/CN357/GE10 Etabli avec Hélène Zysman et Nathalie Yakovleff - Relecture : François Feyler v1 du 21/11/2009 ISO TC46 - Information et documentation Présentation du projet de norme ISO 25964 - Thésaurus et interopérabilité avec d'autres vocabulaires

Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

  • Upload
    dalb

  • View
    5.314

  • Download
    5

Embed Size (px)

DESCRIPTION

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus pour la recherche. A commenter avant mars 2010. (http://dossierdoc.typepad.com/descripteurs/2009/10/parution-de-la-norme-iso-dis-25964-th%C3%A9saurus.html)

Citation preview

Page 1: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

ISO DIS 25964-1 Thésaurus pour la recherche documentaire

Sylvie Dalbinhttp://claimid.com/sylviedalbin

À partir d’un document de travail du CG46/CN357/GE10

Etabli avec Hélène Zysman et Nathalie Yakovleff - Relecture : François Feyler

v1 du 21/11/2009

ISO TC46 - Information et documentation

Présentation du projet de norme

ISO 25964 - Thésaurus et interopérabilité avec d'autres vocabulaires

Page 2: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.2/51

SommaireStatut de cette présentation 31. Contexte normatif 42. DIS 25964-1 - Thésaurus pour la recherche documentaire 9

» Ce qui est inchangé / Z47-100 (1981)» Ce qui est nouveau ou modifié / Z47-100 (1981)» Ce qui est modifié / Z47-100 : enrichissement» Changements terminologiques

3. Composants de la norme 16» Principes généraux du modèle de données» Diagramme UML» Classes» Définitions et symboles» Multilinguisme» Présentation/Affichage du thésaurus» Gestion du thésaurus» Logiciel de gestion de thésaurus» Modèle de donnée - Schéma XML» Intégration dans des applications» Protocoles : SKOS et schéma ISO 25964-1» En conclusion : recherche d’un équilibre

4. Comment commenter le DIS ? 39Annexes 41

Page 3: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.3/51

Statut de cette présentation

Document de communication

A l’attention des professionnels de l’infodoc

– Connaissant les thésaurus • Cette présentation n’explique pas ce que sont les

thésaurus)

– Utilisateurs de thésaurus suivant la norme NF Z47100 (1981)

• Cette présentation expose les points communs et les divergences par rapport à cette norme

S’approprier plus aisément le document normatif

– Ne se substitue pas au projet de norme elle-même

– Comment acquérir ou consulter ce projet de norme• Voir Annexe 2

Page 4: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

1. CONTEXTE NORMATIF

Page 5: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.5/51

Procédures de normalisation ISO

• Des étapes formalisées– Suivi de la procédure pour l’ISO 25964 : http://tinyurl.com/yz2vgzu

• ISO 25964 - Partie 1 - Thésaurus pour la recherche

Stade 4 - Enquête publique• projet de Norme internationale (DIS = Draft Int. Standard)• distribué à tous les comités membres de l'ISO pour vote et

observations publiques dans un délai de cinq mois, avant de passer au stade de projet final avant publication.

• Clôture des commentaires : 26 mars 2010.

• ISO 25964 - Partie 2 - Interopérabilité

Stade 2 - Stade préparatoire• Travail en cours au sein d’un groupe international d’experts appuyés

par des groupes de travail locaux.• Passage au stade suivant (non publique) en 2010

Page 6: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.6/51

Documents normatifs actuels sur les thésaurus

• Les “très” anciennes normes– ISO 2788:1986 (monolingue) ; ISO 5964:1985 (multilingue)– NF Z47-100:1981 (monolingue) ; NF Z47-101:1990 (multilingue)

» Ces normes seront remplacées par l’ISO 25964-1

• Mises à jour dans une période récente par les anglos-saxons – ANSI/NISO Z39.19:2005 - ouverture vers :

» d’autres types de vocabulaires » des problématiques d’interopérabilité

– BS 8723, Structured vocabularies for information retrieval, 2004/2008» renforce les questions d’interopérabilité entre vocabulaires

• IFLA - Guidelines for multilingual thesauri, 2005 et 2008• W3C - SKOS Reference - Recommandation août 2009

– Format permettant l’exploitation sur le Web, de systèmes d’organisation de concepts comme les thésaurus ou classification

– Repose sur un modèle de thésaurus simplifié– ISO 25964-2 - interopérabilité avec ce modèle

Tous les liens - http://dossierdoc.typepad.com/descripteurs/2005/08/documents-normatifs.html

Page 7: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.7/51

Projet ISO 25964 (a)

• Proposition faite par UK en 2006– Validée par 5 pays en 2007 (USA, DE, ES, FR et UK)

• Porté par l’ISO TC46/SC9/WG8– « Identification et description » / Vocabulaires structurés– Miroir à l’Afnor pour la France par le CG46/CN357/GE10

• Fondements : – Thésaurus à des fins de recherche documentaire– S’inscrit dans les évolutions actuelles– Tout en restant dans la continuité des normes et des pratiques

• Un projet de norme en 2 parties :– Thesauri and interoperability with other vocabularies / Thésaurus et

interopérabilité avec d’autres vocabulaires» Part 1: Thesauri for information retrieval / Thésaurus pour la recherche

d’information (échéance fin 2010/début 2011)» Part 2: Interoperability with other vocabularies / Interopérabilité avec

d’autres vocabulaires (échéance 2011 voire 2012)

Page 8: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.8/51

Projet ISO 25964 (b)

• Déroulement• Validation du démarrage du projet en août 2007 • ISO DIS 25964-1 - Partie 1

» Version CD (committee draft) en Décembre 2008 » Version DIS (draft) - octobre 2009 - Commentaires attendus pour

mars 2010• ISO DIS 25964-1 - Partie 2

» Version WD (working draft) en juillet 2009 > DIS attendu pour le 26 mars 2010

• Calendrier du projet (explication des sigles) - http://tinyurl.com/ylre6cj

• Participants• Groupe ISO - Pays représentés

– CA (2 personnes), DN (1), FR (2), DE (3), DK (2) - UK (4), US (1), SP (1)– Auditeur hors WG : ZH (1)

• Groupe Afnor : membres participants en Annexe 1

Page 9: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

2. DIS 25964-1 : THESAURUS POUR LA RECHERCHE

DOCUMENTAIRE

Partie 1 - Thésaurus pour la recherche d’information

Le projet de norme est présenté sous forme d’un document numérique structuré sur le

site du BSI (UK)http://drafts.bsigroup.com/?d=517

(pré-inscription gratuite obligatoire)

Page 10: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.10/51

Ce qui est inchangé (a) / Z47-100 (1981)

• « recommandations pour le développement et la maintenance de thésaurus. » (Scope, p.1)

“Cette partie de la norme ISO 25964 fournit des recommandations pour le développement et la maintenance de thésaurus destinés à des applications de recherche documentaire. Elle s’applique à des vocabulaires utilisés en recherche d’information de tout type de ressources d’information quel que soit le media concerné (texte, son, image fixe ou animé, objet physique ou multiméidas), incluant des bases de connaissances ou des portails, des bases bibliographiques ou textuelles, des collections muséales ou multimédia, et tout élément en leur sein”.

Page 11: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.11/51

Ce qui est inchangé (b) / Z47-100 (1981)

• Une liste (ensemble/set) de concepts – Utilisés en post-coordination à l’indexation/recherche– Reliés entre eux par des relations sémantiques

• hiérarchiques, associatives et d’équivalence.– Représentés par des termes

• un terme préférentiel et un seul, dans chaque langue• le terme préférentiel est accompagné de termes non préférentiels• forme des termes : langage naturel

• Possibilité d’organiser ou de regrouper des ensembles de concepts sous d’autres formes– des domaines (ou champs sémantiques, micro thésaurus) (cf.planche 27)– des facettes (cf.planches 28-29)

• Conception et maintenance d’un thésaurus– Des règles pour le choix des concepts et des termes, et

l’établissement des relations– Hors exploitation

Page 12: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.12/51

Ce qui est nouveau ou modifié / Z47-100 (1981)

• Un seul document normatif pour les thésaurus monolingues et multilingues - ISO DIS 25964-1 (2009)

• Un enrichissement sémantique• Des relations typées (tout/partie, instance,…), personnalisables• Poids des concepts - un thésaurus est un « schéma de concepts »• Concept formellement distingué du Terme, c’est-à-dire de la forme

linguistique choisie pour le représenter

• Un formalisme adapté aux systèmes informatiques actuels• « Système de représentation de concepts » modélisé autour de 5

« classes » (cf. planche 18)• Représenté visuellement selon le formalisme UML• Chaque entité qui compose ce système a un identifiant, qui peut être un

URI

• Une norme étendue aux problématiques d’interopérabilité des thésaurus avec d’autres vocabulaires

• Partie 2 initiée fin 2009, articulée avec cette Partie 1

Page 13: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.13/51

Ce qui est nouveau ou modifié / Z47-100 (exemples)

• Relations sémantiques enrichies• TGP = terme générique (partitif) et TSP = terme spécifique (partitif)

système nerveux central TGP système nerveuxsystème nerveux TSP système nerveux central

• TGI = terme générique (instance) - TSI = terme spécifique (instance)Paris TGI capitalescapitales TSI Paris

• Rq - Cette typologie existe dans la norme ISO 2788:1986

• Relations sémantiques personnalisables– Au lieu de EM (employer)/EP(employé pour) pour les équivalents, on

peut distinguer par exemple• les abréviations (étiquette AB) • les acronymes (étiquette AC)

– Autres types de relations possibles dans certains environnements• Cause/Conséquence ; Processus/Produits,..

Page 14: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.14/51

Ce qui est modifié / Z47-100 : enrichissement

Un Guide de bonnes pratiques et un outil pratique, de 134 p.• Des recommandations

• Comment sélectionner les concepts et les organiser– Désambiguïser les concepts ; concepts complexes – Enrichir les relations - Personnaliser les relations– Prendre en compte des langues et des cultures : recommandations pour

établir les équivalences - pas de norme distincte pour le multilinguisme - prise en compte des systèmes d’écriture

• Comment représenter les concepts par des termes – Désambiguïsation lexicale

• Comment organiser un projet « thésaurus » (conception, maintenance)• Quelles fonctionnalités attendre des logiciels de gestion de thésaurus

• Un modèle de données– Classes, attributs, relations et un schéma UML - Format d’échange XML

• De nombreux exemples– concepts, termes, formats de présentation, mono/multilingue

Page 15: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.15/51

Changements terminologiquesAvant (Fra) Maintenant (Eng) Maintenant (Fra)

Descripteur Preferred term Terme préférentiel

Non Descripteur Non-preferred term Terme non préférentiel

Note d’application Scope note Note explicative (ou d’emploi)

Champ sémantique, micro- thésaurus, domaines,…

Concept Group Groupe de concepts, Domaine

Facette Thesaurus Array Groupement par facettes

Relais virtuel Node label Libellé (ou étiquette) de nœud

Le projet de norme n’étant pas encore traduit en français, ces traductions peuvent évoluer.

Page 16: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

3. COMPOSANTS DE LA NORME

A partir du modèle de donnéesChapitre 15 du DIS

Page 17: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.17/51

Principes généraux du modèle ISO 25964-1

• Un modèle • représenté par des classes, attributs, associations • Précision sur UML - Unified modeling language - Annexe 3 de cette présentation

• 5 classes principales• Thesaurus (thésaurus) [Table 4, p.100 du DIS]

• ThesaurusConcept (concept) [Table 6, p.102 du DIS]

• ThesaurusTerm (terme) [Table 8, p.105 du DIS]

• Note (note) [Table 8, p.106 du DIS]

• ConceptGroup (groupe de concepts=Domaines) [Table 7, p.104] du DIS

• ThesaurusArray (groupement par facettes) [Table 4, p.100 du DIS]

• Chacune de ces 5 classes possède • des attributs -- obligatoires ou optionnels

– Identifiant, date (création, modification), langue, notation, type de valeur, …– Possibilité de personnaliser des attributs

• des associations entre classes– Exemple : la classe Concept est associée à la Classe Term

Page 19: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.19/51

Classe - Thesaurus (Table 4, p.100 du DIS)

• Représentation formalisée du Thésaurus en tant qu’entité

• Des attributs pour présenter le thésaurus – essentiellement ceux du Dublin

Core– Identifiant et langue : obligatoires– Gestion des versions

(VersionHistory)• version, date, note, indication de

la version courante• Non obligatoire

• Classe composée de 3 sous-classes– ThesaurusConcept– ConceptGroup – ThesaurusArray

Page 20: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.20/51

Classe - ThesaurusConcept (a) (Table 6, p.102 du DIS)

• Concepts : Identifiants obligatoires• Distincts des Termes

• Relations sémantiques entre concepts (cf aussi planche 13)

• Hiérarchiques– Concept de tête de hiérarchie (top

concept - symbole TT)• Associatives• Attribution de rôles (TG, TS, TSI,…)

• Notes associées au concept• Note explicative (d’emploi)• Note historique• Personnalisation avec possibilité de

typer les notes

• Représentation• Terme (ThesaurusTerm)

• Regroupements• Domaines (ConceptGroup)• Facettes (ThesaurusArray)

Page 21: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.21/51

Classe - ThesaurusConcept (b)• Concept

• concept simple : « chat »• concept complexe (chapitre 7, p.31 du DIS)

– «biodégradabilité” ou “militant des Droits de l’Homme”– Des recommandations sur les facteurs à prendre en compte pour la

division ou le maintien d’un concept complexe

• Catégories de concepts– Objets et leurs parties physiques – Matériaux– Activités ou processus– Evènements ou faits – Propriétés des personnes, objets, matériaux ou actions – Disciplines ou domaines – Unités de mesure – Types de personnes ou d’organisations – Entités uniques analogues à des noms propres

» Lieux» Objets spécifiques, caractéristiques topographiques, et autres entités » Individus, fonctions et organismes

Page 22: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.22/51

Classe - ThesaurusTerm (a) (Table 8, p.105 du DIS)

• Terme • terme préférentiel unique par langue

• Attributs pour les termes• Identifiant et valeur lexicale :

obligatoires• Gestion du terme : date, source,

statut, • Langue• Rôle : abréviation, forme obsolète,

caché,…• Personnalisation d’attributs

• Note associée au terme• Historique, éditoriale, définition

• Relations entre termes et concepts • non formalisées

• Relations d’équivalence des termes intra-langue

• Voir planche suivante

Page 23: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.23/51

Classe - ThesaurusTerm (b) (Table 8, p.105 du DIS)

• Relations d’équivalence entre termes – entre « terme non préférentiel simple » (SimpleNonPreferredTerm) et « terme

préférentiel » (PreferredTerm)– Exemple : café soluble EM café instantané

• Relation d’équivalence composée (CompoundEquivalence) entre termes– un « terme non préférentiel à décomposer » (SplitNonPreferredTerm) est

décomposé ou scindé en au moins deux « termes préférentiels « (PreferredTerm)– Exemple : transplantation de rein USE transplantation d'organe + rein

(Ethique des Sciences de la Vie)

Page 24: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.24/51

Concept et Termes

• Le cœur d’un thésaurus est constitué des concepts et de leurs relations sémantiques

• Le formalisme d’encodage distinguant concepts et termes rend : – le dispositif plus complexe…

• Une gestion double : pour le concept et pour les termes

– mais plus souple• L’indexation devrait/pourrait se faire sur l’identifiant du concept, la

maintenance des termes devenant plus facile et permettant potentiellement une prise en compte plus rapide des environnements culturels et des pratiques

• Les extractions et exports devraient également être plus simples

– plus proche du langage naturel• « tout terme du langage naturel pouvant exprimer un concept de façon

non ambiguë, étant susceptible d’être intégré comme terme non préférentiel »

Page 25: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.25/51

Classe - Note (Table 9, p. 106 du DIS)

• Attributs pour les notes– nom de la note, date de

création/modification, langue, type• Type de note

– Concepts• Note explicative (ScopeNote)• Note historique (HistoryNote)• Définition (Definition)• Note éditoriale (EditorialNote)• Note personnalisable (CustomNote)

– Termes• Note historique (HistoryNote)• Définition (Definition)• Note éditoriale (EditorialNote)• Note personnalisable (CustomNote)

- manque sur la copie d’écran

Page 26: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.26/51

Classe - ConceptGroup (Table 7, p.104 du DIS)

• Groupe de concepts/Domaines– Facultatif– Type : « microthésaurus »,

« champs sémantiques », « thèmes », « domaines »…

• Attributs des domaines– Identifiant : obligatoire – Type : obligatoire

• Relations– relient des Concepts au

ConceptGroup– HasSubGroup/ HasSuperGroup

• Forme lexicale des Domaines (ConceptGroupLabel)– attributs spécifiques (dates, langue)

Page 27: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.27/51

Classe - ThesaurusArray (a) (Table 5, p.101 du DIS)

• Un concept appartient à une série (ThesaurusArray)

• La série de concepts est produite en « appliquant une facette »

• Au sein de cette série, les concepts sont frères (sibling)

• le terme choisi pour représenter le concept est le terme préférentiel

• Les concepts peuvent être ordonnancés ou classés (attribut : ordered) au sein de ce regroupement, indépendamment des relations hiérarchiques de chaque concept dans sa branche hiérarchique

• Un libellé (étiquette) de noeud (NodeLabel) représente la facette

• Ce nœud n’est pas un concept du thésaurus

Page 28: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.28/51

Classe - ThesaurusArray (b) (Table 5, p.101 du DIS)

(products) milk

(milk by fat content)• whole milk• low fat milk• skim milk

(milk by form)• dried milk• liquid milk

(milk by source animal)• buffalo milk• cow milk• goat milk• sheep milk

(milk by treatment type)• condensed milk• evaporated milk• homogenized milk• pasteurized milk• sterilized milk

• Concepts regroupés par facettes• approche différente des

regroupements thématiques

• Facettes de concepts• « catégories universelles

applicables à toute classification de concepts indépendamment des domaines » (Maniez, 1999)

• entre universel et spécialisation• Catégories universelles

– Objets (Ex: « produits »), Matière (Ex: « matière grasse »), agents, actions/processus, lieux, temps

• Types de regroupements combinable avec des regroupements thématiques

Etiquette de nœud= Node label

Série de même rang

= Array

Page 29: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.29/51

Définitions et symboles employés (p.1 à 12 du DIS)

• Définitions

– 65 notions définieshttp://tinyurl.com/yzz4pnb (tableau non modifiable)

• Symboles– http://tinyurl.com/yj2dee5 (tableau

non modifiable)

– Tableau établi en fonction des pays représentés dans le Groupe ISO WG8

Tags in English Tags en Français

SN Scope note NE Note explicativeb

Note d'emploi

USE Use EM Employer

UF Use forUsed fora

EP Employé pourEmployer pour

BT Broader term TG Terme générique

NT Narrower term TS Terme spécifique

RT Related term TA Terme associé

BTGBroader term (generic)

TGGTerme générique (générique)

BTP Broader term (partitive)

TGPTerme générique (partitif)

BTI Broader term (instantial)

TGITerme générique (instance)

NTGNarrower term (generic)

TSGTerme spécifique (générique)

NTPNarrower term (partitive)

TSPTerme spécifique (partitif)

NTI Narrower term (instantial)

TSITerme spécifique (instance)

Page 30: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.30/51

Multilinguisme (Chap. 9, Chap. 13.3.3. du DIS)

• Relations d’équivalence inter-langue (cross-language)

– Equivalence exacte– en: sun / es: sol / fr: soleil / de: Sonne– en: rail network / fr: réseau ferroviaire / de: Schienennetz / nl: spoorwegnet

– Equivalence inexacte ou proche– en: information retrieval / fr: recherche d’information– fr: jeu didactique / en: learning games

– Equivalence partielle – équivalence générique/spécifique

» de: Wissenschaft / en: science » NE: Comprend les sciences naturelles et sociales, et la connaissance (les

savoirs) en général.– équivalence "1-à-n”, “une-à-plusieurs”

» fr: sécurité / de: Sicherheit / en: safety, security

– Non-équivalence

Attention : cette propriété (niveau d’équivalence) n’est pas formalisée dans le modèle

Page 31: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.31/51

Présentation/Affichage du thésaurus (chap 12, p.60 du DIS)

• Reprise des différents types d’affichage habituels– Notice d’un concept/terme

– Alphabétique

– Hiérarchique avec ou sans facettes

– Systémique (organisé par domaines)

– Organisation par facettes

– Permuté

• Pour des thésaurus multilingues– Par langue

– Table de correspondance multilingue

Page 32: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.32/51

Gestion du thésaurus (chap 13, p.78-89 du DIS)

• Gestion de la construction et de la maintenance du thésaurus– Planification et démarche

– Méthode de construction

– Rédaction d’une introduction au thésaurus

– Moyens de diffusion

– Méthodes d’actualisation

25 ans de pratiques ont permis d’enrichir ce chapitre

Page 33: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.33/51

Logiciel de gestion de thésaurus (chap 14, p.90-94 du DIS)

• Partie enrichie par des recommandations sur :– Taille et limitations des caractères

– Relations entre termes et entre concepts

– Notes se rapportant aux termes et aux concepts

– Codes et notations

– Regroupement par facettes

– Statuts des langues

– Import/export des données

– Navigation et supports (aides) éditoriaux

– Sauvegardes éditoriales

– Outils de gestion du thésaurus

25 ans de pratiques ont permis d’enrichir ce chapitre

Page 34: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.34/51

Modèle de données - Schéma XML (Chap 15, Annexe B du DIS)

• Pour faciliter la prise en main par les concepteurs d’application et les développeurs– Modèle de données (Chap.15 p.93-106 du DIS)

• Double présentation : en format tableau et diagramme UML

– Représentation graphique UML (Annexe 3 de cette présentation)

– Schéma XML (Annexe B du DIS)• En cours de consolidation• S’appuie sur un modèle standard de thésaurus (sans personnalisation)• Est fourni à titre informatif• Après une période de tests (en cours), sera en libre accès sur le site

du Niso (USA)Bientôt en ligne - http://www.niso.org/schemas/iso25964/

Page 35: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.35/51

Intégration dans des applications (Chap. 16, p.106-109)

• Quelques recommandations sur les caractéristiques et fonctions nécessaires :– pour permettre l’intéropérabilité entre systèmes et réseaux

– pour permettre l’utilisation d’un thésaurus dans une application simple d’indexation et de recherche.

• Expansion à la recherche (search expansion)• Suggestion de termes de recherche alternatifs• Classification ou autres moyens pour affiner une recherche• Identification de fautes d’orthographe usuelles• Support à l’indexation automatique

Page 36: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.36/51

Formats d’échange et protocoles (Chap. 17 et 18)

• Formats d’échange– Sont brièvement cités quelques formats (MARC, SKOS, Zthes,…)

• Protocoles de recherche (Chap. 18, p.110-111)– Présentation des buts et cas d’utilisation

– Brefs éléments techniques sur l’environnement applicatif

– Présentation de protocoles spécifiques aux thésaurus (SKOS API, ADL) ou orientés Web (Search Web Services, SPARQL, Z3950)

Page 37: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.37/51

Protocoles : SKOS et schéma ISO 25964-1

• SKOS – Format et spécifications fonctionnelles permettant l’exploitation, sur

le Web, de systèmes d’organisation de concepts (thésaurus, classification,…)

– Repose sur un modèle de thésaurus simplifié, mais offre des solutions pour la cohabitation simultanée de plusieurs schémas

– S’appuie sur le même modèle que la norme ISO 25964, avec des spécifications fonctionnelles propres au Web

– Publiée avant l’ISO 25964-1

• Schéma XML de l’ISO 25964-1– Le schéma s’appuie sur un modèle standard de thésaurus (sans

personnalisation)– Fourni à titre informatif– Nécessite d’être accompagné par des spécifications fonctionnelles

Ressources sur Descripteurs

Page 38: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.38/51

En conclusion : recherche d’un équilibre

• Entre un outil sémantique de recherche / Un vocabulaire– Une partie exclusivement dédiée aux concepts et aux relations entre concepts,

indépendamment des termes– Un (essai de) rééquilibrage du poids de tous les types de termes utiles à la

recherche par rapport à la logique du « terme préféré » représentant une notion pour l’indexation

– Se détacher des spécificités des langues française et surtout anglaise, support de développement des normes initiales

– Se positionner par rapport aux normes similaires existantes : SKOS et terminologies

• Entre des Usages humains / Usages informatiques– “ISO 25964 makes the transition needed for the world of electronic information

management”– Tout au long du document, formulation attentive à l’Ancien et au Nouveau; ne pas

bloquer les situations existantes

• Entre un Guide métier / Un modèle applicatif formel – Décalage entre certaines règles énoncées (ex:travailler selon le principe de l’égalité de la

représentation des langues) et un modèle formel ne pouvant suivre toutes ces règles (ex:le modèle repose sur une structure unique du thésaurus)

• Intégrer mieux d’autres normes– RFC 4646, Tags for identifying languages – SKOS

Page 39: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

4. COMMENTER

Page 40: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.40/51

Comment commenter le DIS ?

• Fin de la période de commentaires publics : 26 Mars 2010• Possibilité de travailler sur des chapitres particuliers

ConceptsTermesConcepts complexesRelations : équivalence, hiérarchiques, associativesMultilinguisme (sur l’ensemble de la norme)Analyse par facettesPrésentationConstruction et gestion du thésaurusFonctionnalités d’un logiciel de gestion de thésaurusModèle de donnéesSchémas XML

• Commenter sous quelle forme ? • Sur le site du BSI, commentaires par chapitres - http://drafts.bsigroup.com/?

d=517• Via la message (avant début mars 2010) au responsable du GE10 (

[email protected]) ou à un membre du groupe

Page 41: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Annexes

Page 42: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.42/51

Annexe 1 - Participants - ISO-WG8 et NF-GE10

• Excellent travail de groupe, au national et à l’international !– ISO TC46/SC9/WG8 - piloté par Stella Dextre Clarke (UK)

– CA: Michèle Hudon, Sophie Lessard - DN: Marianne Lykke Nielsen - FR: Sylvie Dalbin, Bernard Vatant - DE: Traugott Koch, Esther Scheven ; Daniel Kless (via DK) - UK: Stella Dextre Clarke ; Leonard Will; Alan Gilchrist, Richard Light (schéma XML); US: Marcia Zeng ; SP: Francisco Javier García et Anna Martin (NISO)

– Auditeur hors WG : ZH: Zhu Lijun

– Afnor - CG46/CN357/GE10 - piloté par Sylvie Dalbin– Groupe constitué à partir d’un Groupe de travail de l’ADBS depuis 2003

» Actualité des langages documentaires - Vol. 44, N° 1, février 2007http://www.adbs.fr/revue-docsi-volume-44-n-1-fevrier-2007-15735.htm?RH=1202382041875

– Ont travaillé sur le DIS - Dominique Chichereau ; Odile Contat ; Sylvie Dalbin ; Danièle Dégez ; Alina Deniau ; Francois Feyler ; Thierry Guillotin; Dominique Ménillet ; Michel Mingam ; Hélène Rabault; Bernard Vatant ; Virginie Triboulin ; Nathalie Yakovleff, Hélène Zysman.

Page 43: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.43/51

Annexe 2 - Ressources ISO DIS 25964 en ligne

• La norme en ligne (après inscription sur le site du BSI) – http://drafts.bsigroup.com/?d=517

• Acheter la norme– http://dossierdoc.typepad.com/descripteurs/2009/11/commenter-dis-25964-1.html

• Un Dossier Public sur GoogleDocs partiellement en français• http://tinyurl.com/ye8scrq• http://docs.google.com/leaf?id=0B530K5-aANOYZWFkY2NlMTAtYjIxMC00MjA2LThkODctN2MyZDBhYzk1OWY4&hl=fr

4 documents en ligne• Procédure ISO –

http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYcE9QM1JqWnQ5VFdlMGtMR3IzUFU5Tnc&hl=fr

• Définitions - http://tinyurl.com/yzz4pnb Chapitre 2 du DIS 25964-1http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYdDJGeVVzT2JYbVBCZy1ScVNQcFNpU1E&hl=fr

• Codes et symboles - http://tinyurl.com/yj2dee5Chapitre 3 du DIS 25964-1http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYcmlVeldiQTNrR3M4dHRtMTJFOFNUeGc&hl=fr

• Modèle de donnée en format tableau Chapitre 15 du DIS 25964-1http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYdENMVFdVckFVN1JKTXYyc2Njdkp6UEE&hl=fr

Page 44: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.44/51

Annexe 3a - Modèle de données et représentation graphique

• Utilisation d’UML* (Unified Modeling Language)

– langage graphique de modélisation des données et des traitements. – propose une représentation graphique du modèle métier

appréhendable rapidement

• Limite– La norme est ouverte et laisse à l’initiative du concepteur de

thésaurus, un grand nombre de possibilités• Toutes ces possibilités ne sont pas visibles sur le diagramme UML• Ce diagramme n’est pas autosuffisant pour le développement

d’applications. Il doit être complété par des spécifications

– Diagramme UML : de classes uniquement, et non de traitements

* ISO:CEI 19501 : 2005 – Information Technology -- Open Distributed Processing (ODP) -- Unified Modeling Language (UML), version 1.4.2

Page 45: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.45/51

Annexe 3b - UML et son vocabulaire• UML = langage graphique de modélisation

des données et des traitements. • Classes

– « déclare des propriétés communes à un ensemble d'objets, c’est-à-dire des attributs représentant l'état des objets et des méthodes représentant leur comportement »

• Attributs (valeur lexicale, date de création, de modification, langue)

– Caractéristiques (ou propriétés) des classes ou des associations

• Association (entre la classe Concept ou Terme, et la classe Note)

– connexion sémantique entre deux classes

http://fr.wikipedia.org/wiki/Unified_Modeling_Language

Page 46: Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus v1 du 21 Novembre 2009 - p.46/51

Annexe 3c - Comment lire le diagramme UML ?

Vocabulaire utilisé pour le diagramme UML

0..1 optionnel et non répétable (zéro ou un)

0..* optionnel et répétable (zéro ou plus)

1 obligatoire, non répétable (un seulement)

1..* obligatoire et répétable (un et plus)est un (is-a ; « généralisation »- « type de » entre deux classes)

a un (has-a ; « agrégation » - relation partie/tout entre instances)

Types d’éléments• String ou boolean• date; language; class• Précisions pour chaque classe dans la suite du document