Autour des autorités Journées ABES 2012 Yann Nicolas

Preview:

Citation preview

Autour des autorités

Journées ABES 2012Yann Nicolas

IDREF ET LES AUTRESRéseaux d’autorités

SudocNotices bibliographiques

IdRefNotices d’autorité

SudocNotices bibliographiques

IdRefNotices d’autorité

theses.frCalames

Articles open

access Bib.Num.

Cours en ligne

SudocNotices bibliographiques

IdRefNotices d’autorité

theses.frCalames

Articles open

access Bib.Num.

Cours en ligne

BnF

ViafORCID

ISNI

D’autres référentielsd’autorité globaux

?

Référentiels locaux

• Fichier d’autorités virtuel et international• Projet OCLC, LC, DnB et BnF jusqu’en 2012• Service OCLC depuis

• Mise en correspondance de fichiers d’autorités préexistants (dont BnF, IdRef, etc.)

• Pas de possibilité directe de création, ni de modification

• International Standard Name Identifier• Norme ISO (ISO 27729)• Un ID unique pour les acteurs des industries

créatives• D’abord pour la gestion des droits

• Pas d’attribution d’ID directe• Passer par une agence d’enregistrement (Qui ?)

• VIAF représente l’immense majorité de la base ISNI

• Open Researcher Contributor Identification Initiative

• Cible : auteurs scientifiques

• Initiative des éditeurs• Rôle important de Thomson Reuters, qui commercialise

la base de citations Web of Science

• Les chercheurs pourront directement se créer et modifier leur profil et leur ID

• Du producteur au consommateur revendeur

Coexistence des référentiels

• Soit la concurrence sauvage entre autorités• Locales• Globales

• Soit il faut relier ces référentiels entre eux• Mais comment ?• Différents modèles possibles :

Chaque référentiel est lié à chaque autre

Un référentiel central, lié à chaque autre

Des référentiels à différents niveaux

ABC

Identifiantsà vocation locale

Identifiantsà vocation globale

Sudoc

theses.fr

Calames

Preprints, postprints

Cours en ligne

Édition électronique

CRIS

ID Univ.

ID Labo

ID école

ORCID ISNI

XYZ

Identifiantsà vocation régionale

BnF

IdRef

VIAF

DNB (All.)

DAI (NL)

AUTOMATISER LE LIEN AUX AUTORITÉS IDREF

SudocAD

Projet SudocAD

• Projet de recherche 2010-2011• Avec des chercheurs du LIRMM (Montpellier 2) :

» informatique > intelligence artificielle > représentation de la connaissance

• Soutien financier d’ADONIS (CNRS)• Objectif : automatiser le lien aux autorités

Sudoc• Corpus de test : articles de Persée

• Approche : web sémantique (raisonnement)

• On extrait de la notice d’article quelques informations pour constituer une sorte d’autorité Persée.

• Il s’agit ensuite de trouver l’autorité IdRef qui lui ressemble le plus.

Date

Langue

revue

Domainearticle

Nom de l’auteur

« Autorité» Persée

Beaucoup d’appelés

• Rechercher « Christian Schmidt »• Minimiser le risque de passer à

côté :– nomComplet_a:schmidt,christian– nomComplet_a:schmidt,c.– nomComplet_a:schmidt,c– nomComplet_a:schmidt,christian*– nom_a:schmidt AND prenom_a:c– etc.

39 candidats

Pour en savoir plus sur chacune des 39 autorités candidates, on puise dans les notices bibliographiques liées

Puis on compare cette autorité enrichie à l’autorité Persée

Date

Langue

Sujets Rameau

Domaine

Domaine

Nom

Date

Langue

Sujets Rameau

Domaine

Domaine

Strong Medium Weak Poor Neutral Unrelated Impossible

Peu d’élus

Chaque autorité candidate est classée dans une des 7 catégories

Dans quels cas générer automatiquement un lien à une des autorités candidates ?

• Différents algorithmes possibles• Notre algorithme préféré :

14G2 : liage automatique si un seul candidat dans la catégorie de liage la meilleure parmi

Strong et Medium

Evaluation de l’algorithme 14G2

• 77% de bonnes décisions– 58% : décision juste de créer un lien– 19% : décision juste de ne pas créer de lien

• Mauvaises décisions :– 20 % : décision incorrecte de ne pas créer de lien– 1,9% : décision incorrecte de créer un lien

73% des liens à créer sont créés 4% des liens créés sont mauvais

Apparemment, pas plus que chez les humains !

Comparaison avec le programme actuel de liage automatique dans le Sudoc

SudocAD 14G2 Sudoc aujourd’hui

Parmi les liens créés, combien sont faux ?

4% 20%

Parmi les liens à créer, combien sont effectivement créés ?

73% 43%

* Chiffres à confirmer

Enseignements de SudocAD

• Résultats très encourageants• Double Exploitation possible :

• Liage automatique• Aide à la décision

• Marges de progression identifiées :• Amélioration de la comparaison des domaines• Amélioration de la comparaison des noms• Exploitation d’autres propriétés comme :

» Indexation matière» Co-auteurs» Rôles

• Les erreurs de lien présentes Sudoc font errer SudocAD

Rapport final : http://www.abes.fr/Sudoc/Projets-en-cours/SudocAD

La suite

• Continuer les expérimentations avec les programmes de SudocAD

• Nouveaux corpus : HAL, licences nationales• Pas d’utilisation en production tout de suite

• Aller plus loin dans le cadre d’un nouveau projet de recherche : Qualinca

• Projet ANR (2012-2015)• Avec des labos d’informatique (LIRMM, LIG, LRI) et l’INA• Sur la qualité des liens dans un catalogue et dans le contexte du

web de données» Mesurer la qualité des liens actuels» Générer de nouveaux liens

Recommended