25
Autour des autorités Journées ABES 2012 Yann Nicolas

Autour des autorités Journées ABES 2012 Yann Nicolas

Embed Size (px)

Citation preview

Page 1: Autour des autorités Journées ABES 2012 Yann Nicolas

Autour des autorités

Journées ABES 2012Yann Nicolas

Page 2: Autour des autorités Journées ABES 2012 Yann Nicolas

IDREF ET LES AUTRESRéseaux d’autorités

Page 3: Autour des autorités Journées ABES 2012 Yann Nicolas

SudocNotices bibliographiques

IdRefNotices d’autorité

Page 4: Autour des autorités Journées ABES 2012 Yann Nicolas

SudocNotices bibliographiques

IdRefNotices d’autorité

theses.frCalames

Articles open

access Bib.Num.

Cours en ligne

Page 5: Autour des autorités Journées ABES 2012 Yann Nicolas

SudocNotices bibliographiques

IdRefNotices d’autorité

theses.frCalames

Articles open

access Bib.Num.

Cours en ligne

BnF

ViafORCID

ISNI

D’autres référentielsd’autorité globaux

?

Référentiels locaux

Page 6: Autour des autorités Journées ABES 2012 Yann Nicolas

• Fichier d’autorités virtuel et international• Projet OCLC, LC, DnB et BnF jusqu’en 2012• Service OCLC depuis

• Mise en correspondance de fichiers d’autorités préexistants (dont BnF, IdRef, etc.)

• Pas de possibilité directe de création, ni de modification

Page 7: Autour des autorités Journées ABES 2012 Yann Nicolas
Page 8: Autour des autorités Journées ABES 2012 Yann Nicolas

• International Standard Name Identifier• Norme ISO (ISO 27729)• Un ID unique pour les acteurs des industries

créatives• D’abord pour la gestion des droits

• Pas d’attribution d’ID directe• Passer par une agence d’enregistrement (Qui ?)

• VIAF représente l’immense majorité de la base ISNI

Page 9: Autour des autorités Journées ABES 2012 Yann Nicolas

• Open Researcher Contributor Identification Initiative

• Cible : auteurs scientifiques

• Initiative des éditeurs• Rôle important de Thomson Reuters, qui commercialise

la base de citations Web of Science

• Les chercheurs pourront directement se créer et modifier leur profil et leur ID

• Du producteur au consommateur revendeur

Page 10: Autour des autorités Journées ABES 2012 Yann Nicolas

Coexistence des référentiels

• Soit la concurrence sauvage entre autorités• Locales• Globales

• Soit il faut relier ces référentiels entre eux• Mais comment ?• Différents modèles possibles :

Page 11: Autour des autorités Journées ABES 2012 Yann Nicolas

Chaque référentiel est lié à chaque autre

Page 12: Autour des autorités Journées ABES 2012 Yann Nicolas

Un référentiel central, lié à chaque autre

Page 13: Autour des autorités Journées ABES 2012 Yann Nicolas

Des référentiels à différents niveaux

Page 14: Autour des autorités Journées ABES 2012 Yann Nicolas

ABC

Identifiantsà vocation locale

Identifiantsà vocation globale

Sudoc

theses.fr

Calames

Preprints, postprints

Cours en ligne

Édition électronique

CRIS

ID Univ.

ID Labo

ID école

ORCID ISNI

XYZ

Identifiantsà vocation régionale

BnF

IdRef

VIAF

DNB (All.)

DAI (NL)

Page 15: Autour des autorités Journées ABES 2012 Yann Nicolas

AUTOMATISER LE LIEN AUX AUTORITÉS IDREF

SudocAD

Page 16: Autour des autorités Journées ABES 2012 Yann Nicolas

Projet SudocAD

• Projet de recherche 2010-2011• Avec des chercheurs du LIRMM (Montpellier 2) :

» informatique > intelligence artificielle > représentation de la connaissance

• Soutien financier d’ADONIS (CNRS)• Objectif : automatiser le lien aux autorités

Sudoc• Corpus de test : articles de Persée

• Approche : web sémantique (raisonnement)

Page 17: Autour des autorités Journées ABES 2012 Yann Nicolas

• On extrait de la notice d’article quelques informations pour constituer une sorte d’autorité Persée.

• Il s’agit ensuite de trouver l’autorité IdRef qui lui ressemble le plus.

Date

Langue

revue

Domainearticle

Nom de l’auteur

« Autorité» Persée

Page 18: Autour des autorités Journées ABES 2012 Yann Nicolas

Beaucoup d’appelés

• Rechercher « Christian Schmidt »• Minimiser le risque de passer à

côté :– nomComplet_a:schmidt,christian– nomComplet_a:schmidt,c.– nomComplet_a:schmidt,c– nomComplet_a:schmidt,christian*– nom_a:schmidt AND prenom_a:c– etc.

39 candidats

Page 19: Autour des autorités Journées ABES 2012 Yann Nicolas

Pour en savoir plus sur chacune des 39 autorités candidates, on puise dans les notices bibliographiques liées

Puis on compare cette autorité enrichie à l’autorité Persée

Date

Langue

Sujets Rameau

Domaine

Domaine

Nom

Date

Langue

Sujets Rameau

Domaine

Domaine

Page 20: Autour des autorités Journées ABES 2012 Yann Nicolas

Strong Medium Weak Poor Neutral Unrelated Impossible

Peu d’élus

Chaque autorité candidate est classée dans une des 7 catégories

Page 21: Autour des autorités Journées ABES 2012 Yann Nicolas

Dans quels cas générer automatiquement un lien à une des autorités candidates ?

• Différents algorithmes possibles• Notre algorithme préféré :

14G2 : liage automatique si un seul candidat dans la catégorie de liage la meilleure parmi

Strong et Medium

Page 22: Autour des autorités Journées ABES 2012 Yann Nicolas

Evaluation de l’algorithme 14G2

• 77% de bonnes décisions– 58% : décision juste de créer un lien– 19% : décision juste de ne pas créer de lien

• Mauvaises décisions :– 20 % : décision incorrecte de ne pas créer de lien– 1,9% : décision incorrecte de créer un lien

73% des liens à créer sont créés 4% des liens créés sont mauvais

Apparemment, pas plus que chez les humains !

Page 23: Autour des autorités Journées ABES 2012 Yann Nicolas

Comparaison avec le programme actuel de liage automatique dans le Sudoc

SudocAD 14G2 Sudoc aujourd’hui

Parmi les liens créés, combien sont faux ?

4% 20%

Parmi les liens à créer, combien sont effectivement créés ?

73% 43%

* Chiffres à confirmer

Page 24: Autour des autorités Journées ABES 2012 Yann Nicolas

Enseignements de SudocAD

• Résultats très encourageants• Double Exploitation possible :

• Liage automatique• Aide à la décision

• Marges de progression identifiées :• Amélioration de la comparaison des domaines• Amélioration de la comparaison des noms• Exploitation d’autres propriétés comme :

» Indexation matière» Co-auteurs» Rôles

• Les erreurs de lien présentes Sudoc font errer SudocAD

Rapport final : http://www.abes.fr/Sudoc/Projets-en-cours/SudocAD

Page 25: Autour des autorités Journées ABES 2012 Yann Nicolas

La suite

• Continuer les expérimentations avec les programmes de SudocAD

• Nouveaux corpus : HAL, licences nationales• Pas d’utilisation en production tout de suite

• Aller plus loin dans le cadre d’un nouveau projet de recherche : Qualinca

• Projet ANR (2012-2015)• Avec des labos d’informatique (LIRMM, LIG, LRI) et l’INA• Sur la qualité des liens dans un catalogue et dans le contexte du

web de données» Mesurer la qualité des liens actuels» Générer de nouveaux liens