55
Référentiels et interoperabilité (2) Antoine Isaac Europeana & Vrije Universiteit Amsterdam Séminaire INRIA IST Carnac, 2 Octobre 2012

Séminaire Inria IST - Référentiels et interoperabilité (2)

Embed Size (px)

DESCRIPTION

Présentation pour le Séminaire IST organisé par Inria : http://www.inria.fr/actualite/agenda/document-numerique

Citation preview

Page 1: Séminaire Inria IST - Référentiels et interoperabilité (2)

Référentiels et interoperabilité (2)

Antoine Isaac

Europeana & Vrije Universiteit Amsterdam

Séminaire INRIA ISTCarnac, 2 Octobre 2012

Page 2: Séminaire Inria IST - Référentiels et interoperabilité (2)

Interopérabilité des éléments de données

• Objectif: passer de données exprimées avec un jeu d’éléments de données à un autre jeu

• Typiquement, relier classes et propriétés de deux ontologies– owl:equivalentClass, owl:equivalentProperty– rdfs:subClassOf, rdfs:subPropertyOf– Axiomes « ad hoc »

edm:Agent rdfs:subClassOf [ rdf:type owl:Restriction ; owl:maxCardinality "1"^^xsd:nonNegativeInteger ; owl:onProperty rdaGr2:dateOfBirth] .

Page 3: Séminaire Inria IST - Référentiels et interoperabilité (2)

Idéalement: réutiliser un maximum de référentiels

Exemple: EDM

http://lov.okfn.org/dataset/lov/details/vocabulary_edm.html

Page 4: Séminaire Inria IST - Référentiels et interoperabilité (2)

Idéalement: réutiliser un maximum de référentiels

Delacroix en EDM

<http://www.mied.fr/personne/Eugene_Delacroix>rdf:type edm:Agent ;foaf:name "Eugène Delacroix" ;skos:altLabel " Ferdinand Victor Eugène Delacroix" ;rdaGr2:dataOfBirth "26 avril 1798" .

Page 5: Séminaire Inria IST - Référentiels et interoperabilité (2)

Application Profiles

Dublin Core Singapore Framework

http://dublincore.org/documents/singapore-framework/

Page 6: Séminaire Inria IST - Référentiels et interoperabilité (2)

Leçons pour la réutilisation d’éléments de données

Points cruciaux : • Accessibilité technique (Linked Data)• Documentation

Le support institutionnel est crucial

• Bonne interconnection - Eviter la duplication • Réponse à des besoins spécifiques (requirements), pas

seulement des problèmes philosophiques• Nécessité de “cartographier” l’offre disponible

Cf. Linked Open vocabularies: http://lov.okfn.org/dataset/lov/

Page 7: Séminaire Inria IST - Référentiels et interoperabilité (2)

En pratique: alignement post hoc

• Souvent la roue a déjà été inventée, quelque part• Mais elle n’était peut-être pas belle…• Et/ou pas vraiment adaptée à votre besoin

Cas des ontologies applicatives ou de sous-domainesPrivilégier une élément d’un jeu particulier peut être contre-productif

Malheureusement beaucoup sont encore réticents à assembler leur jeux d’éléments en recyclant directement des vocabulaires existants

Page 8: Séminaire Inria IST - Référentiels et interoperabilité (2)

Correspondance entre éléments “locaux” utilisés par les fournisseurs et EDM

Scenario Europeana

EDM property -“Original” property -

Page 9: Séminaire Inria IST - Référentiels et interoperabilité (2)

Comment ?

• En général les fournisseurs voudront créer le mapping eux mêmes– Travail ardu, mais la précision est cruciale– Beaucoup ont déjà l’expérience

• Pas d’instruction sur comment le réaliserPlus tard: inférence en utilisant des axiomes OWL, matérialisation par

requête SPARQL CONSTRUCTPour l’instant: n’importe quelle feuille de style XSLT ou script XML-

>EDM/XML

Page 10: Séminaire Inria IST - Référentiels et interoperabilité (2)

Outillage

MINT: http://mint.image.ece.ntua.gr/

Page 11: Séminaire Inria IST - Référentiels et interoperabilité (2)

Outillage

• Autres projets liés à EuropeanaPrestoPrime

prestoprime.joanneum.atEuropeanaConnect semanticweb.cs.vu.nl/xmlrdf

• Context plus généralR2R

www4.wiwiss.fu-berlin.de/bizer/r2rDatalift

datalift.org…

Page 12: Séminaire Inria IST - Référentiels et interoperabilité (2)

Intéropérabilité des vocabulaires de valeurs

12

Provient d’un jeu d’éléments de données

/ ontologie

Provient d’un vocabulaire contrôlé

Page 13: Séminaire Inria IST - Référentiels et interoperabilité (2)

Intéropérabilité des vocabulaires de valeurs

• Requiert l’alignement des éléments de données utilisés pour chacun des vocabulaires, ou la conversion vers un jeu d’élément pivots (par ex. SKOS)

• Requiert la détection d’équivalences « sémantiques » entre concepts

Page 14: Séminaire Inria IST - Référentiels et interoperabilité (2)

Créer un réseau d’équivalences

Page 15: Séminaire Inria IST - Référentiels et interoperabilité (2)

DemoConcepts equivalents• American LCSH

http://id.loc.gov/authorities/subjects/sh85145447

• French RAMEAUhttp://data.bnf.fr/ark:/12148/cb11931913j

• German SWDhttp://d-nb.info/gnd/4064689-0

• STWhttp://zbw.eu/stw/descriptor/14188-0

• DBPediahttp://dbpedia.org/resource/Water

Page 16: Séminaire Inria IST - Référentiels et interoperabilité (2)

SKOS mappings

KOS 1:animalscatswildcats

KOS 2:animalhumanobject

Page 17: Séminaire Inria IST - Référentiels et interoperabilité (2)

Un problème difficile

L’alignement manuel de vocabulaires demande beaucoup de travail• LCSH, RAMEAU et SWD alignés dans le projet MACS• SWD et Dewey alignés dans le projet CRISS-CROSS

Problème: taille, langue, différence d’approches

Le crowdsourcing n’a pas encore été expérimenté pour des vocabulaires experts

Page 18: Séminaire Inria IST - Référentiels et interoperabilité (2)

Sémantique et interopérabilité

Techniques d’alignement automatiques

• Lexicales

• Structurelles

• Connaissances de contexte

• Extensionnelles

Page 19: Séminaire Inria IST - Référentiels et interoperabilité (2)

Web Sémantique et Interopérabilité des Vocabulaires Conceptuels

Alignement lexical

• Utilise les libellés des concepts, définitions…

avancée à la perchebarque BarquebroaderMatch

chat chatexactMatch

chat chatsexactMatch

chat catexactMatch

Page 20: Séminaire Inria IST - Référentiels et interoperabilité (2)

Alignement structurel

Thesaurus 1 Thesaurus 2

“Oeuvre”

“Création”

“Objet” “Objet”

“Livre” “Livre”

Page 21: Séminaire Inria IST - Référentiels et interoperabilité (2)

Référentiel de contexte

Connaissances de contexte

Exploitation des liens d’une référence partagée

Thesaurus 1 Thesaurus 2

“Calendar”

“Publication”

Page 22: Séminaire Inria IST - Référentiels et interoperabilité (2)

Extensionnelles

Néerlandais

Litérature néerlandaise

Thesaurus 1

Thesaurus 2

Utilisant les ressources décrites avec les vocabulaires de valeurs

Page 23: Séminaire Inria IST - Référentiels et interoperabilité (2)

Combiner des techniques: AMALGAME

• Do not try to make the tool smart– use simple atomic matching components– fast, scalable, with predictable and understandable results

• Empower domain experts by interactive iteration loop– try most promising component(s)– analyze the results– decide on next step:

• discard results from last attempt• refine current results to improve precision• look for more results to improve recall

23http://semanticweb.cs.vu.nl/amalgame/

Page 24: Séminaire Inria IST - Référentiels et interoperabilité (2)

Amsterdam Museum case, http://semanticweb.cs.vu.nl/lod/am/

Page 25: Séminaire Inria IST - Référentiels et interoperabilité (2)
Page 26: Séminaire Inria IST - Référentiels et interoperabilité (2)

Alignement: pas de solution triviale

• Ces techniques permettent d’obtenir des résultatsSTW, AGROVOC…

• Mais seules, elles ne suffisent pasCombinaison avec travail manuel (vérification, complétion)

• L’alignement est un problème de recherche difficile• La R&D s’est surtout concentrée sur les ontologies• Le Web de données change la donne

Des outils pour jeux de données sont dévoloppés, e.g., SILK

www4.wiwiss.fu-berlin.de/bizer/silk/

Page 27: Séminaire Inria IST - Référentiels et interoperabilité (2)

Un problème général d’alignement

http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Page 28: Séminaire Inria IST - Référentiels et interoperabilité (2)

Un problème général d’alignement

• Les vocabulaires de valeurs sont des jeux de données, d’un point de vue technique

• Ils sont plus « réguliers » que les jeux de données générauxUne sous-famille utilisant SKOS comme ontologie

• Des techniques similaires sont appliquées aux ontologies, valeurs de vocabulaires et autres jeux de données, même si les caractéristiques des référentiels et les besoins en relations sont différents

Page 29: Séminaire Inria IST - Référentiels et interoperabilité (2)

Des challenges de haut niveau

Page 30: Séminaire Inria IST - Référentiels et interoperabilité (2)

[Cyganiak, Jentzsch] http://linkeddata.org/

Sparse linkage: the LD cloud

Page 31: Séminaire Inria IST - Référentiels et interoperabilité (2)

[Guéret, 2010] http://blog.larkc.eu/?p=1941

Sparse of linkage: another view

Page 32: Séminaire Inria IST - Référentiels et interoperabilité (2)

Stratégies d’alignement ?

Page 33: Séminaire Inria IST - Référentiels et interoperabilité (2)

Stratégie pivot vs. alignement par paire

Backbone, hub-and-spoke [BS8723]

Page 34: Séminaire Inria IST - Référentiels et interoperabilité (2)

Guidage par la communauté ?

http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Page 35: Séminaire Inria IST - Référentiels et interoperabilité (2)

Guidage par la communauté ?

• Liens entre ressources spécifiques aux bibliothèquesVIAF, LCSH, Dewey, UDC, Worldcat, PND…

• Liens de/vers des ressources plus générales– Musées, archives– Coommunauté scientifique: données de recherche– Editeurs– Europeana et autres aggrégateurs

Page 36: Séminaire Inria IST - Référentiels et interoperabilité (2)

Critères de sélection

Exemple: EuropeanaConnect

• Pertinence institutionnelle, par rapport aux collections• Adequation du type de ressources (lieux, sujets, personnes…)

à l’application• “Qualité”

– Grain conceptuel et couverture– Couverture lexicale – langues– Couverture et précision des liens sémantiques

• Licenses

Page 37: Séminaire Inria IST - Référentiels et interoperabilité (2)

Flexibiliser l’approche pivot ?

• Aligner des ressources petites et spécialisées à des ressources plus grandes et générales, multi-lingues et/ou largement adoptées

• Des ressources plus spécialisées pourraient être retenues comme points d’ancrage, en fonction des domaines et des alignement existants

• Plusieurs ressources complémentaires, d’importance comparable, pourraient ensemble jouer le rôle de pivot– La combinaison LCSH-RAMEAU-SWD-etc. peut jouer pour les sujets un rôle

similaire à VIAF– Il est possible d’aligner des vocabulaires spécifiques à l’un ou l’autre

Page 38: Séminaire Inria IST - Référentiels et interoperabilité (2)

Flexibiliser l’approche pivot ?

Les outils d’alignment doivent supporter des stratégies flexibles, avec essais et erreurs

Page 39: Séminaire Inria IST - Référentiels et interoperabilité (2)

Quels types de liens ?

Beaucoup d’ontologies proposent des liens d’équivalence sémantique pour des instances de classes

• owl:sameAs• skos:exactMatch, skos:closeMatch• skos:broadMatch, narrowMatch & relatedMatch• umbel:isLike• ore:isSimilarTo• foaf:focus…

Page 40: Séminaire Inria IST - Référentiels et interoperabilité (2)

Problèmes d’application des liens : owl:sameAs

• En principe, deux URIs liées par owl:sameAs partagent automatiquement ex:a name “Antoine Isaac” .

ex:b owl:sameAs ex:a .

impliqueex:b name “Antoine Isaac” .

• En pratique, owl:sameAs est appliqué entre des ressources qui ne sont que “très similaires”Une même ressource, mais dans differents contextes

Page 41: Séminaire Inria IST - Référentiels et interoperabilité (2)

Problèmes d’application des liens : owl:sameAs

• Par ex., première version de data.nytimes.com http://data.nytimes.com/60694995023816375851

dcterms:rightsHolder The New York Times Company .

http://data.nytimes.com/60694995023816375851

owl:sameAs http://dbpedia.org/resource/Park_Slope%2C_Brooklyn .

• Quelles conséquences?On peut se contenter de ne pas “appliquer” la sémantique de owl:sameAs

Page 42: Séminaire Inria IST - Référentiels et interoperabilité (2)

Bonnes pratiques (1)

Regarder ce qui est alignéConcepts ou autorités vs. documents vs. entités “du monde réel” (personnes, lieux…)

Tenir compte de comment ça a été aligné Co-reference exacte obtenue par reconnaissance d’identifiants uniquesvs. similarité (incl. équivalence) dérivée de libellés ou relations sémantiques

Représenter les données sur l’alignment et/ou la correspondance individuelle est une option

Page 43: Séminaire Inria IST - Référentiels et interoperabilité (2)

Au-delà des liens simples

Pour des besoins spécifiques, on peut représenter des alignments et leur provenance de façon très fine

http://alignapi.gforge.inria.fr/edoal.html

Page 44: Séminaire Inria IST - Référentiels et interoperabilité (2)

Bonnes pratiques (2)

Minimiser l’engagement sémantique des liens utilisés• skos:exactMatch est transitive: les concepts liés peuvent être échangés en

toute généralité, par ex. pour des applications de recherche d’information• skos:closeMatch n’est pas transitive, pour représenter un lien qui ne se

“propage” pas dans les cas où plus de deux vocabulaires sont alignés de manière approximative

Tenir compte de l’application de l’alignement• SKOS implique un “contexte d’application” des alignements• La qualité d’un alignement dépend aussi du type d’application qui l’emploie !

Page 45: Séminaire Inria IST - Référentiels et interoperabilité (2)

Evaluation spécifique à une application

Campagne Ontology alignment Evaluation Initiative 20073 outils évalués suivant deux scénarios: “fusion de thesaurus” et

“ré-indexation de livres”

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Precision Coverage

Falcon

Silas

DSSim

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Pa Ra

Falcon

Silas

DSSim

Page 46: Séminaire Inria IST - Référentiels et interoperabilité (2)

Evaluation spécifique à une application

Cas: 2 thesauri à la bibliothèque nationale des Pays-Bas: GTT and Brinkman

• Pour la fusion de thesaurus, gtt:excavation doit être aligné avec brinkman:excavation

• Pour la ré-indexation, gtt:excavation doit être aligné avec brinkman:archeology_netherlands

Page 47: Séminaire Inria IST - Référentiels et interoperabilité (2)

Applications d’alignements

Par exemple:• Recherche à base de concepts• Ré-indexation de livres• Fusion de thesaurus• Integration d’un thesaurus dans un autre• Recherche plein texte• Navigation

Suggère l’utilisation des correspondences et l’information qu’elles devraient fournir

Page 48: Séminaire Inria IST - Référentiels et interoperabilité (2)

Prédiction de sujets à la KB

Point de départ• 2 collections• Chacune indexée par son propre thesaurus

Collection 1 Collection 2

Thes1 Thes2

Page 49: Séminaire Inria IST - Référentiels et interoperabilité (2)

Prédiction de sujets à la KB

Ré-indexation• But: avoir les livres d’une collection décrits avec le

thesaurus de la seconde• Par ex: si un thesaurus est abandonné, les livres doivent

être indexés avec l’autre

Collection 1 Collection 2

Thes1 Thes2

Page 50: Séminaire Inria IST - Référentiels et interoperabilité (2)

Ré-indexation de livres

Convertir index source en un système d’indexation cible

? ? ?

Thes1

Thes2

Page 51: Séminaire Inria IST - Référentiels et interoperabilité (2)

STITCH final event

Prototype

Dans le projet STITCH

• Etant donnés des index NND/Biblion, prédire un index Brinkman• Mix de techniques

– Lexicales– Statistiques, utilisant 240000 livres communs, très spécifique au scénario

• Integration dans le logiciel de catalogage• Etude utilisateurs (catalogueurs)

Page 52: Séminaire Inria IST - Référentiels et interoperabilité (2)
Page 53: Séminaire Inria IST - Référentiels et interoperabilité (2)

Règles de prédiction de sujets

Source combination → target concept Confidence level

Correct books / Total

DGP:Jeugd fictie; vanaf 13 jaar' + KAR:Stripverhaal → BTR:stripverhalen

0.995 182/182

LTR:Reisgidsen + LTR:Spanje → BTR:Spanje ; reisgidsen

0.982 50/50

LTR:Liefde + AUT:Jeanette Winterson →

romans en novellen ; vertaald 0.540 1/1

LTR:Bouwkunde → BTR:leermiddelen ;

bouwtechniek 0.196 25/123

Les techniques d’alignment extensionnelles prennent en compte les variation d’usage et peuvent être très utiles pour des applications spécifiques

Page 54: Séminaire Inria IST - Référentiels et interoperabilité (2)

Conclusions

• Des solutions techniques qui permettent de résoudre des problèmes, mais mettent en valeur là où la difficulté se pose vraiment– Interopérabilité et contexte– Applications et requirements

• Il semble qu’il y ait besoin de professionnels de l’information !– Sélection de ressources– Alignement manuel et semi-automatique– Relation aux application

• Focus de cette présentation : pas les outils, mais un contexte pour juger les outils

Page 55: Séminaire Inria IST - Référentiels et interoperabilité (2)

Merci !

[email protected]

EuropeanaConnect WP1 @ VU AmsterdamJacco van Ossenbruggen, Victor de Boer, Jan Wielemaker, Guus Schreiber

Equipe projet STITCH: Lourens van der Meij, Shenghui Wang, Stefan Schlobach, Frank van Harmelen, Henk Matthezing, Claus Zinn