55
Juin 2010 [email protected] 1 Modélisation, environnements sémantiques et Web de données Muriel Foulonneau Centre de Recherche Public Henri Tudor Luxembourg séminaire ISKO juin 2010

Modélisation, environnements sémantiques et Web de données

  • Upload
    chessmu

  • View
    1.718

  • Download
    0

Embed Size (px)

DESCRIPTION

Presentation International Society for Knowledge Organization 8/06/2010

Citation preview

Page 1: Modélisation, environnements sémantiques et Web de données

[email protected] 1Juin 2010

Modélisation, environnements sémantiques et Web de données

Muriel FoulonneauCentre de Recherche Public Henri Tudor

Luxembourg

séminaire ISKO juin 2010

Page 2: Modélisation, environnements sémantiques et Web de données

Sémantique?

2

Page 3: Modélisation, environnements sémantiques et Web de données

Objectif

ä La représentation des donnéesä De la forme traditionnelle à

une publication avec les technologies sémantiques

ä Partagerä Les descriptions mais aussi

leur sens et les associations

3

Page 4: Modélisation, environnements sémantiques et Web de données

Juin 2010 [email protected]

Les métadonnées assurent l’interopérabilité sémantique

[email protected]

ä L’interopérabilité est la capacité pour 2 systèmes de dialoguer entre eux

ä J’ai besoinl D’un langage communl D’un interpréteur

01-04-04

- “01-04-04”

- c’est un mois

- 01=“Jan”

Page 5: Modélisation, environnements sémantiques et Web de données

Knowledge Organization

Systems

5

Page 6: Modélisation, environnements sémantiques et Web de données

Les terminologies

ä Les vocabulaires contrôlésä Réduire l’ambiguité du langage naturel lorsque l’on décrit et

recherche des informations.ä Composé de termes utilisés pour représenter un conceptä Problèmes

l Des particularités du langage naturel posent des problèmes (synonymes et ambiguité)

Différents termes (synonymes) peuvent représenter le même concept. Le même terme (homographes) peut représenter différents concepts.

6

Page 7: Modélisation, environnements sémantiques et Web de données

Différents types de terminologies

ä Liste contrôlée non hiérarchiséeä Taxonomie et système de classification (avec

organisation hiérarchique)ä Thésaurus

ä Équivalenceä Hiérarchique (termes génériques/spécifiques)ä Association (voir aussi)

ä => Pour intégrer des synonymes dans des recherches, élargir des recherches, naviguer, représenter, …

7

Page 8: Modélisation, environnements sémantiques et Web de données

Listes de termes

ä Pour permettre de gérer les ambiguités. ä Des fichiers d’autorité comportent des variantes d’un

nom.ä Les glossaires sont des listes de termes avec leurs

définitions dans un domaine spécifiqueä Dictionnaires, ils incluent différentes acceptions d’un

terme, ils sont présentés de manière alphabétique, avec éventuellement des informations sur l’origine du terme

ä “Gazetteers” avec des noms de lieux, leur position etcä “Synonym Rings” pour étendre des requêtes de

manière transparente

8

Page 9: Modélisation, environnements sémantiques et Web de données

Taxonomies

ä Organisation hiérarchique de catégoriesä Généralement utilisées pour classifier

9http://biodiversite.wallonie.be/cgi/sibw.esp.list2.pl?VAR=Mammiferes

Page 10: Modélisation, environnements sémantiques et Web de données

Autorités sujet

ä Listes contrôlées de sujetä Ex Rameau, LCSH, MeSHä Permettent souvent des compositionsä Peuvent inclure des sous-catégories

10

Page 11: Modélisation, environnements sémantiques et Web de données

Thésaurus

ä Pour de la rechercheä Ensemble limité de relations entre les termes

ä Equivalence (synonymes) ä Hiérarchique (termes génériques / spécifiques)

l générique (sous-classe/super-classe), instance (classe/instance) et partitive (tout-partie)

ä Association (voir aussi).

11

Page 12: Modélisation, environnements sémantiques et Web de données

Systèmes de classification

ä Similaires à des taxonomiesä Visent à l’exhaustivité et en principe les concepts ne se

recouvrent pas (appartenance exclusive).ä Systèmes énumératifs (tous les concepts sont

explicites) ou synthétiques (des règles permettent des combinaisons de concepts)

ä Les facettesprésentes desclassifications selon des dimensions qui s’excluent mutuellement

12

Page 13: Modélisation, environnements sémantiques et Web de données

Les bases lexicales

ä Des relations plus riches que celles des thésaurus, éventuellement spécifiques à chaque baseä Ex. WordNet inclut homonymie, antonymie, synonymie

13

http://wordnetweb.princeton.edu/perl/webwn?s=mill&sub=Search+WordNet&o2=&o0=1&o7=&o5=&o1=1&o6=&o4=&o3=&h=

Page 14: Modélisation, environnements sémantiques et Web de données

Les ontologies

ä Modélisation d’un domaine avec des classes, des instances, des attributs, des sous-classes, … et de nombreuses relations spécifiques.

ä Ex. CIDOC-CRM (Martin Doerr, Stephen Stead http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt)

P11 participated in E7 Activity

“Crimea Conference”

E65 Creation Event

E38 Image

P86 falls within

P7 took place at

P67 is referred to by

E52 Time-SpanFebruary 1945

P82 at some time within

E39 Actor

E39 Actor

E53 Place7012124

Page 15: Modélisation, environnements sémantiques et Web de données

Folksonomies

ä Pour indexation par une communauté d’utilisateursä cinema people vs movie people (C. Shirky)

15

http://www.flickr.com/photos/tags/

Page 16: Modélisation, environnements sémantiques et Web de données

RDF Crash course

16

Page 17: Modélisation, environnements sémantiques et Web de données

Technologies sémantiques

ä RDF

ä Classes et instances

17

Alice CNRS

http://moi/est_employee_par

Alice Dupont

foaf:name

Alice CNRS

http://moi/est_employee_par

Foaf:person

Foaf:organization

Moi:research_organizationrdf:type

rdf:type

rdfs:subclass_of

Page 18: Modélisation, environnements sémantiques et Web de données

Les règles

ä Je peux par exemple définir que ä Si foaf:person http://moi/est_employee_par Foaf:organizationä Et Foaf:organization http://moi/localisation x

=> Alors foaf:person http://moi/localisation x

18

Alice CNRS

http://moi/est_employee_par

Foaf:person

Foaf:organization

Moi:research_organizationrdf:type

rdf:typehttp://moi/localisation

Paris

Page 19: Modélisation, environnements sémantiques et Web de données

La transitivité

19

Alice Charles

http://moi/a_le_meme_age_que

Hugues

Alice Charles

foaf:knowsfoaf:knows

Hugues

http://moi/a_le_meme_age_que

foaf:knows

Page 20: Modélisation, environnements sémantiques et Web de données

Syntaxes

ä RDF/XML

ä Turtle

ä etc

20

<rdf:RDF xmlns:rdf=‘http://www.w3.org/1999/02/22-rdf-syntax-ns# ’ xmlns:dc=‘http://purl.org/dc/elements/1.1/’>

<rdf:Description rdf:about=‘urn:isbn:0596002637’> <dc:title>Practical RDF</dc:title> </rdf:Description>

</rdf:RDF>

<rdf:RDF xmlns:rdf=‘http://www.w3.org/1999/02/22-rdf-syntax-ns# ’ xmlns:dc=‘http://purl.org/dc/elements/1.1/’>

<rdf:Description rdf:about=‘urn:isbn:0596002637’> <dc:title>Practical RDF</dc:title> </rdf:Description>

</rdf:RDF>

@prefix dc: <http://purl.org/dc/elements/1.1> .<urn:isbn:0596002637> dc:title ‘Practical RDF’ .

@prefix dc: <http://purl.org/dc/elements/1.1> .<urn:isbn:0596002637> dc:title ‘Practical RDF’ .

Source Alistair Miles, SKOS Core Tutorial, DC-2005 Madrid

Page 21: Modélisation, environnements sémantiques et Web de données

W3C SKOS

Simple Knowledge Organization System

21

Page 22: Modélisation, environnements sémantiques et Web de données

SKOS

ä Structure de baseä skos:Concept

ä Etiquetage lexicalä skos:prefLabel, skos:altLabel, skos:hiddenLabel

ä Etiquetage symboliqueä skos:prefSymbol, skos:altSymbol

ä Documentationä skos:definition, skos:note, skos:example, skos:scopeNote,

skos:historyNote, skos:editorialNote, skos:changeNote

ä Relations sémantiquesä skos:broader, skos:narrower, skos:related

22

Page 23: Modélisation, environnements sémantiques et Web de données

Structure de base

ä Concept scheme permet de décrire tous les systèmes de terminologiesä Thesaurus, système de classification, autorités, vocabulaires

contrôlés ...

ä Il est défini comme un ensemble de concepts, éventuellement avec des propriétés et des relations avec d’autres concepts

ä Concept

23

Page 24: Modélisation, environnements sémantiques et Web de données

Concept Scheme

24

Page 25: Modélisation, environnements sémantiques et Web de données

Skos:Concept

25Source Alistair Miles

Page 26: Modélisation, environnements sémantiques et Web de données

Labels lexicaux

26

Source Alistair Miles

Page 27: Modélisation, environnements sémantiques et Web de données

Multilingues

27

Source Alistair Miles

Page 28: Modélisation, environnements sémantiques et Web de données

Labels symboliques

28

Source Alistair Miles

Page 29: Modélisation, environnements sémantiques et Web de données

Les relations

ä Broader, Narrower, Related

http://www.w3.org/2004/02/skos/http://www.w3.org/2004/02/skos/

Page 30: Modélisation, environnements sémantiques et Web de données

Questions liées à la transitivité

ä Problème si skos:related était transitifä ex:renaissance skos:related ex:humanism. ä ex:humanism skos:related ex:philosophicalAnthropologyä ex:philosophicalAnthropology skos:related

ex:philosophyOfMindä ex:philosophyOfMind skos:related ex:cognitiveScience.

30

http://www.w3.org/2004/02/skos/http://www.w3.org/2004/02/skos/

Page 31: Modélisation, environnements sémantiques et Web de données

Propriétés de mapping

ä skos:mappingRelation ä skos:closeMatch ä skos:exactMatch ä skos:broadMatchä skos:narrowMatch ä skos:relatedMatch

31

Page 32: Modélisation, environnements sémantiques et Web de données

Exemple de Skosification Rameau

http://rameau.bnf.fr/informations/pdf/journee2008/rameau_skos.pdf

Page 33: Modélisation, environnements sémantiques et Web de données

Exemple SKOS

ä Issu de LCSHä http://id.loc.gov/authorities/sj96005060.rdf

33

Page 34: Modélisation, environnements sémantiques et Web de données

Linked Data

34

Page 35: Modélisation, environnements sémantiques et Web de données

Construire le Web de données

ä Des données sous forme de RDF statements

ä Identification des ressources via des HTTP URIs « dé-référençables »ä Il doit être possible de cliquer et obtenir de l’informationä Distinction « information resources » (lien vers la ressource)

and « non information resources » (redirection vers une ressource d’intérêt)

ä Représentations multiples des ressourcesä Au moins RDF/XMLä Négociation de contenu

35Dublin Core

Page 36: Modélisation, environnements sémantiques et Web de données

Une source de données

ä Il est préférable d’utiliser des relations vers des sources de données externes (ex: dbpedia)

36

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

Page 37: Modélisation, environnements sémantiques et Web de données

Fusion de graphes

37

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

Page 38: Modélisation, environnements sémantiques et Web de données

Lier des graphes a posteriori

ä Si une ressource est désignée avec 2 URIs différentes dans 2 sources de données différentesä Il est possible d’ajouter une équivalence entre les URIs grâce à

owl:sameAs

38

<http://dbpedia.org/resource/Berlin> owl:sameAs

<http://sws.geonames.org/2950159/>

Page 39: Modélisation, environnements sémantiques et Web de données

Publier des données sur des terminologies

39

Page 40: Modélisation, environnements sémantiques et Web de données

Une publication orientée service

40

http://www.viaf.org/

Page 41: Modélisation, environnements sémantiques et Web de données

Des points d’accès alternatifs

ä Header de la page LCSHä Contient des relations alternate et searchä http://id.loc.gov/authorities/

41

Page 42: Modélisation, environnements sémantiques et Web de données

SKOS en RDFa

ä Les données sont encodées dans la page HTMLä http://id.loc.gov/authorities/

42

Page 43: Modélisation, environnements sémantiques et Web de données

SKOS de

ä Christianity – History http://id.loc.gov/authorities/sj96005060.rdf

ä Semantic Web http://id.loc.gov/authorities/sh2002000569#concept

43

Page 44: Modélisation, environnements sémantiques et Web de données

SKOS-XML de Christianity – History

ä Issu de LCSHä http://id.loc.gov/authorities/sj96005060.rdf

44

Page 45: Modélisation, environnements sémantiques et Web de données

Des métadonnées classiques au

monde sémantique

45

Page 46: Modélisation, environnements sémantiques et Web de données

Dublin Core: différentes ères

ä Des métadonnées simples pour les ressources Webä Orientées « discovery »ä Faire mieux que l’anarchieä 15 éléments

ä Des « qualifiers »ä Dctermsä Qualifiers (ex hasVersion) ou de premier niveau (ex. audience)

ä Des profils d’applicationsä DC Collection, DC Education, DC Library etcä Des terminologiesä Des termes pour indiquer les terminologies

46

Page 47: Modélisation, environnements sémantiques et Web de données

Vers une structure sémantique

ä Une structure différenteä Ex avec les qualifiers de DC:Relation

l Replaces, requiresl hasVersion, isPartOf

ä Le DCAM et la Singapour Frameworkä Un modèle de donnéesä Des propriétés

Þ objectif: rendre le modèle compatible avec le Web sémantique, avec un modèle modulaire Þ dcterms:title

47

Page 48: Modélisation, environnements sémantiques et Web de données

Un registry

48

http://dcmi.kc.tsukuba.ac.jp/dcregistry/

Page 49: Modélisation, environnements sémantiques et Web de données

Représentations multiples d’une ressource

49

Page 50: Modélisation, environnements sémantiques et Web de données

Vocabulary encoding scheme

50

Page 51: Modélisation, environnements sémantiques et Web de données

Syntax encoding scheme

51

Page 52: Modélisation, environnements sémantiques et Web de données

Structures et activités du DCMI

ä Usage Board, Advisory Boardä Des communautés et des task groupsä Les conférences

ä Un task group KOS pour décrire les KOS

ä SWAP validé comme DC AP

52

Page 53: Modélisation, environnements sémantiques et Web de données

Comment rendre une terminologie sémantique?

ä La skosifier?ä Le modèleä Rendre explicites un certain nombre de relationsä L’encoder (et la valider)

ä La référencer et l’exposer: linked data, registries, repositories…ä S’assurer que les collections référencent correctement la

terminologie

53

Page 54: Modélisation, environnements sémantiques et Web de données

Des terminologies sur le Web sémantique

ä Partageä Modèle décentraliséä L’exploitation des ressources sur le Web

via de simples liens

ä Descriptions non ambigües, pour les machinesä Le principe 1 – 1ä Faut-il penser comme une machine?

l problèmes de validité, fiabilité, autorité, qualité

ä Modèles d’inférences

54

Page 55: Modélisation, environnements sémantiques et Web de données

Références

ä CRM tutorial at Imperial College, UK, May 22, 2009 .Martin Doerr, Steve Stead, The CIDOC CRM, a Standard for the Integration of Cultural Information http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt

ä Alistair Miles, SKOS Core Tutorial, DC Conference 2005, Madridä Douglas Tudhope, Traugott Koch, Rachel Heery, Terminology Services

and Technology  - JISC state of the art review http://www.ukoln.ac.uk/terminology/TSreview-jisc-final-Sept.html

ä Chris Bizer , Richard Cyganiak, Tom Heath How to Publish Linked Data on the Web, 2007, http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

ä http://ivan-herman.name/2009/05/01/library-of-congress-subject-headings-in-skos-on-line/

ä http://dublincore.org/documents/abstract-model/ä Clay Shirky, Ontology is Overrated: Categories, Links, and Tags

http://www.shirky.com/writings/ontology_overrated.htmlä Thierry Boucher, Le vocabulaire Rameau en SKOS,

http://rameau.bnf.fr/informations/pdf/journee2008/rameau_skos.pdf

55