23
Structurer, relier et diffuser des données avec les technologies du web sémantique : l'exemple d'un référentiel sur les monuments du Caire Lundis numériques de l’INHA 11 mai 2015 Pierre MOUNIER (InVisu USR 3103 CNRS/INHA) Emmanuelle PERRIN (InVisu USR 3103 CNRS/INHA)

Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Embed Size (px)

Citation preview

Page 1: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Structurer, relier et diffuser des données avec les technologies du 

web sémantique :l'exemple d'un référentiel sur les monuments du Caire

Lundis numériques de l’INHA ‐ 11 mai 2015

Pierre MOUNIER (InVisu USR 3103 CNRS/INHA)Emmanuelle PERRIN (InVisu USR 3103 CNRS/INHA)

Page 2: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Cour de la mosquée Touloun Vue de la cour de la mosquée Teyloun

Mosquée El Tulun Le Caire, cour d’une mosquée

Page 3: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Touloun : 13 résultatsTulun : 24 résultatsTeyloun : 4 résultats

Page 4: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Touloun : 21 résultatsTulun : 7 résultatsTeyloun : aucun résultat

Page 5: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Numéro d’inventaire

nom en arabe

translittérations normalisées

forme courante en français

typologielocalisation

commanditaire

variantes

liens

L’organisation et la  structuration des données

Page 6: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Liste de monuments variantes des noms des monuments et sources

Typologie architecturale variantes des types de monuments et sources

Relation générique‐spécifiqueou classe‐instance

L’organisation et la  structuration des données

Page 7: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Le modèle RDF (Resource Description Framework)

langage de base du web sémantique pour la description des ressources

Les URI (Uniform Resource Identifier) : des ressources identifiées par des URIhttp://data.bnf.fr/ark:/12148/cb15908819z

La distinction entre le concept et le terme

mosquée

" جامع " 

" mosquée" 

" mosque" 

a pour appellation en arabe

a pour appellation en français

a pour appellation en anglais

concept

terme

Page 8: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Les principaux éléments de SKOS

SKOS (Simple Knowledge Organization System) est une recommandation du W3C pour ladescription des thésaurus et des vocabulaires contrôlés.

Les labels : skos: prefLabel : équivalent du terme vedette ou du descripteur dans un thésaurusskos:altLabel : équivalent des termes rejetés ou non descripteurs (employé pour) skos:hiddenLabel : peut être utilisé pour les pluriels ou les mots mal orthographiésles étiquettes de langue : la langue des termes est indiquée par le code ISO des languesL’extension SKOS‐XL  (SKOS eXtension for Labels)  permet d’apporter des informations supplémentaires sur les libellés

Les relations sémantiques : skos:broader : relation génériqueskos:narrower : relation spécifiqueskos:related : relation associative

Les définitions, notes d’applications et notes éditoriales :skos:definitionskos:scopeNoteskos:editorialNote

Les alignements : skos:exactMatch : équivalence exacteskos:closeMatch : équivalence inexacteskos:broadMatch : relation génériqueskos:narrowMatch : relation spécifiqueskos:relatedMatch : relation associative

Page 9: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire
Page 10: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Les liens avec des données de référence

les ressources de la BnF : http://data.bnf.fr/ LC Linked Data Service : http://id.loc.gov/ The Getty Vocabularies : http://vocab.getty.edu/ Le Fichier d'autorité international virtuel : https://viaf.org/ International Standard Name Identifier : http://www.isni.org/ La base de données géographiques GeoNames : http://www.geonames.org/ Ddpedia : http://wiki.dbpedia.org/

Listes de jeux de donnéeshttp://datahub.io/fr/datasethttp://www.w3.org/2005/Incubator/lld/XGR‐lld‐vocabdataset‐20111025/http://www.w3.org/2001/sw/wiki/SKOS/Datasets

Page 11: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62

جامع أحمد بن طولون

skos:prefLabel@ar

" mosquée ibn Tulun" 

skos:prefLabel@fr" jāmi‘ Aḥmad ibn 

Ṭūlūn" 

skos:prefLabel@ALA

http://cairogazetteer.fr/invisu/resource/ark:/67717/d35049688efd41a

944d269a058233958

skos: altLabel@MUL

" mosquée d'Ahmed ibn Touloun" 

skos:altLabel@MUL

source bibliographique

dc:source

http://cairogazetteer.fr/invisu/resource/ark:/67717/02bd9dfeaea4fabffd04571e19688842

source bibliographique

" mosque of Ahmad ibnTulun " 

dc:sourceskos:altLabel@MUL

skos: altLabel@MUL

La modélisation SKOS : Les informations terminologiques" ğāmiʿ Aḥmad ibn Ṭūlūn" 

skos:prefLabel@ISO

skos:Concept

Page 12: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62

La mosquée d'Ahmad ibn Tulun,gouverneur de l'Égypte de 868 à884, édifiée de 876 à 879 (AH263‐265 ), se trouve dans lequartier d'al‐Sayyida Zaynab(anciennement Qal'at al‐kabsh).Numéro d'inventaire : 220.Coordonnées géographiques :N 30°01′43″ E 31°14′59″

skos:skopeNote@fr

http://www.geonames.org/359824/as‐sayyidah‐zaynab.html

skos:relatedMatch

http://cairogazetteer.fr/invisu/resource/ark:/67717/c79e436c0a1d37528b2ecbd26b928723

skos: broader

skos:prefLabel@ar

skos:prefLabel@fr

skos:prefLabel@en

" ǧāmiʿ " 

" jāmi‘  " 

" gami' " 

skos:prefLabel@ISO

skos:prefLabel@ALA

skos:altLabel@MUL

skos:relatedMatch

http://isni.org/isni/0000000116926412

http://www.geonames.org/7922805

skos: exactMatch

http://data.bnf.fr/ark:/12148/cb11953036m

http://id.loc.gov/authorities/subjects/sh850874

70

"  جامع " 

" mosquée " 

" mosque " 

skos: exactMatch

fondateur

quartier

typologie

localisation

" gâma’ " 

http://vocab.getty.edu/aat/300007544

La modélisation SKOS : les relations génériques et associatives

skos:altLabel@MUL

Page 13: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Les outils de gestion et de diffusion

Openthesohttp://opentheso.frantiq.fr/opentheso/

IQvochttp://iqvoc.net/

G inco + G inco-diffhttps://github.com /culturecommunication/ginco

https://github.com/culturecommunication/ginco-diff

Page 14: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

De la source à la diffusion

OpenRefine

GINCOGINCODIFF

.xml.xls .skos

Page 15: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Openrefine .xls → .xml( Concept et terme )

skos:Concept skos:prefLabel@fr

monuments/5 mosquée ibn Tulun

<concepts> <identifier>http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62</identifier> <created>2015-02-05T14:36:54+01:00</created> <modified>2015-02-05T14:36:54+01:00</modified> <status>1</status> <topConcept>false</topConcept></concepts>

<terms> <identifier>http://cairogazetteer.fr/invisu/resource/ark:/67717/5d03278a4b5a1bbb1a7ea2c9ca984d6d</identifier> <lexicalValue>mosquée ibn Tulunmosquée ibn Tulun</lexicalValue> <created>2015-02-05T14:36:54+01:00</created> <modified>2015-02-05T14:36:54+01:00</modified> <prefered>true</prefered> <hidden>false</hidden> <status>1</status> <concept> <identifier>http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62</identifier> <created>2015-02-19T12:02:07.207+01:00</created> <date>2015-02-19T12:02:07.209+01:00</date> <status>1</status> <topConcept>true</topConcept> </concept> <language> <id>ar</id> <part1>ar</part1> <principalLanguage>true</principalLanguage> <refname>Arabe</refname> <topLanguage>true</topLanguage> </language></terms>

Templating

Page 16: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Openrefine .xls → .xml( Autres données )

skos:broaderskos:related

skos:relatedMatchskos:exactMatchskos:closeMatch

skos:scopeNote

<hierarchicalRelationship/><associativeRelationship/>

<alignments/>

<conceptNotes/>

Templating

Templating

Templating

Page 17: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Openrefine

( Templating )

Page 18: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Ginco ( Interface )

Page 19: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Ginco ( Export .xml )

<skos:Concept rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62 "><skos:prefLabel xml:lang="fr-FR">mosquée ibn Tulun</skos:prefLabel>

<skos:altLabel xml:lang="ALA">jāmi‘ Ibn Ṭūlūn</skos:altLabel> <xl:altLabel> <iso-thes:SimpleNonPreferredTerm

rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/2ee341cba2ac22be94433ea04f70db5d"/> </xl:altLabel> <skos:broader> <skos:Concept rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/c79e436c0a1d37528b2ecbd26b928723"/> </skos:broader>

<skos:relatedMatch rdf:resource="http://vocab.getty.edu/aat/300021806"/></skos:Concept>

<iso-thes:SimpleNonPreferredTerm rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/2ee341cba2ac22be94433ea04f70db5d">

<dc:source>http://www.loc.gov/catdir/cpso/romanization/arabic.pdf</dc:source> <iso-thes:status>1</iso-thes:status> <xl:literalForm xml:lang="ALA">jāmi‘ Ibn Ṭūlūn</xl:literalForm> <dct:modified>2015-04-08T12:13:25+02:00</dct:modified> <dct:created>2015-02-05T14:36:54+01:00</dct:created></iso-thes:SimpleNonPreferredTerm>

Page 20: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Ginco-Diff ( Outil de diffusion )

Page 21: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Skos Play( Outil de diffusion )

Page 22: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Pour conclure

référentiel

outils

données

Utilisation de SKOS

La modélisation des données entraîne leursimplification. Les notes d’applicationcontiennent des données non typées(coordonnées géographiques, date deconstruction).

Les outils de diffusion ne sont pas au niveau desoutils de gestion et occasionnent une perted’information.

Utilisation de Ginco

Un outil fonctionnel, institutionnel et maintenu.Il a pu répondre à nos principales demandes : extension SKOS‐XL pour indiquer les sources des variantes paramétrage de langues virtuelles pour la translittération

Page 23: Structurer, relier et diffuser des données avec les technologies du web sémantique: l'exemple d'un référentiel sur les monuments du Caire

Les problèmes de doublons

Doublons entre les termes préférentielsdistinction par la translittérationمسجد mosquée (masǧid) mosque (masjid)جامع mosquée (ǧāmiʿ) mosque (jāmi‘)فندق caravansérail (funduq) caravanserai (funduq)وكالة caravansérail (wikālaẗ) caravanserai (wikālah)

Doublon entre le type et le nom d’un monumentdistinction par la mention (architecture) pour les types de monumentsNilomètre (architecture) / Nilomètre

Doublon entre les noms des monumentsdistinction par la mention du quartier caravansérail Qaytbay (al‐Gamaliyya)caravansérail Qaytbay (al‐Darb al‐ahmar)

Doublon entre les variantesdistinction par le numéro du monument

Okâla du sultan Kâïtbâï [75]Okâla du sultan Kâïtbâï [9]