DONNÉES DE LA RECHERCHE - Research Data Management · Outil d’intégration des données et triplestores RDF échelonnables SPARQL est un langage de requête puissant pour RDF Semblable

DONNÉES DE LA RECHERCHEMODULE 3-1:L’utilisation de Linked Data

Elena MastrandreaSchweizerisches Institut für Informationswissenschaft (SII)Licence CC BY 2.5

All cartoons courtesy of Jørgen Stamp, digitalbevaring.dk

CC BY 2.5

DATA SHARING: UTILISATION ET POTENTIEL

Qu’est-ce que l’utilisation de données de la recherche publiées?

Valeur culturelle (par exemple en cas d’une collecte de données unique dans l’histoire et impossible à répéter, ou collecte de données sur des groupes difficilement accessibles et des phénomènes rares).

Rendre possible de nouvelles recherche grâce aux données générées.

De nouveaux potentiels de recherche sont créés pour des analyses secondaires avec de nouvelles questions et méthodologies de recherche, pour des comparaisons temporelles et/ou d’échantillons, ou pour interconnexion des données avec d’autres sources.

2

UTILISATON DES DONNÉES: CONDITIONS

Je dois comprendre les données. De quoi traitent les données? D’où viennent-elles? Quand ont-elles été collectées?

La qualité des données doit être bonne. Ai-je toutes les données dont j’ai besoin? Y a-t-il des erreurs ostensibles dans mes données? Dois-je nettoyer mes données? Dois-je corriger certaines erreurs? Dois-je compléter certaines données manquantes?

3

Vorführender

Präsentationsnotizen

C‘est leur interprétation qui rend les données utiles. Elles doivent pour cela être bien documentées et préparées.

UTILISATION DES DONNÉES: CONDITIONS

Une réutilisation ultérieure des données peut être limitée quandla qualité des données de suffit pas.certaines conditions juridiques ne sont pas remplies.il est impossible d’interpréter les données.les données sont perdues ou endommagées.

“Producing data of high quality is essential to the advancement of science” (ICPSR)

„Metadata are often the only form of communication between the secondary analyst and the data producer“ (ICPSR)d

Source: http://wiki.bildungsserver.de/bilder/upload/checkliste_datenmanagement.pdf

4

Vorführender


Plus j’en sais sur la source et plus la base de départ que je crée ou utilise est détaillée, plus le potentiel de nouvelles découvertes est important.

PROBLÉMATIQUE DE L’UTILISATION DES DONNÉES

Flux de données croissantsL’exploration et l’analyse de grandes quantités de données est toujours plus complexe.

Augmentation de la complexité des donnéesComme puis-je créer avoir une visualisation de l’ensemble des données et en tirer des conclusions?

Traitement de données abstraitestelles que des cours d’actions, statistiques, relations, etc. (par opposition à des données comme des mesures de température, de temps, etc.)

5

VISUALISER LES DONNÉESLa visualisation nous aide

à découvrir des relations et des particularitésdiscovery

à analyser les données de manière exploratoireexploration

à trouver des explications pour des échantillons, des lois scientifiques ou des caractéristiquesexplanation

à prendre des décisionsdecision making

à représenter visuellement des données abstraitescommunication

La visualisation permet par exemple d’identifier des valeurs extrêmes ou de découvrir des corrélations.

6

Vorführender


Les visualisations peuvent être utiles à l’interprétation des données. De grandes quantités de données et des structures complexes deviennent plus claires. Une visualisation efficace nécessite cependant des connaissances pointues.

COMPARER ET RELIER LES DONNÉES

Use Case: Nous souhaitons comparer les données de divers dépôts.

Situation de base: Deux tableaux dans des formats différents (ex. fichier SPSS et fichier CSV)

Problématique: Différents standards de métadonnées, vocabulaires et modèles de données

7

Vorführender


Les données ouvertes se basent généralement sur des formats, des standards de métadonnées et des modèles de données différents. La question suivante se pose alors: à quel degré les données sont-elles ouvertes? La qualité et la documentation des données ne sont pas les seuls critères décisifs pour la réutilisation; les données doivent aussi être interopérables. L’intégration de données hétérogènes représente souvent un obstacle et un défi pour les chercheurs lors de la réutilisation.

INTEROPÉRABILITÉ

“ ... the ability of two or more systems or components to exchange information and to use the information that has been exchanged.” (http://en.wikipedia.org/wiki/Interoperability)

Interopérabilité structurelle (modèle de données commun) Interopérabilité syntaxique (codification syntaxique commune) Interopérabilité sémantique (vocabulaire commun)

Source: http://www.kim-forum.org/Subsites/kim/DE/Materialien/Glossar/glossar_node.html

8

Vorführender


Pour pouvoir être utilisées, les données doivent souvent être cherchées, vérifiées, nettoyées et transformées au prix d’efforts acharnés, afin qu’une comparaison ou une interconnexion soit possible. Les données doivent être interopérables, aussi bien structurellement et syntaxiquement (par exemple sous forme de services web) que sémantiquement (au moyen de transformations de modèles).

INTERPRÉTATION AUTOMATIQUE

Exemple: Tableau 1 – auteur: Sir Tim Berners-Lee Tableau 2 – nom: Timothy John Berners-Lee

Comment puis-je (ou mon ordinateur) savoir qu’il s’agit de la même personne?Ou comment les contenus peuvent-ils être interprétés par des machines?

9

Source: https://en.wikipedia.org/wiki/Tim_Berners-Lee

Vorführender


L’aspect de l’interprétation automatique des données publiées est important: comment les contenus peuvent-ils être compris par des machines?

INTÉGRATION DES DONNÉES

Solution possible: Linked Data (avec RDF en tant que modèle de données)

Nous relions des entités avec leurs descriptions et leurs relations à diverses sources.

Exemple DBpedia:

http://uk.dbpedia.org/page/Tim_Berners-Lee

10

Vorführender


Intégrer des données au moyen du Linked Data, comment ça marche? Nous interconnectons les données avec des données de diverses sources, ainsi qu’avec leurs descriptions et relations. Nous en créons des données que l’on peut rechercher, agréger et réutiliser. Que nous apporte le Linked Data? un modèle uniforme pour la représentation de données hétérogènes une réutilisation simplifiée l‘interconnexion des données est aisée l‘évolution des schémas de données est possible utilisation d’entités déjà existantes chez d’autres prestataires de données enrichissement de ses propres données par leur interconnexion optimisation des possibilités de recherche les vocabulaires peuvent être aisément réutilisés et étendus selon les besoins Le Linked Data permet la recherche, l’interconnexion, la description et la réutilisation de tous types de données. Sources: http://www.dnb.de/SharedDocs/Downloads/DE/DNB/wir/linkedOpenData.pdf?__blob=publicationFile

LINKED DATA

Modèle de données: RDF (Resource Description Framework) Sémantique: ontologies connues, telles que Dublin Core, DCAT, etc. Média: le web (HTTP) Langage d’interrogation: SPARQL Base de données: tripelstore RDF Interrogation des données: SPARQL endpoint Liens (URIs): en tant qu’identifiants Interprétation automatique

11

Vorführender


Idée: évolution d’un réseau de documents («web of documents») vers un réseau de données («web of data») composés d’assertions fractionnées et lisibles par machine. Grâce aux méthodes d’inférences logiques, on peut générer des connaissances supplémentaires.

UN TRIPLET RDF

Au lieu de décrire un document, je décris une seule information.

sujet prédicat objet(entité/ressource) (attribut) (valeur de l’attribut)

12

une ressource(URI)

une autreressource

(URI ou littéral)

une relation(URI)

Vorführender


RDF est une syntaxe générale pour la représentation de données sur le web. Chaque information exprimée en RDF est dite «triplet» et fait partie d’un graphe. Cela signifie que des faits sont décrits de manière isolée et indépendantes, sous forme de triplets (sujet-prédicat-objet). Des URIs sont utilisés pour identifier les entités/ressources.

UN TRIPLET RDF

<The Mona Lisa> <was created by> <LeonardoDa Vinci>.<Bob> <is interested in> <The Mona Lisa>.<Bob> <is a> <person>.<Bob> <is born on> <the 4th of July 1990>.<Bob> <is a friend of> <Alice>.

13

Source: https://www.w3.org/TR/2014/NOTE-rdf11-primer-20140225/

Vorführender


Les triplets peuvent être reliés entre eux et représentés au moyen d‘un graphe.

GRAPHE RDF: RÉSEAU DE TRIPLETS RDF

<the Mona Lisa><http://www.europeana.eu/portal/record/03919/FCD38BDE7A03579F24BEDA5D157943B75BB36F11.html>

<was created by><http://purl.org/dc/terms/creator> (dcterms:creator)

<LeonardoDa Vinci>.<http://dbpedia.org/resource/Leonardo_da_Vinci>

14

Vorführender


Un graphe RDF est un ensemble de triplets RDF. Grâce à ce modèle, des données dispersées peuvent facilement être reliées entre elles. La sérialisation de graphes RDF peut se faire selon diverses syntaxes: Turtle, N-Triples, RDF/XML, JSON-LD. Exemple en syntaxe N-Triples: <http://www.europeana.eu/portal/record/03919/FCD38BDE7A03579F24BEDA5D157943B75BB36F11.html><http://purl.org/dc/terms/creator><http://dbpedia.org/resource/Leonardo_da_Vinci> .

VOCABULAIRE RDF

15

Il faut des règles pour représenter des triplets: Description des données au moyen

d’ontologies Interopérabilité sémantique

(vocabulaires communs)

Où chercher des vocabulaires?Linked Open Vocabularies (LOV)http://lov.okfn.org/dataset/lov/

Vorführender


Dans la mesure du possible, les ontologies les plus connues sont à préférer. Les vocabulaires RDF peuvent être réutilisés et étendus sans trop de problème. Le site http://lov.okfn.org/dataset/lov/ permet de chercher des vocabulaires RDF déjà existants.

‘REUSE OF VOCABULARY’

Exemple: Archives Pina Bausch

16

Vorführender


Source: http://download.springer.com/static/pdf/255/chp%253A10.1007%252F978-3-642-54886-4_18.pdf?originUrl=http%3A%2F%2Flink.springer.com%2Fchapter%2F10.1007%2F978-3-642-54886-4_18&token2=exp=1457022122~acl=%2Fstatic%2Fpdf%2F255%2Fchp%25253A10.1007%25252F978-3-642-54886-4_18.pdf%3ForiginUrl%3Dhttp%253A%252F%252Flink.springer.com%252Fchapter%252F10.1007%252F978-3-642-54886-4_18*~hmac=83f8cd7d7f37d60c13570f69251981fe68c9ca90ada9d1d45d16a07a5683eab4

LANGAGE DE REQUÊTE SPARQL

SPARQLProtocolAndRDFQueryLanguage

Un standard du W3C Permet de réaliser des requêtes complexes Offre diverses fonctions, par ex. pour des traitements à la volée (on the fly) Supporte les Federated Queries et l’interconnexion à la volée

17

SPARQL QUERY

PREFIX dbo: <http://dbpedia.org/ontology/>PREFIX ex: <http://example.org/property/>

SELECT DISTINCT * WHERE {?s ?p ?o

}LIMIT 10

Les requêtes se font via des interfaces dites SPARQL endpoints (ex. de DBpedia: http://dbpedia.org/sparql).

18

Vorführender


SPARQL in 11 minutes PREFIX pour URIs (Namespaces) SELECT pour le choix (variables apparaissant dans les résultats), WHERE pour les conditions WHERE définit des conditions pour les variables et les comparaisons SPARQL endpoint public de DBpedia: http://dbpedia.org/sparql

RÉSUMÉ

Il est relativement simple de générer des triplets RDF et de les réutiliser Chercher des vocabulaires RDF déjà existants et en réutiliser si possible les termes Flexible et extensible – Réutilisable aussi en-dehors de ce cas d’application Les triplets RDF peuvent être reliés à diverses données externes. De bons outils sont disponibles – des APIs en RDF pour divers langage de programmation Outil d’intégration des données et triplestores RDF échelonnables

SPARQL est un langage de requête puissant pour RDF Semblable à SQL, certaines connaissances spécifiques étant néanmoins nécessaires Les ontologies et les schéma doivent être connus. Les Federated Queries et requêtes de SPARQL endpoints externes sont possibles.

19

Vorführender


Als nächstes werden Sie zum Forscher und Entdecker

RESSOURCES PÉDAGOGIQUES & OUTILS

RDF 1.1 Primer: https://www.w3.org/TR/2014/NOTE-rdf11-primer-20140225/

SPARQL in 11 minutes: https://www.youtube.com/watch?v=FvGndkpa4K0

Semantic University: http://www.cambridgesemantics.com/semantic-university/

LOD Laundromat (entry point to a collection of existing data): http://lodlaundromat.org/

Report on Available Linked Data Training Resources:https://www.loc.gov/aba/pcc/sct/documents/PCCSCTFinalReportonAvailableLinkedDataTrainingResources.docx

Survey of Available RDF/Linked Data Creation Tools:https://wiki.duraspace.org/pages/viewpage.action?pageId=69014248

20

Vorführender


RDF 1.1 Primer: https://www.w3.org/TR/2014/NOTE-rdf11-primer-20140225/ SPARQL in 11 minutes: https://www.youtube.com/watch?v=FvGndkpa4K0 Semantic University: http://www.cambridgesemantics.com/semantic-university/ LOD Laundromat (entry point to a collection of existing data): http://lodlaundromat.org/ Report on Available Linked Data Training Resources: https://www.loc.gov/aba/pcc/sct/documents/PCCSCTFinalReportonAvailableLinkedDataTrainingResources.docx Survey of Available RDF/Linked Data Creation Tools: https://wiki.duraspace.org/pages/viewpage.action?pageId=69014248

https://www.w3.org/TR/2014/NOTE-rdf11-primer-20140225/

https://www.youtube.com/watch?v=FvGndkpa4K0

http://www.cambridgesemantics.com/semantic-university/

http://lodlaundromat.org/

https://www.loc.gov/aba/pcc/sct/documents/PCCSCTFinalReportonAvailableLinkedDataTrainingResources.docx

https://wiki.duraspace.org/pages/viewpage.action?pageId=69014248

Documents

DONNÉES DE LA RECHERCHE - Research Data Management · Outil d’intégration des données et triplestores RDF échelonnables SPARQL est un langage de requête puissant pour RDF Semblable