37
Introduction au Web de données : L’importance des URIs et de la confiance Alexandre Monnin Secteur Coopération et développement de l’ADBS. Atelier « Web sémantique et développement durable » UNESCO, 31 janvier 2011

Présentation du web de données

Embed Size (px)

DESCRIPTION

Présentation donnée pour le secteur "Coopération et Développement" de l'ADBS, à l'occasion d'un atelier intitulé "Web sémantique et développement durable", à l'UNESCO, le 31 janvier 2011.

Citation preview

Page 1: Présentation du web de données

Introduction au Web de données :

L’importance des URIs et de la confiance

Alexandre MonninSecteur Coopération et développement de l’ADBS.

Atelier « Web sémantique et développement durable »UNESCO, 31 janvier 2011

Page 2: Présentation du web de données

Le Web « 2.0 » : La fin des ontologies ?

Page 3: Présentation du web de données

Des visions du monde opposées : le choix du descripteur n’est pas neutre

Clay Shirky (Ontology is Overrated: Categories, Links, and Tags)

Page 4: Présentation du web de données

Des lieux de savoir et de pouvoir.

Library of Congress

Page 5: Présentation du web de données

• Les sujets correspondent parfois à une réalité d’une autre âge (en particulier dans le domaine politique ou celui des mœurs) :

• Ne correspondant pas à la réalité contemporaine, les listes d’autorités n’en couvrent qu’une partie (passent sous silence les phénomènes nouveaux, la réévaluation de phénomènes déjà connus, etc.)

“Homosexuality” was, until 1946, a subtopic of “Sexual perversion,” and even after it moved to stand as its own heading, a ‘see also’ from “Sexual perversion” (which changed to “Sexual deviance”) remained until 1972. Although LC is supposed to use common or popular rather than medical or scientific terms, Greenblatt emphasizes that the Library of Congress did not adopt the term “Gay” for “Homosexual” until 1987, although this change was in the literature came several years after The New York Times adopted the usage of the term “Gay.” (Cynde Moya)

Page 6: Présentation du web de données

Quelles solutions ?

Page 7: Présentation du web de données

a) Réformer les institutions.

Page 8: Présentation du web de données

Sanford Berman

Page 9: Présentation du web de données

LCSH Scorecard

Page 10: Présentation du web de données

De nouvelles entrées

50 ans après l’apparition du mouvement !

Page 11: Présentation du web de données

Les travaux de Cynde Moya* ont montré que l’information contenue dans les bibliothèques, touchant à des sujet ayant trait à la sexualité, n’était guère accessible. Faute de volonté, faute également d’un ensemble approprié de métadonnées. (*"Talking About "Pornography": A Comparative Subject Analysis of Sexually Explicit Materials“)

Page 12: Présentation du web de données

b) Autre solution :

Photo : http://www.behance.net/Gallery/Do-It-Yourself/48520

Page 13: Présentation du web de données

S’organiser pour faire du descripteur (des métadonnées en général) un enjeu politique :

Des communautés s’organisent pour créer leurs thesaurus, classifications, etc.

Le recours au tagging s’impose également comme une solution immédiatement accessible.

Page 14: Présentation du web de données

La multiplication des classifications = leur disparition ?

Photo : http://www.flickr.com/photos/27670134@N05/3964189052/ Photo : http://www.hyperorg.com/speaker/photos.html

Page 15: Présentation du web de données

Prise des bibliothèques ?

Page 16: Présentation du web de données

De nouvelles Bastilles du savoir ?

Image : http://www.flickr.com/photos/szjason/1741964043/

Page 17: Présentation du web de données

Quid du Web de données dans tout ça ?

Page 18: Présentation du web de données

RFC 1630 URI Noms et adresses

RFC 1737 URN Nom

RFC 1738 URL Adresses

RFC 2396 URI Nom propre déréférençable

RFC 3986 URI Nom propre déréférençable

Du point de vue des standards… un Web de ressources identifiées par des URIs

Page 19: Présentation du web de données

Dynamic Web sites

First instability cause : A (potential) content

generation at every request

Content generation L’accès à une « page » Web Schéma : Nicolas Delaforge

Page 20: Présentation du web de données

On ne parlera pas de pages mais de HTTP représentations

Page 21: Présentation du web de données

Journée d'étude PraTIC : Spatialités et Temporalités du Web.

Ressources v.s représentations

• “Four years later (après la RFC 1630) , in 2396, we have the fully articulated position --anything can be a resource, and representations are what is retrieved, not resources. Resources whose representation is time-varying are explicitely acknowledged (I'm guessing this comes from Roy's interest in this case as discussed in his PhD).”

(Henry S. Thompson)

Page 22: Présentation du web de données

Journée d'étude PraTIC : Spatialités et Temporalités du Web.

Variations diachroniques

• “The distinction between resource and representation was something that I added to the definitions (…)The observations demonstrated that people were not identifying documents, but rather the conceptual mapping over time [nous soulignons] -- what TimBL later called the "sameness" of resources.”

(Roy Fielding)

Page 23: Présentation du web de données

J’accède à une représentation (au sens du protocole HTTP) de cette ressource à un moment t.

Page 24: Présentation du web de données

11th October 12th October

Page 25: Présentation du web de données

Négociation de contenu (variations synchroniques)

• “The distinction between the abstract document and its representation in a network transaction was a firm principle of System 33 (developed in the late 80s, with the ideas primarily developed by Mark Weiser). (…)

• “I've always thought that the ideas of content negotiation and the separation of the abstract 'information resource' from its concrete representation in a file format [nous soulignons] made their way into HTTP (…) and that the elaboration of the idea that a URI might point to a service rather than any 'document' at all was also first demonstrated by Steve Putz in the PARC map browser.”

(Larry Masinter)

Page 26: Présentation du web de données

Journée d'étude PraTIC : Spatialités et Temporalités du Web.

= « Conneg »

http://www.w3.org/QA/2006/02/content_negotiation.html

La vrai question n’est pas : « toutes ces représentations sont-elles identiques ? » mais, « sont-elles le représentations d’une même ressource ? » (identité inter-représentation v.s fidélité des représentations à une même ressource).

Page 27: Présentation du web de données

Je n’accède jamais à une ressource Je n’accède qu’à ses représentations

Ex. : la page d’accueil du Monde vs ses représentations, hier, aujourd’hui, demain.

Page 28: Présentation du web de données

Des « adresses » d’objets inaccessibles ?

• “Locators may apply to resources that are not always or not ever network accessible. Examples of the latter include human beings and physical objects that have no electronic instantiation (that is, objects without an existence completely defined by digital objects such as disk files).”

(RFC 1736)

Page 29: Présentation du web de données

On parlera de ressources informationnelles ou non informationnelles.

Page 30: Présentation du web de données

Au final…

Page 31: Présentation du web de données

La ressource n’est pas un objet au sens traditionnel.

Elle correspond à une entité quelconque (« ma ressource est Tim Berners-Lee ») et permet d’en générer des représentations plus ou moins fidèles.

Faisant l’objet d’une publication, elle est également soumise à un processus éditorial qui garantit l’acuité de la description et la

fidélité des représentations.

Page 32: Présentation du web de données

Ces descriptions peuvent diverger.

Ex. : Si ma ressource est l’élément Sodium…

• OpenCyc : un élément est l’ensemble de tous les fragments de cet élément à l’état pur

• Dbpedia : inclut en outre les isotopes de sodium (nombre de neutrons différent)

Cf. Harry Halpin & Patrick Hayes, When owl:sameAs isn’t the same : An Analysis of Identity Links on the Semantic Web

Page 33: Présentation du web de données

Toutes les ressources ne se donc valent pas !

La confiance est donc un enjeu essentiel du Web de données étant donné que les assertions y sont a priori tenues pour vraies (le faux n’existe pas du point de vue de RDF). Il n’existe donc pas de mécanismes pour établir leur vérité, uniquement leurs conséquences logiques. Leur correspondance avec la réalité, leur vérité, est l’affaire, en amont, de ceux qui les publient sous forme de triplets RDF, en aval, de ceux qui les réutilisent.

Tim Berners-Lee, 2005

Page 34: Présentation du web de données

URI

Uniform/Universal : l’identifiant universel (d’une ressource) qui permet d’accéder à ses représentations (variables) et à ses projections (locales)

Resource : la règle/description grâce à laquelle on va identifier une entité, y faire référence et en donner des représentation. L’adéquation de la ressource repose sur l’acuité de sa description/règle et sur la confiance en la personne/institution qui la publie.

A la base du système…

Page 35: Présentation du web de données

• Chacun est libre de créer une URI pour n’importe quelle entité (pace Shirky).

• Mais on ne peut faire également confiance à tout le monde.

Page 36: Présentation du web de données

Conclusion : A qui faire confiance ?

• Quelles représentations du monde ? • Qui les produit ? • A qui se fier (grandes institutions,

communautés d’intérêts, individus…) ?• A qui se fier selon les contextes ?

Page 37: Présentation du web de données

Merci !