Présentation du web de données

Preview:

DESCRIPTION

Présentation donnée pour le secteur "Coopération et Développement" de l'ADBS, à l'occasion d'un atelier intitulé "Web sémantique et développement durable", à l'UNESCO, le 31 janvier 2011.

Citation preview

Introduction au Web de données :

L’importance des URIs et de la confiance

Alexandre MonninSecteur Coopération et développement de l’ADBS.

Atelier « Web sémantique et développement durable »UNESCO, 31 janvier 2011

Le Web « 2.0 » : La fin des ontologies ?

Des visions du monde opposées : le choix du descripteur n’est pas neutre

Clay Shirky (Ontology is Overrated: Categories, Links, and Tags)

Des lieux de savoir et de pouvoir.

Library of Congress

• Les sujets correspondent parfois à une réalité d’une autre âge (en particulier dans le domaine politique ou celui des mœurs) :

• Ne correspondant pas à la réalité contemporaine, les listes d’autorités n’en couvrent qu’une partie (passent sous silence les phénomènes nouveaux, la réévaluation de phénomènes déjà connus, etc.)

“Homosexuality” was, until 1946, a subtopic of “Sexual perversion,” and even after it moved to stand as its own heading, a ‘see also’ from “Sexual perversion” (which changed to “Sexual deviance”) remained until 1972. Although LC is supposed to use common or popular rather than medical or scientific terms, Greenblatt emphasizes that the Library of Congress did not adopt the term “Gay” for “Homosexual” until 1987, although this change was in the literature came several years after The New York Times adopted the usage of the term “Gay.” (Cynde Moya)

Quelles solutions ?

a) Réformer les institutions.

Sanford Berman

LCSH Scorecard

De nouvelles entrées

50 ans après l’apparition du mouvement !

Les travaux de Cynde Moya* ont montré que l’information contenue dans les bibliothèques, touchant à des sujet ayant trait à la sexualité, n’était guère accessible. Faute de volonté, faute également d’un ensemble approprié de métadonnées. (*"Talking About "Pornography": A Comparative Subject Analysis of Sexually Explicit Materials“)

b) Autre solution :

Photo : http://www.behance.net/Gallery/Do-It-Yourself/48520

S’organiser pour faire du descripteur (des métadonnées en général) un enjeu politique :

Des communautés s’organisent pour créer leurs thesaurus, classifications, etc.

Le recours au tagging s’impose également comme une solution immédiatement accessible.

La multiplication des classifications = leur disparition ?

Photo : http://www.flickr.com/photos/27670134@N05/3964189052/ Photo : http://www.hyperorg.com/speaker/photos.html

Prise des bibliothèques ?

De nouvelles Bastilles du savoir ?

Image : http://www.flickr.com/photos/szjason/1741964043/

Quid du Web de données dans tout ça ?

RFC 1630 URI Noms et adresses

RFC 1737 URN Nom

RFC 1738 URL Adresses

RFC 2396 URI Nom propre déréférençable

RFC 3986 URI Nom propre déréférençable

Du point de vue des standards… un Web de ressources identifiées par des URIs

Dynamic Web sites

First instability cause : A (potential) content

generation at every request

Content generation L’accès à une « page » Web Schéma : Nicolas Delaforge

On ne parlera pas de pages mais de HTTP représentations

Journée d'étude PraTIC : Spatialités et Temporalités du Web.

Ressources v.s représentations

• “Four years later (après la RFC 1630) , in 2396, we have the fully articulated position --anything can be a resource, and representations are what is retrieved, not resources. Resources whose representation is time-varying are explicitely acknowledged (I'm guessing this comes from Roy's interest in this case as discussed in his PhD).”

(Henry S. Thompson)

Journée d'étude PraTIC : Spatialités et Temporalités du Web.

Variations diachroniques

• “The distinction between resource and representation was something that I added to the definitions (…)The observations demonstrated that people were not identifying documents, but rather the conceptual mapping over time [nous soulignons] -- what TimBL later called the "sameness" of resources.”

(Roy Fielding)

J’accède à une représentation (au sens du protocole HTTP) de cette ressource à un moment t.

11th October 12th October

Négociation de contenu (variations synchroniques)

• “The distinction between the abstract document and its representation in a network transaction was a firm principle of System 33 (developed in the late 80s, with the ideas primarily developed by Mark Weiser). (…)

• “I've always thought that the ideas of content negotiation and the separation of the abstract 'information resource' from its concrete representation in a file format [nous soulignons] made their way into HTTP (…) and that the elaboration of the idea that a URI might point to a service rather than any 'document' at all was also first demonstrated by Steve Putz in the PARC map browser.”

(Larry Masinter)

Journée d'étude PraTIC : Spatialités et Temporalités du Web.

= « Conneg »

http://www.w3.org/QA/2006/02/content_negotiation.html

La vrai question n’est pas : « toutes ces représentations sont-elles identiques ? » mais, « sont-elles le représentations d’une même ressource ? » (identité inter-représentation v.s fidélité des représentations à une même ressource).

Je n’accède jamais à une ressource Je n’accède qu’à ses représentations

Ex. : la page d’accueil du Monde vs ses représentations, hier, aujourd’hui, demain.

Des « adresses » d’objets inaccessibles ?

• “Locators may apply to resources that are not always or not ever network accessible. Examples of the latter include human beings and physical objects that have no electronic instantiation (that is, objects without an existence completely defined by digital objects such as disk files).”

(RFC 1736)

On parlera de ressources informationnelles ou non informationnelles.

Au final…

La ressource n’est pas un objet au sens traditionnel.

Elle correspond à une entité quelconque (« ma ressource est Tim Berners-Lee ») et permet d’en générer des représentations plus ou moins fidèles.

Faisant l’objet d’une publication, elle est également soumise à un processus éditorial qui garantit l’acuité de la description et la

fidélité des représentations.

Ces descriptions peuvent diverger.

Ex. : Si ma ressource est l’élément Sodium…

• OpenCyc : un élément est l’ensemble de tous les fragments de cet élément à l’état pur

• Dbpedia : inclut en outre les isotopes de sodium (nombre de neutrons différent)

Cf. Harry Halpin & Patrick Hayes, When owl:sameAs isn’t the same : An Analysis of Identity Links on the Semantic Web

Toutes les ressources ne se donc valent pas !

La confiance est donc un enjeu essentiel du Web de données étant donné que les assertions y sont a priori tenues pour vraies (le faux n’existe pas du point de vue de RDF). Il n’existe donc pas de mécanismes pour établir leur vérité, uniquement leurs conséquences logiques. Leur correspondance avec la réalité, leur vérité, est l’affaire, en amont, de ceux qui les publient sous forme de triplets RDF, en aval, de ceux qui les réutilisent.

Tim Berners-Lee, 2005

URI

Uniform/Universal : l’identifiant universel (d’une ressource) qui permet d’accéder à ses représentations (variables) et à ses projections (locales)

Resource : la règle/description grâce à laquelle on va identifier une entité, y faire référence et en donner des représentation. L’adéquation de la ressource repose sur l’acuité de sa description/règle et sur la confiance en la personne/institution qui la publie.

A la base du système…

• Chacun est libre de créer une URI pour n’importe quelle entité (pace Shirky).

• Mais on ne peut faire également confiance à tout le monde.

Conclusion : A qui faire confiance ?

• Quelles représentations du monde ? • Qui les produit ? • A qui se fier (grandes institutions,

communautés d’intérêts, individus…) ?• A qui se fier selon les contextes ?

Merci !

Recommended