40
Du cycle de vie des données au cycle de vie des objets Alexandre Monnin Paris 1-IRI-Inria (Twitter : @aamonnz & @philoweb) Disputatio : Wikipédia/DBpédia, une utopie documentaire au cœur du Web et du Web de données ?

Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Embed Size (px)

DESCRIPTION

Intervention au séminaire Inria IST 2012 à Carnac, le 4 octobre 2012.

Citation preview

Page 1: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Du cycle de vie des données au cycle de vie des objets

Alexandre Monnin Paris 1-IRI-Inria

(Twitter : @aamonnz & @philoweb)

Disputatio : Wikipédia/DBpédia, une utopie documentaire au cœur du

Web et du Web de données ?

Page 2: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Plan

1. Retour sur la discussion de lundi 01/10/2012. Sources primaires et sources secondaires sur Wikipédia : le renouveau du document ?

2. Articles, encyclopédies, bibliothèques… comment éviter la reductio ad documentum ?

3. De la question documentaire à la question politique.

Page 3: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

I Wikipédia : little bits of documents go

a long way… ?

Page 4: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Retour en arrière : sur quelle source peut-on s’appuyer ?

Page 5: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Une source secondaire ?

« Aujourd'hui la rubrique de Wikipédia est corrigée sur la foi de la lettre publiée par Ph. Roth. Toujours selon les règles de

Wikipédia, la précision sur l'inspiration est maintenant "sourcée", c'est à dire qu'elle peut-être validée par une

référence publiée. Les règles de rédaction de Wikipédia sont très claires à ce sujet : Les articles de Wikipédia devraient

reposer principalement sur des sources secondaires fiables. Toute utilisation de sources primaires devrait s'appuyer sur

des sources secondaires, et ne pas être une sélection, analyse, synthèse ou interprétation inédite réalisée par un contributeur

de Wikipédia. Les sources primaires seules sont acceptées si elles consistent en des assertions factuelles et non sujettes à

interprétation ou polémique. » (J.-M. Salaün)

http://blogues.ebsi.umontreal.ca/jms/index.php/post/2012/09/11/Nouveau-r%C3% A9gime-de-v%C3%A9rit%C3%A9%2C-d%C3%A9monstration-par-l-absurde

Page 6: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

A l’inverse : une source primaire ?

Question : une lettre est-elle davantage une

source secondaire qu’un post de blog

scientifique ?

http://blogues.ebsi.umontreal.ca/jms/index.php/post/2012/09/11/Nouveau-r%C3% A9gime-de-v%C3%A9rit%C3%A9%2C-d%C3%A9monstration-par-l-absurde

Page 7: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Comment la lettre de P. Roth est-elle utilisée ?

Comme une source primaire dont il est rendu compte factuellement.

Wikipedia, The Human Stain, 3 octobre 2012, 23h50

Page 8: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Si ce n’est la source, c’est donc son auteur ?

« Il est (…) absurde de considérer qu'un auteur ne soit pas la meilleure source pour éclairer son inspiration » (J.-M. Salaün)

« Au plan scientifique, l’auteur qui parle de son œuvre (dans une lettre) n’a pas plus de légitimité à le faire que le chercheur qui parle de son objet (sur un blog scientifique). » (A.M.)

Page 9: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

WP : Bouvard et Pécuchet ?

« Wikipédia, et sans doute le web en général, se trouve à la fois dans la continuité d'une tradition documentaire et en même temps peut-être dans une bascule de notre régime de vérité » (J.-M. S.) « Elle retourne notre relation au savoir qui devient le résultat d'une interrogation contrôlée d'un patrimoine documentaire accumulé et donc seulement de façon indirecte le résultat de la découverte d'un travail créatif, d'un inédit, d'une invention. La création n'est plus au centre, elle fait place au partage. » (J.-M. S.)

Page 10: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Nuançons…

• Il est vrai que dans la théorisation de cette fameuse entrée de Wikipédia il manque la création :

1. Sources primaires : témoignages (hors WP)

2. Sources secondaires : publications scientifiques (hors WP)

3. Sources tertiaires : ensemble de citations de sources secondaires

Page 11: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Pourtant…

• Cet article n’est qu’un auto-théorisation : il possède un caractère normatif (il reste à prouver qu’il colle bien à la réalité – c’est le travail du chercheur de le démontrer), qui sert d’orientation au processus éditorial de Wikipedia.

• Il exclut une toute petite chose : le texte même des différentes entrées de Wikipédia, la contribution des utilisateurs en somme (= ce que l’on fait des sources secondaire), à laquelle il ne réserve aucune place (= ni source 1aire, ni 2aire, ni 3aire).

Page 12: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Pourquoi ?

• Raisons juridiques : Wikipédia n’est pas éditeur de contenus originaux, mais simple hébergeurs (position plus facile à défendre en se présentant comme une source tertiaire).

En définitive, c’est une protection contre des menaces juridiques incessantes.

Page 13: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

En réalité… il importe de reconnaître la pluralité des sources

• Des régimes d’énonciation (B. Latour) différents selon les « domaines » (droit, sciences, fiction – c’est le cas avec l’exemple de Philippe Roth, etc.)

• Plus large que le Mundaneum :

= Des sources différentes

= Des attitudes différentes vis-à-vis des sources

Page 14: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Quels articles scientifiques pour parler des… Lolcats !?

Page 15: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Ou de… :

Page 16: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

= Un post de blog

Page 17: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Pourtant utilisé comme une source secondaire !

Page 18: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

II De la variété des sources sur

Wikipédia à la variété des ressources informationnelles sur le Web

Page 19: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Quel est l’enjeu de la discussion précédente ?

Etablir (ou réfuter) une double thèse :

A. Concernant le Web :

Au cœur du Web on retrouve Wikipédia – une encyclopédie ;

Au cœur de Wikipédia, les sources secondaires ;

Que sont les sources secondaires ? Des documents.

donc le Web est bien un Web de documents.

Page 20: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

B. Concernant le Web de données : Au cœur du Web, on retrouve Wikipédia et ses articles, Au cœur des articles on retrouve les notices (les infoboxes), des documents qui parlent d’autres documents, Au cœur du Web de données on retrouve des notices (infoboxes) rassemblées sous forme de collections documentaires (le catalogue = DBpedia) donc le Web de données, comme le Web, est et demeure fondamentalement documentaire.

Page 21: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

L’Europe est la plus belle partie du monde ; La France est le plus beau royaume d’Europe ; Paris est la plus belle ville de la France ; Le collège de Beauvais est le plus beau collège de Paris ; Ma chambre est la plus belle chambre du collège de Beauvais ; Je suis le plus bel homme de ma chambre ; Donc je suis le plus bel homme du monde…

Le sorite de Cyrano

Page 22: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

• Sources secondaire : articles scientifiques

• Sources tertiaires : ensembles d’article scientifiques

Page 23: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Ce Web documentaire est très sérieux.

Seul problème... il prend fin dès 1993.

Page 24: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

A partir de là, les choses ont empiré (chouette !)

Page 25: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Ex. : nouvelles formes d’écriture du document numérique

• Churnalism : 80% des nouvelles (articles, dépêches d’agences) ne sont pas originales. 12% ont été écrites par un reporter.

• Article Spinning : générer automatiquement du contenu dérivé à partir d’un contenu « original »

http://www.seinsights.com/search-engine-optimization/seo-et-article-spinning-reecri vez-vos-articles-gratuitement-et-en-ligne/

Page 26: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Résultat :

http://www.seinsights.com/search-engine-optimization/seo-et-article-spinning-reecrivez -vos-articles-gratuitement-et-en-ligne/

Page 27: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Nouvelles formes dégradées du document numérique (suite)

• Article Spinning : « produire avec des machine des pages qui s’appuient sur l’existant » ?

• (mise en abyme ou mise en abîme ?)

Page 28: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Contenus dérivés ou contenus à la dérive ?

Cette dérive est imputable au caractère manipulable du document numérique.

Le numérique permet à la fois

de recréer techniquement les propriétés du documents (de

les artéfactualiser cf. intervention de Stéphane Crozat)

mais aussi, et tout aussi bien,

de les révoquer de manière drastique.

Page 29: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Théoriser le Web c’est donc rendre compte aussi bien…

du VU du NON-VU

du LU du NON-LU

du SU du NON-SU

Architecture du Web

Page 30: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

III Au final, quelle place pour

Wikipédia/DBpédia ?

Page 31: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Une autre vision : sociologie de la traduction

Ex. des articles scientifiques : réinscrire le document dans des chaînes de traductions.

Wikipédia, Théorie de l’acteur-réseau, 4 octobre 2012, 10h00

Page 34: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Différentes encyclopédies (SEP, IEP), différentes associations…

... sans compter les différentes versions linguistiques de Wikipédia, les différents espaces d’écritures…

Page 35: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Les deux sens du mot « fait »

• « Les faits sont faits » (Le Roy, cf. aussi G. Bachelard et B. Latour).

• Par conséquent : les faits sont aussi défaits.

• Bruno Latour explique que l’objectivité est le rassemblement virtuel de tous les porteurs d’objections (Changer de société, refaire de la sociologie).

• On comprends dès lors à quel point la discussion est essentielle sur Wikipédia.

Page 36: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

D’ailleurs… … d’après Wikipédia, les sources secondaires (importantes car « factuelles » - les faits sont faits !) tombent avec le temps, du fait de l’avancée des sciences, du côté des sources primaires. Une vision très marquée par les modes de publication dans les sciences dures, qui peinent à rendre compte de toutes les entités représentées dans Wikipédia. Au-delà, il faut expliquer comment les « faits » deviennent ensuite de simples représentations (et vice-versa ; c’est l’un des thèmes des Politiques de la Nature de B. Latour, également au cœur de Wikipédia).

Page 37: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Web de document et Web d’objets

• Au final, il n’y a que des ressources

• N’importe qui peut dire n’importe quoi sauf que…

• … il existe une plateforme globale où le collectif peut œuvrer à l’élaboration d’un monde commun en faisant subir des épreuves à ces ressources (cf. Joëlle Zask : « l’enquête comme inter-objectivation ») : c’est Wikipédia.

• Cela ne se fait pas sans porte-paroles (sources secondaires : le travail des scientifiques en particulier mais pas seulement), ni controverses.

Page 38: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Objectifs : repenser Wikipédia

• Reconnaître la variété des régimes d’énonciations

• Améliorer la variété des contributeurs (ex. : article sur la sexualité féminine : 1 contributrice pour 16 contributeurs), accueillir de nouvelles entités, susciter de nouvelles associations (pas seulement des points de vues).

• Outiller Wikipédia comme un espace de controverses, un forum hybride* à l’échelle globale.

Page 39: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Objectif : socialiser DBpedia

• Trop souvent, DBpedia apparaît comme un référentiel de faits stabilisés (paradoxe de l’étoile que l’on observe alors qu’elle a disparu - perte de 20% des URIs entre chaque dump). Il faut donc améliorer techniquement ainsi qu’au plan organisationnel l’ancrage de DBpédia dans Wikipédia.

• Premières étapes : sémantiser la vie sociale de Wikipédia, les pages de discussions et les historiques pour en tirer parti (notamment dans l’optique de l’analyse des controverses).

Page 40: Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Merci !