Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,

Preview:

DESCRIPTION

Intervention au séminaire Inria IST 2012 à Carnac, le 4 octobre 2012.

Citation preview

Du cycle de vie des données au cycle de vie des objets

Alexandre Monnin Paris 1-IRI-Inria

(Twitter : @aamonnz & @philoweb)

Disputatio : Wikipédia/DBpédia, une utopie documentaire au cœur du

Web et du Web de données ?

Plan

1. Retour sur la discussion de lundi 01/10/2012. Sources primaires et sources secondaires sur Wikipédia : le renouveau du document ?

2. Articles, encyclopédies, bibliothèques… comment éviter la reductio ad documentum ?

3. De la question documentaire à la question politique.

I Wikipédia : little bits of documents go

a long way… ?

Retour en arrière : sur quelle source peut-on s’appuyer ?

Une source secondaire ?

« Aujourd'hui la rubrique de Wikipédia est corrigée sur la foi de la lettre publiée par Ph. Roth. Toujours selon les règles de

Wikipédia, la précision sur l'inspiration est maintenant "sourcée", c'est à dire qu'elle peut-être validée par une

référence publiée. Les règles de rédaction de Wikipédia sont très claires à ce sujet : Les articles de Wikipédia devraient

reposer principalement sur des sources secondaires fiables. Toute utilisation de sources primaires devrait s'appuyer sur

des sources secondaires, et ne pas être une sélection, analyse, synthèse ou interprétation inédite réalisée par un contributeur

de Wikipédia. Les sources primaires seules sont acceptées si elles consistent en des assertions factuelles et non sujettes à

interprétation ou polémique. » (J.-M. Salaün)

http://blogues.ebsi.umontreal.ca/jms/index.php/post/2012/09/11/Nouveau-r%C3% A9gime-de-v%C3%A9rit%C3%A9%2C-d%C3%A9monstration-par-l-absurde

A l’inverse : une source primaire ?

Question : une lettre est-elle davantage une

source secondaire qu’un post de blog

scientifique ?

http://blogues.ebsi.umontreal.ca/jms/index.php/post/2012/09/11/Nouveau-r%C3% A9gime-de-v%C3%A9rit%C3%A9%2C-d%C3%A9monstration-par-l-absurde

Comment la lettre de P. Roth est-elle utilisée ?

Comme une source primaire dont il est rendu compte factuellement.

Wikipedia, The Human Stain, 3 octobre 2012, 23h50

Si ce n’est la source, c’est donc son auteur ?

« Il est (…) absurde de considérer qu'un auteur ne soit pas la meilleure source pour éclairer son inspiration » (J.-M. Salaün)

« Au plan scientifique, l’auteur qui parle de son œuvre (dans une lettre) n’a pas plus de légitimité à le faire que le chercheur qui parle de son objet (sur un blog scientifique). » (A.M.)

WP : Bouvard et Pécuchet ?

« Wikipédia, et sans doute le web en général, se trouve à la fois dans la continuité d'une tradition documentaire et en même temps peut-être dans une bascule de notre régime de vérité » (J.-M. S.) « Elle retourne notre relation au savoir qui devient le résultat d'une interrogation contrôlée d'un patrimoine documentaire accumulé et donc seulement de façon indirecte le résultat de la découverte d'un travail créatif, d'un inédit, d'une invention. La création n'est plus au centre, elle fait place au partage. » (J.-M. S.)

Nuançons…

• Il est vrai que dans la théorisation de cette fameuse entrée de Wikipédia il manque la création :

1. Sources primaires : témoignages (hors WP)

2. Sources secondaires : publications scientifiques (hors WP)

3. Sources tertiaires : ensemble de citations de sources secondaires

Pourtant…

• Cet article n’est qu’un auto-théorisation : il possède un caractère normatif (il reste à prouver qu’il colle bien à la réalité – c’est le travail du chercheur de le démontrer), qui sert d’orientation au processus éditorial de Wikipedia.

• Il exclut une toute petite chose : le texte même des différentes entrées de Wikipédia, la contribution des utilisateurs en somme (= ce que l’on fait des sources secondaire), à laquelle il ne réserve aucune place (= ni source 1aire, ni 2aire, ni 3aire).

Pourquoi ?

• Raisons juridiques : Wikipédia n’est pas éditeur de contenus originaux, mais simple hébergeurs (position plus facile à défendre en se présentant comme une source tertiaire).

En définitive, c’est une protection contre des menaces juridiques incessantes.

En réalité… il importe de reconnaître la pluralité des sources

• Des régimes d’énonciation (B. Latour) différents selon les « domaines » (droit, sciences, fiction – c’est le cas avec l’exemple de Philippe Roth, etc.)

• Plus large que le Mundaneum :

= Des sources différentes

= Des attitudes différentes vis-à-vis des sources

Quels articles scientifiques pour parler des… Lolcats !?

Ou de… :

= Un post de blog

Pourtant utilisé comme une source secondaire !

II De la variété des sources sur

Wikipédia à la variété des ressources informationnelles sur le Web

Quel est l’enjeu de la discussion précédente ?

Etablir (ou réfuter) une double thèse :

A. Concernant le Web :

Au cœur du Web on retrouve Wikipédia – une encyclopédie ;

Au cœur de Wikipédia, les sources secondaires ;

Que sont les sources secondaires ? Des documents.

donc le Web est bien un Web de documents.

B. Concernant le Web de données : Au cœur du Web, on retrouve Wikipédia et ses articles, Au cœur des articles on retrouve les notices (les infoboxes), des documents qui parlent d’autres documents, Au cœur du Web de données on retrouve des notices (infoboxes) rassemblées sous forme de collections documentaires (le catalogue = DBpedia) donc le Web de données, comme le Web, est et demeure fondamentalement documentaire.

L’Europe est la plus belle partie du monde ; La France est le plus beau royaume d’Europe ; Paris est la plus belle ville de la France ; Le collège de Beauvais est le plus beau collège de Paris ; Ma chambre est la plus belle chambre du collège de Beauvais ; Je suis le plus bel homme de ma chambre ; Donc je suis le plus bel homme du monde…

Le sorite de Cyrano

• Sources secondaire : articles scientifiques

• Sources tertiaires : ensembles d’article scientifiques

Ce Web documentaire est très sérieux.

Seul problème... il prend fin dès 1993.

A partir de là, les choses ont empiré (chouette !)

Ex. : nouvelles formes d’écriture du document numérique

• Churnalism : 80% des nouvelles (articles, dépêches d’agences) ne sont pas originales. 12% ont été écrites par un reporter.

• Article Spinning : générer automatiquement du contenu dérivé à partir d’un contenu « original »

http://www.seinsights.com/search-engine-optimization/seo-et-article-spinning-reecri vez-vos-articles-gratuitement-et-en-ligne/

Résultat :

http://www.seinsights.com/search-engine-optimization/seo-et-article-spinning-reecrivez -vos-articles-gratuitement-et-en-ligne/

Nouvelles formes dégradées du document numérique (suite)

• Article Spinning : « produire avec des machine des pages qui s’appuient sur l’existant » ?

• (mise en abyme ou mise en abîme ?)

Contenus dérivés ou contenus à la dérive ?

Cette dérive est imputable au caractère manipulable du document numérique.

Le numérique permet à la fois

de recréer techniquement les propriétés du documents (de

les artéfactualiser cf. intervention de Stéphane Crozat)

mais aussi, et tout aussi bien,

de les révoquer de manière drastique.

Théoriser le Web c’est donc rendre compte aussi bien…

du VU du NON-VU

du LU du NON-LU

du SU du NON-SU

Architecture du Web

III Au final, quelle place pour

Wikipédia/DBpédia ?

Une autre vision : sociologie de la traduction

Ex. des articles scientifiques : réinscrire le document dans des chaînes de traductions.

Wikipédia, Théorie de l’acteur-réseau, 4 octobre 2012, 10h00

Différentes encyclopédies (SEP, IEP), différentes associations…

... sans compter les différentes versions linguistiques de Wikipédia, les différents espaces d’écritures…

Les deux sens du mot « fait »

• « Les faits sont faits » (Le Roy, cf. aussi G. Bachelard et B. Latour).

• Par conséquent : les faits sont aussi défaits.

• Bruno Latour explique que l’objectivité est le rassemblement virtuel de tous les porteurs d’objections (Changer de société, refaire de la sociologie).

• On comprends dès lors à quel point la discussion est essentielle sur Wikipédia.

D’ailleurs… … d’après Wikipédia, les sources secondaires (importantes car « factuelles » - les faits sont faits !) tombent avec le temps, du fait de l’avancée des sciences, du côté des sources primaires. Une vision très marquée par les modes de publication dans les sciences dures, qui peinent à rendre compte de toutes les entités représentées dans Wikipédia. Au-delà, il faut expliquer comment les « faits » deviennent ensuite de simples représentations (et vice-versa ; c’est l’un des thèmes des Politiques de la Nature de B. Latour, également au cœur de Wikipédia).

Web de document et Web d’objets

• Au final, il n’y a que des ressources

• N’importe qui peut dire n’importe quoi sauf que…

• … il existe une plateforme globale où le collectif peut œuvrer à l’élaboration d’un monde commun en faisant subir des épreuves à ces ressources (cf. Joëlle Zask : « l’enquête comme inter-objectivation ») : c’est Wikipédia.

• Cela ne se fait pas sans porte-paroles (sources secondaires : le travail des scientifiques en particulier mais pas seulement), ni controverses.

Objectifs : repenser Wikipédia

• Reconnaître la variété des régimes d’énonciations

• Améliorer la variété des contributeurs (ex. : article sur la sexualité féminine : 1 contributrice pour 16 contributeurs), accueillir de nouvelles entités, susciter de nouvelles associations (pas seulement des points de vues).

• Outiller Wikipédia comme un espace de controverses, un forum hybride* à l’échelle globale.

Objectif : socialiser DBpedia

• Trop souvent, DBpedia apparaît comme un référentiel de faits stabilisés (paradoxe de l’étoile que l’on observe alors qu’elle a disparu - perte de 20% des URIs entre chaque dump). Il faut donc améliorer techniquement ainsi qu’au plan organisationnel l’ancrage de DBpédia dans Wikipédia.

• Premières étapes : sémantiser la vie sociale de Wikipédia, les pages de discussions et les historiques pour en tirer parti (notamment dans l’optique de l’analyse des controverses).

Merci !