24
Du document à la donnée et retour La fourmilière ou les Lumières Jean-Michel Salaün Séminaire INRIA – IST « Le document numérique à l'heure du web de données » 30 septembre 2012 © Nicolas Taffin

Du document à la donnée et retour : la fourmilière ou les Lumières

Embed Size (px)

DESCRIPTION

Présentation de Jean-Michel Salaün au séminaire Ist Inria 2012

Citation preview

Page 1: Du document à la donnée et retour : la fourmilière ou les Lumières

Du document à la donnée et retour

La fourmilière ou les Lumières

Jean-Michel SalaünSéminaire INRIA – IST

« Le document numérique àl'heure du web de données »

30 septembre 2012

© Nicolas Taffin

Page 2: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 2

© Nicolas Taffin

Epistemic infrastructureL’infrastructure épistémique de l’économie de la connaissance repose sur les bibliothèques, les archives, les musées, les galeries, les zoos, les aquariums et d’autres collections systématiques encore qui permettent aux individus de savoir ce qu’ils savent et de faire ce qu’ils font. Le rassemblement, la conservation, l’organisation, la représentation et la diffusion des documents d’archives, des plantes et des animaux, des objets rares ou communs, des œuvres d’art, etc. est au cœur de la production de connaissances, de l’enseignement, de la prise de décision et du commerce.

Margaret Hedstrom et John Leslie King, « Epistemic infrastructure in the rise of the knowledge economy », in Brian Kahin et Dominique Foray, Advancing Knowledge and the Knowledge Economy, MIT Press, Cambridge (Mass.), USA, 2006, p. 113-134.

Page 3: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 3

© Nicolas Taffin

CyberinfrastructureL’arrivée de l’internet a transformé les pratiques dans les sciences sociales et humaines (SHS), plus lentement que certains l’avaient espéré mais plus profondément que d’autres auraient attendu. Les ressources du patrimoine culturel numérique forment un ensemble de données essentielles pour les SHS : ces ressources, traitées grâce aux réseaux et aux logiciels, organisent aujourd’hui la façon dont les scientifiques découvrent et donnent du sens aux traces humaines tout en organisant la manière dont leurs résultats sont transmis à leurs étudiants, leurs collègues et au public en général

Our Cultural Commonwealth. The report of the American Council of Learned Societies Commission on Cyberinfrastructure for the Humanities and Social Sciences, 2006, 51p.

Page 4: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 4

© Nicolas Taffin

GoogleIl s’agit de cartographier le monde réel d’une façon que les ordinateurs puissent comprendre. Il s’agit de prendre des objets du monde réel, de comprendre ce que sont ces choses et quelles sont les choses importantes à leur sujet ainsi que leurs relations à d’autres choses. C’est la partie que je trouve la plus fascinante : quelle est la relation entre toutes ces choses différentes ?

Entretien avec la responsable du Knowledge Graph de Google, RWW, 26 juillet 2012.

Page 5: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 5

© Nicolas Taffin

La documentarisation(à la Bibliothèque du Congrès début 20ème

siècle)

Wikipédia

Page 6: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 6

© Nicolas Taffin

De la manufacture à l’industrie

Page 7: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 7

© Nicolas Taffin

1. Anthropologique : Forme VuDocument = Support + Inscription

2. Intellectuelle :Texte LuDocument = Code + représentation

3. Sociale : Médium SuDocument = Mémoire + transaction

Les trois dimensions du document

(Roger T. Pédauque)

Contratde

lecture

Page 8: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 8

© Nicolas Taffin

Du document à la donnée• 19e-20e : Document scientifique = article de revue et livre

» Transmettre et prouver

• 21e : Document scientifique =– Documents numériques (hyper-) (Web 1 modifie le vu)

• ArXive, ScienceDirect…• Gallica, Europeana, Google-Book…

– Néodocuments (Web 2 modifie le su)• Blogues• Wikipédia• Réseaux sociaux• Sites dynamiques, etc.

– Données (Web 3 modifie le lu)

» Partager et reconstruire ?

Page 9: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 9

© Nicolas Taffin

La documentarisation(vue par P. Otlet)

P.Otlet, Traité de documentation, 1934, p.41

Première modernité(première et deuxième

révolution industrielle)

Page 10: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 10

© Nicolas Taffin

Le Web des données(vue par le W3C)

2007 : web des donnéesW3C

Seconde modernité ou modernité tardive

(troisième révolution industrielle)

Page 11: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 11

© Nicolas Taffin

L’inversion de la logique de documentarisation

On construit le savoir à partirde l’observation de la nature

On reconstruit le savoirà partir des ressources disponibles

Page 12: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 12

© Nicolas Taffin

Le rapport au savoir change

Bienvenue sur WikipédiaLe projet d’encyclopédie libre que vous pouvez améliorer

Les articles de Wikipédia devraient reposer principalement sur des sources secondaires fiables. Toute utilisation de sources primaires devrait s'appuyer sur des sources secondaires, et ne pas être une sélection, analyse, synthèse ou interprétation inédite réalisée par un contributeur de Wikipédia. Les sources primaires seules sont acceptées si elles consistent en des assertions factuelles et non sujettes à interprétation ou polémique. Wkp

Page 13: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 13

© Nicolas Taffin

Transparence et accélération

Le dialogue de sourds entre Ph. Roth et Wikipédia :

• 20 août première correction : j'ai retiré la référence à Anatole Broyard sur l'insistance de Philip Roth, je suis son biographe.

• Une minute après, un éditeur de wkp remet le texte initial : Pouvez-vous le vérifier ?.

• Vingt minutes plus tard, correction renouvelée : Une nouvelle fois, j'ai enlevé la référence à Anatole Broyard. C'est tout à fait inexact et donc sans objet. Je suis le biographe de Roth et j'ai fait cette correction à sa demande.

• Six minutes après, un autre éditeur de wkp remet de nouveau le texte initial et ajoute de nouveaux détails pour confirmer l'inspiration du roman par le personnage d'A. Broyard. Cet éditeur prendra deux heures de son temps pour cette rédaction. Comme l'indique le wikipédien qui relate l'histoire : cet éditeur a du se prendre pour un vrai détective !

• 7 septembre Ph Roth publie une Lettre ouverte à Wikipédia sur The New Yorker, très largement commentée dans la presse et sur le web.

• 18h54 correction réalisée par un membre de la Wikimedia Foundation.

Page 14: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 14

© Nicolas Taffin

Wikipédia, au centre du web de données

Page 15: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 15

© Nicolas Taffin

Wikipédia + Google = le sens commun

• Carnac

• François Hollande• Barak Obama• Marilyn Monroe

• Jean-Michel Salaün

Page 16: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 16

© Nicolas Taffin

Web de données + traces = Knowledge Graph

Avant, Metaweb était un référentiel d'entités et de faits et les employés de la société utilisaient beaucoup leur intuition pour trouver ce qui importait pour les usagers et quelle information chercher. Depuis qu'ils ont étérachetés par Google, Google dispose de tous ces usagers cherchant de l'information, et de là nous savons quelles choses du monde sont importantes (...) Google sait que les gens qui cherchent une chose en cherchent aussi d'autres. Ainsi on peut trouver des relations intéressantes en regardant les sessions agrégées des usagers. Une des prochaines étapes est en effet d'expliquer ces relations fortuites.

Entretien avec la responsable du Knowledge Graph de Google, RWW, 26 juillet 2012.

Page 17: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 17

© Nicolas Taffin

Pour une histoire des (bases de) données

• Les cartes perforées au service du contrôle

• La classification au service du partage du savoir

• Les hobbyistes au service de l’autonomie• Le « big data » et le retour du contrôle ?

Driscoll, Kevin. « From Punched Cards to “Big Data”: A Social History of Database Populism ». communication 1 1, no. 1 (août 29, 2012).

Page 18: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 18

© Nicolas Taffin

Le « big data »Publication vs transparence

Ce sont les petites miettes de données que vous laissez derrière vous quand vous vous déplacez sur terre.Ce que ces miettes racontent, c'est l'histoire de votre vie. Elles disent ce que vous avez choisi de faire. C'est très différent de ce que vous mettez sur Facebook. Ce que vous mettez sur Facebook, c'est ce que vous voudriez dire aux gens, rédigé selon les normes d'aujourd'hui. (...)Si je peux connaitre certains de vos comportements, je peux inférer le reste juste en vous comparant avec la foule de ceux qui vous ressemblent. (…)Ce qui compte vraiment, c'est comment les gens sont reliés les uns aux autres par les machines et comment ils créent un marché financier, un gouvernement, une entreprise et d'autres structures sociales.

Alex Pentland in Reinventing Society In The Wake Of Big Data. Edge, août 30, 2012.

Page 19: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 19

© Nicolas Taffin

Le risque : la fourmilière

• Selon Thomas Bern, la transparence conduit à un gouvernement « inoffensif »où les décisions politiques ne sont plus discutées et sont diluées dans le social.

• Selon Harmut Rosa, accélération rime avec aliénation.

Page 20: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 20

© Nicolas Taffin

Analyser l’histoire de la statistique

Dans son architecture actuelle, la statistique se présente comme la combinaison de deux types d’outillages distincts (…). Le premier est politico-administratif : peu à peu se sont mis en place, depuis le 18e siècle, des systèmes d’enregistrement, de codage, de tabulation et de publications de « statistiques » au sens de description chiffrée de divers aspects du monde social. Le second est cognitif, et implique la mise en forme de schèmes scientifiques (moyenne, dispersion, corrélation, échantillonnage probabiliste), destinés à résumer, notamment par des outils mathématiques une diversité supposée non maîtrisable. (A. Desrosières)

Dans son architecture actuelle, le web de données se présente comme la combinaison de deux types d’outillages distincts. Le premier est politico-administratif : peu à peu se sont mis en place, à partir de la fin du 19e siècle des systèmes d’enregistrement, de codage, de classification et de publication de « bases de données » au sens de description factuelles de divers aspects du monde social. Le second est cognitif et implique la constitution de schémas logiques destinés à résumer grâce à des algorithmes une diversité supposée non maîtrisable.

Page 21: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 21

© Nicolas Taffin

AnalyserLa théorie du document

• Mieux comprendre le passage du « transmettre et prouver » au « partager et reconstruire ».

• Suivre les stratégies commerciales et non commerciales sur le vu, le lu et le su.

• Observer et comprendre le nouveau contrat de lecture dans les formes ordinaires de consultations documentaires numériques.

Page 22: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 22

© Nicolas Taffin

Réinventer un contrat de lecture

La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

Page 23: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 23

© Nicolas Taffin

Agir Vers de nouvelles Lumières

• Participer au mouvement : ouverture et agilité.

• Gérer l’hybride sans sectarisme.

• Vers une « architecture de l’information ».

Page 24: Du document à la donnée et retour : la fourmilière ou les Lumières

JM SalaunINRIA-IST-Carnac-2012 24

© Nicolas Taffin

En résumé• Le web des données est une étape

supplémentaire dans une longue histoire des systèmes documentaires.

• L’évolution du web favorise une modification de la notion de document vers « partager et reconstruire ».

• Transparence et accélération marquent cette étape, non sans risque.

• Nous avons une responsabilité à tenir dans cette dynamique.